1. Datenaufbereitung
Zuerst galt es die jeweiligen regulatorischen Bereiche mit einer Länge von 500nt aus den jeweiligen Genomdaten herauszuschneiden.
Hierfür hatten wir die Information über die jeweiligen Abschnitte bereits vorliegen, sowie ein Perl-Skript
cutter1_3.pl welches uns die Bereiche ausschnitt.
2. Matching der Regionen
In diesem Abschitt, benutzten wir die blastn Methode um Ähnlichkeiten in den Regionen verschiedener Spezies
und Cluster festzustellen. Wir überprüften die Abschnitte aller Cluster einer Spezies untereinander sowie mit denen der anderen Spezies.
Wir kamen dabei zu folgenden Ergebnissen:
Die Ergebnisse der obigen Tabelle ergaben sich aus den Blastergebnissen folgendermassen.
Jeder Tabelleneintrag ist ein Score, der aus der Summe des Produktes der prozentualen Übereinstimmung mit der Summe der
gematchten Längen beider Sequenzen und dies anteilig der Summe der Längen beider Regionen, sprich 2*500=1000
berechnet wurde.
3. Maskieren der Repeats
Für die weitere Verarbeitung unserer Daten, zur effektiven Auffindung von Motiven war es notwendig, häufige Repeats zu maskieren um
die Wahrscheinlichkeit zu erhöhen, dass es sich bei den Motiven auch um Konsensussequenzen regulatorischer Elemente wie z.B.
Transkriptionsfaktorbindungsstellen handelt.
Für die Durchführung dieser Aufgabe bedienten wir uns des Maskierungstools Censor, welches nach
solchen häufigen Repeats sucht und jene Regionen mit dem Buchstaben N aus dem Konsensusalphabet markiert, welcher für ein
Element der Menge {A,T,G,C} steht.
4. Motivsuche
Für die homologe und paraloge Suche benutzten wir die hier aufgeführten Tools.
Dabei gestalteten wir die Suche im Einzelnen so, dass wir separat alle einzelnen Cluster jeder Spezies, alle Cluster einer
einzelnen Spezies,jedes Cluster aller Spezies, sowie alle Cluster aller Spezies untersuchten.
Ausschlaggebend für die Realisierung der verschiedenen Ansätze waren jediglich die Eingabesequenzen.
Die Programmausgaben befinden sich in dem beiliegendem Zip File unter '/homolog/EinCluster' bzw. '/homolog/EineSpezies'
bzw. '/paralog/EinCluster' bzw. '/paralog/alle'.
4.1 MEME
Wir benutzten das Tool MEME unter Verwendung folgender Parameter, welche wir durch das Tool BEST herausbekamen.
meme DATEI -dna -mod zoops -minw 10 -maxw 10 -wg 11 -ws 1 -nmotifs 10 -evt 1e+07 -revcomp -maxiter 50 -distance 0.001 -prior dirichlet -b 0.01 -maxsize 1000000 -text
4.2 Alignace
AlignACE - Suche nach Motiven in gegebenen Sequenzen.
Um mehrere unterschiedliche Motive zu erhalten war die Maskierung
repetitiver Sequenzen erforderlich (Censor).
Parameter für AlignAce
-i $DATEI -numcols 10 -expect 10 -minpass 200 -seed 1123081142 -undersample 1 -oversample 1 -gcback 0.38
Diese Werte bekamen wir bei der Benutzung mit BEST und benutzten sie dementsprechend.
Der Aufruf gestaltete sich folgendermassen:
#AlignACE -i $i -numcols 10 -expect 10 -minpass 200 -seed 1123081142 -undersample 1 -oversample 1 -gcback 0.38 > ~/cocacola/homolog/EinCluster/${i}.aa_10;done
4.3 Consensus
Beim Benutzen von Consensus stellten wir fest dass dieses Tool unsere Fastadateien nicht akzeptierte.
Nach zahlreichem Probieren unter anderem auch mit Consensus über BEST haben wir unsere Untersuchen bezüglich dieses Tools eingestellt.
4.4 Bioprospector
Aufruf von Bioprospector:
Parameter:
input motivlänge ausgabe motivsuchwiederholungen Anzahl_report_motive
-i $DATEI -W 10 -o $Ausgabe -n 40 -r 10
4.5 YMF
YMF sucht nach überrepräsentativen Motiven in einem DNA
Abschnitt und Sortiert sie nach Signifikanz, welche durch einen Z-score
dargestellt wird. Dieser Z-score berechnet sich aus (N-E)/S, wobei N die
Anzahl der gefundenen Motive, E die erwartete Anzahl der Motive und S die
Standardabweichung von E ist.
Wir haben aus den Ergebnissen die ersten 10 Treffer mit dem Höchsten Z-score genommen und mittels eines Skriptes YMF2data.pl
bestimmt.
Die Suche selbst lief über das Web und war Speziesorientier, daher benutzten wir YMF für homologe Motivsuche
5. TRANSFAC Abgleich
Im nächsten Schritt sendeten wir alle Motive repräsentiert durch die Position-Weight-Matrix an die TRANSFAC Datenbank
und erhielten mügliche Übereinstimmungen mit in der Datenbank vorhandenen
transkriptionsregulatorische Motive.
5. Umwandlung in Praktikumsinterne .data-Format
Mittels diverser gemeinsamer *2data.pl Skripte, haben wir die verschiedenen Ausgaben der Programme
genutzt um die Position der Motive in den einzelnen Sequenzen darzustellen. Enthalten sind Informationen
wie Start- und Endpositionen, Score des jeweiligen Programms, Motivname, Sequenz, Sequenzrichtung.
Diese Informationen dienen später der Auswertung.
|