Bioinformatikpraktikum 2005
1. Datenaufbereitung

Zuerst galt es die jeweiligen regulatorischen Bereiche mit einer Länge von 500nt aus den jeweiligen Genomdaten herauszuschneiden. Hierfür hatten wir die Information über die jeweiligen Abschnitte bereits vorliegen, sowie ein Perl-Skript cutter1_3.pl welches uns die Bereiche ausschnitt.

2. Matching der Regionen

In diesem Abschitt, benutzten wir die blastn Methode um Ähnlichkeiten in den Regionen verschiedener Spezies und Cluster festzustellen. Wir überprüften die Abschnitte aller Cluster einer Spezies untereinander sowie mit denen der anderen Spezies. Wir kamen dabei zu folgenden Ergebnissen:

Die Ergebnisse der obigen Tabelle ergaben sich aus den Blastergebnissen folgendermassen.
Jeder Tabelleneintrag ist ein Score, der aus der Summe des Produktes der prozentualen Übereinstimmung mit der Summe der gematchten Längen beider Sequenzen und dies anteilig der Summe der Längen beider Regionen, sprich 2*500=1000 berechnet wurde.

3. Maskieren der Repeats

Für die weitere Verarbeitung unserer Daten, zur effektiven Auffindung von Motiven war es notwendig, häufige Repeats zu maskieren um die Wahrscheinlichkeit zu erhöhen, dass es sich bei den Motiven auch um Konsensussequenzen regulatorischer Elemente wie z.B. Transkriptionsfaktorbindungsstellen handelt. Für die Durchführung dieser Aufgabe bedienten wir uns des Maskierungstools Censor, welches nach solchen häufigen Repeats sucht und jene Regionen mit dem Buchstaben N aus dem Konsensusalphabet markiert, welcher für ein Element der Menge {A,T,G,C} steht.
4. Motivsuche

Für die homologe und paraloge Suche benutzten wir die hier aufgeführten Tools. Dabei gestalteten wir die Suche im Einzelnen so, dass wir separat alle einzelnen Cluster jeder Spezies, alle Cluster einer einzelnen Spezies,jedes Cluster aller Spezies, sowie alle Cluster aller Spezies untersuchten. Ausschlaggebend für die Realisierung der verschiedenen Ansätze waren jediglich die Eingabesequenzen. Die Programmausgaben befinden sich in dem beiliegendem Zip File unter '/homolog/EinCluster' bzw. '/homolog/EineSpezies' bzw. '/paralog/EinCluster' bzw. '/paralog/alle'.
4.1 MEME

Wir benutzten das Tool MEME unter Verwendung folgender Parameter, welche wir durch das Tool BEST herausbekamen.

meme DATEI -dna -mod zoops -minw 10 -maxw 10 -wg 11 -ws 1 -nmotifs 10 -evt 1e+07 -revcomp -maxiter 50 -distance 0.001 -prior dirichlet -b 0.01 -maxsize 1000000 -text


4.2 Alignace

AlignACE - Suche nach Motiven in gegebenen Sequenzen. Um mehrere unterschiedliche Motive zu erhalten war die Maskierung repetitiver Sequenzen erforderlich (Censor).

Parameter für AlignAce
-i $DATEI -numcols 10 -expect 10 -minpass 200 -seed 1123081142 -undersample 1 -oversample 1 -gcback 0.38
Diese Werte bekamen wir bei der Benutzung mit BEST und benutzten sie dementsprechend.

Der Aufruf gestaltete sich folgendermassen:
#AlignACE
-i $i -numcols 10 -expect 10 -minpass 200 -seed 1123081142 -undersample 1 -oversample 1 -gcback 0.38 > ~/cocacola/homolog/EinCluster/${i}.aa_10;done

4.3 Consensus

Beim Benutzen von Consensus stellten wir fest dass dieses Tool unsere Fastadateien nicht akzeptierte. Nach zahlreichem Probieren unter anderem auch mit Consensus über BEST haben wir unsere Untersuchen bezüglich dieses Tools eingestellt.
4.4 Bioprospector

Aufruf von Bioprospector:

Parameter:
input motivlänge ausgabe motivsuchwiederholungen Anzahl_report_motive
-i $DATEI -W 10 -o $Ausgabe -n 40 -r 10

4.5 YMF

YMF sucht nach überrepräsentativen Motiven in einem DNA Abschnitt und Sortiert sie nach Signifikanz, welche durch einen Z-score dargestellt wird. Dieser Z-score berechnet sich aus (N-E)/S, wobei N die Anzahl der gefundenen Motive, E die erwartete Anzahl der Motive und S die Standardabweichung von E ist.

Wir haben aus den Ergebnissen die ersten 10 Treffer mit dem Höchsten Z-score genommen und mittels eines Skriptes YMF2data.pl bestimmt. Die Suche selbst lief über das Web und war Speziesorientier, daher benutzten wir YMF für homologe Motivsuche
5. TRANSFAC Abgleich

Im nächsten Schritt sendeten wir alle Motive repräsentiert durch die Position-Weight-Matrix an die TRANSFAC Datenbank und erhielten mügliche Übereinstimmungen mit in der Datenbank vorhandenen transkriptionsregulatorische Motive.
5. Umwandlung in Praktikumsinterne .data-Format

Mittels diverser gemeinsamer *2data.pl Skripte, haben wir die verschiedenen Ausgaben der Programme genutzt um die Position der Motive in den einzelnen Sequenzen darzustellen. Enthalten sind Informationen wie Start- und Endpositionen, Score des jeweiligen Programms, Motivname, Sequenz, Sequenzrichtung. Diese Informationen dienen später der Auswertung.