Bioinformatikpraktikum 2005
Ergebnisse
Paralog - Ein Cluster


Mit der Häufigkeitsverteilung hatten wir bisher keine so guten Ergebnisse, aber bei Betrachtung der TRANSFAC Scores stellten wir fest, dass mit einer relativ hohen Wahrscheinlichkeit folgende Motive gefunden haben.Hier die Listen der besten TRANSFAC Abgleiche.

Homolog CfA
Motiv M00221 mit einer Wahrscheinlichkeit von 1 als Motiv CfA_motif_10|1|1 gefunden.Genaue Position im Anhang.

Homolog CfB
Motiv M00291 mit einer Wahrscheinlichkeit von 0.999877 als Motiv CfB_motif_7 gefunden.Genaue Position im Anhang.

Homolog CfC
Motiv M00721 mit einer Wahrscheinlichkeit von 0.920061 als Motiv CfC_motif_3 gefunden.Genaue Position im Anhang.

Homolog CfD
Motiv M00006 mit einer Wahrscheinlichkeit von 1 als Motiv CfD_motif_1 gefunden.Genaue Position im Anhang.

Homolog HsA
Motiv M00275 mit einer Wahrscheinlichkeit von 1 als Motiv HsA_motif_5 gefunden.Genaue Position im Anhang.

Homolog HsB
keine Abgleiche Homolog HsC
Motiv M00362 mit einer Wahrscheinlichkeit von 1 als Motiv HsC_motif_2 gefunden.Genaue Position im Anhang.

Homolog HsD
Motiv M00221 mit einer Wahrscheinlichkeit von 1 als Motiv HsD_motif_7 gefunden.Genaue Position im Anhang.

Homolog - Eine Spezies


Aufgrund des hohen Vorkommens von Motiven, die wir mittels der Häufigkeitsmethode feststellten, kann man bei allen Sequenzen und Clustern an der Position 340-430 nach Motiven suchen. Bei Betrachtung der Einzelprogramme stellt man fest, dass Bioprospector den Grossteil der Motivanhaeufung ausmacht. Wenn man nun die Transfacabgleiche betrachtet, stellt man fest, dass der beste Score an das Transfac Motiv M0440 geht. Bei Betrachtung der Spezies Hund, kommt verblueffender Weise genau das selbe heraus.
Paralog - Ein Cluster


Bei Cluster A ergab in etwa bei 350 Basenpaaren bei allen Sequenzen massivste Häfungen. Aufgrund des TRANSFAC Scores sind vermutete Matrizen M00440,M00694,M00687,M00309. Bei Cluster B ergab sich ebenfalls eine hohe Häufung bei 350-440. Vermutete Matrizen sind M00440 bzw. M0010. Bei Cluster C ergab sich ebenfalls eine hohe Häufung bei 330-350. keine hochbewerteten Matrizen gefunden. Bei Cluster D ergab sich kein Häufung aufgrund der weitgestreuten Verteilung. Aber aufgrund des Matrix scores vermuten wir M00694
Paralog - Alle Cluster


Aufgrund der Häufigkeitsverteilung sind hier keine eindeutigen Ergebnisse zu verzeichnen.


M00440 scheint dennoch ein in jedem Cluster vorkommendes Motiv zu sein

Resümierend wollen wir meinen potentielle regulatorische Sites gefunden zu haben. Wir stellten im Laufe unserer Untersuchungen fest, dass Bioprospector die schärfesten Ergebnisse lieferte, so auch MEME. Alignace hingegen brachte allein schon in einer Sequenz ein zu grosse Streuung der Funde hervor. Die verschiedenen Methoden brachten leicht unterschiedliche Ergebnisse, eine absolut sichere konnten wir in diesem Fall nicht determinieren.

In den Ordnern

homolog-eincluster
homolog-einespezies
paralog-eincluster
paralog-alle
finden sie folgende dateien:

SSC[hoxNr].ps

Wobei SS SPezies bedeutet und ein X fuer alle beide steht.
C gibt das Cluster an, X ist wiederum alle Cluster
sollte danach noch ein hox mit einer Nummer stehen, so handelt sich es um eine Konkrete Sequenz

z.B. ist HsXhox1 vom Hund ueber alle Cluster der 1.Hoxgenpromotor gemeint.

so:

allePROGRAMM.ps diese beinhalten eine Motivverteilun uebera lle vorne Angegebenen Sequenzena von dem Angegebenem Programm
sollte der Programmname unkenntlich sein, so kann dies daran liegen, dass es sich um YMF handelte bzw. beim umbennennen ein Fehler geschah

alleinsumme beinhaltet brav die aufsummierung aller Motivvorkommen in den Seuqenzen und natuerlich auch in der Summe aller Sequenzen

eine datei der Marke _transfac.txt gibt die Dateien mit den Transfacabgleichslisten an
sollte beim Sortieren nix falsch gelaufen sein, ist die Matrix mit dem haeufigstem Zuordnungswert ganz unten, also auch am ehesten in dem durchsuchten Bereich zu vermuten.

die anderen Textdateien beinhalten den Output mit einer ASCI ueberischt jeder einzelnen Sequenz und der zugeordneten Motive sowie weiter unten dann eine Aufstellung aller Motive und ihrer Ueberlappung mit den anderen Motiven unterteilt pro Sequenz der Ueberlappung.

Schlussbemerkung:

Leider haben wir keinen genialen Algorithmus bzw. Methode gefunden, die einfach nur noch Motive ausspuckt und sagt wo sie sicher vorkommen, da wie man offensichtlich sah, viele Motive verstreut gefunden wurden, besonders die von AlignACE