Auswertung
Betrachtung:
Wir haben in der Durchführung mehrere Motive sowie deren Positionen in den Sequenzen erhalten.
Offensichtlich sinnvoll erscheint nun zu überprüfen ob die verschiedenen Motive der Programme
programmübergreifend Gemeinsamkeiten besitzen.
Denn dies würde auf eine höhere Wahrscheinlichkeit auf eine tatsächlichen regulatorischen Bereich
wie z.B. einen Promotor hindeuten, da man praktisch einen Schnitt verschiedener Funde mit hoher Wahrscheinlichkeit
von verschiedenen Programmen hat.
Um dies herauszufinden, bedienten wir uns folgendem naiven Ansatz:
Funde, welche sich überlappen sind mit Anzahl der Überlappungen entsprechend höher zu bewerten.
Dies würde an der Position in der Sequenz, an welcher Überlappungen stattfinden, von einer hohen
Wahrscheinlichkeit einer Transkriptionsfaktorbindungsstelle zeugen.
Das Problem ergibt sich nun aus der Betrachtungsweise, die sich auf ganze Cluster anstelle einzelne Sequenzen
bezieht.
Um diesen Ansatz weiter zu folgen, ist nun die Idee folgende: Wir summieren je Motiv die
Überlappungen je Sequenz auf und erhalten damit einen etwaigen Score der Überlappung.
Logischerweise ist auf den ersten Blick ein hoher Score ein Indiz für ein gutes Motiv, da
es häfig von anderen Programmen ebenso und auch häfig an etwa derselben Stelle gefunden wurde.
Interessenhalber haben wir noch untersucht, ob, wenn man die kompletten betrachteten Inputsequenzen
übereinander legt, sich wie eine eindeutige Motivsspitze herausbildet.
Dies bedeutet: pro Position einer Sequenz die Anzahl der Motive bilden und diese von allen
Sequenzen zusammenaddieren. Sollten sich hier auf einmal eindeutige Spitzen herausbilden,
würde dies bedeuten, dass unter den verschiedenen Sequenzen Ähnlichkeiten herrschen
bzw. vermutete Motive an der selben Position Sequenzübergreifend befinden.
Zuletzt, eigentlich aber eher zuerst, noch die Auswertung der Alignments.
Alignments
Unsere Blastergebnisse >>
Man kann erkennen, dass bei fast allen Vergleichen ausser die Selbstvergleiche und eine gleich näher betrachteten
Menge von Vergleichspartnern, die Übereinstimmungen sich auf 0 belaufen.
Diese erwähnte Menge sind wie man anhand der Bezeichnungen erkennen kann selbige Hox-Gene nur in verschiedenen
Spezies. Dies lässt vermuten dass bei paraloger Suche man wohl eher zu Ergebnissen gelangt.
Positionen
Im Allgemeinen sind wir bei dem Scoring für die einzelnen Cluster folgendermassen vorgegangen:
1. Wir sind für jede Inputsequenz die .data Dateien durchgegangen und haben dabei pro Sequenz für jedes vorkommende Motiv aufsummiert, wieviel andere Motive pro Position überlappen. Sowie halt für jede Sequenzposition bestimmen, wieviele Motive sich dort angehäuft haben.
2. Die Summe dieser Einzelsequenzüberlappungen pro Motiv haben wir für die Menge der betrachteten Sequenzen aufsummiert
Nun haben wir wie schon erwähnt einen Score pro Motiv und man könnte vermuten,
dass dies ein brauchbares Motiv ist.
Um dies zu Überprüfen, haben wir den Score noch aufgeschlüsselt nach
Überlappenden Motiven pro Sequenz. Interessant für uns wäre demnach ein Motiv,
welches sich möglichst häufig mit ein und dem selben Motiv eines anderen Programms
über möglichst viele Sequenzen hinweg überschneidet.
Als nächstes kommt nun die Aufsummierung der Positionen über die Menge der Inputsequenzen.
Dies sollte dort, falls Motive bevorzugt in einem Bereich über alle Cluster hinweg gefunden
wurden, genau dort einen enormen Ausschlag geben, oder, wenn die
Transkriptionsfaktorbindungsstellen unter den Sequenzen zwar gleiche Motive besitzen,
aber ansonsten beliebig verteilt sind, ein Plateau erzeugen.
Als nächstes, wurden für jedes Programm Grafiken angefertigt, in der für alle
betrachteten Sequenzen die einzelnen Motive mit gleicher Farbe intersequentiell darstellten. Die Graphgebung hat einen unglimplichen Punkt, nämlich die Sequenztrennung, da muß man sich Vorstellen, dass wenn die selbe Farbe auf der y-Achse erneut vorkommt, es sich um eine andere Sequenz handelt, ansonsten sind die unterschiedlich farbigen Motive auch in unterschiedlichen Positionen angeordnet.
Das jetzt eigentlich Interessante wäre nun einmal die verschiedenen Motive der verschiedenen
Programme jeweils differenziert in einem Diagramm über alle Sequenzen hin zu betrachten.
Doch dies ist zu kompliziert, wenn man bedenkt, dass man pro Motiv eine eigene Farbe
haben möchte sowie dies pro Programm. Da kommt man locker auf über 20 Farben und verliert
damit schon den Überblick. Völlig verloren ist dieser dann, wenn man versucht nun
herauszufinden, welche Motivkombinationen häufig auftreten. Aus diesem Grunde, haben wir
diese Diagramme ausgelassen. Eine Art Bewertungssystem, welches in diesem Fall
vernünftig Motive wegfiltert, ist uns auch nicht eingefallen, weil scheinbar alle
Motive mit allen Motiven immer einmal aufreten, was auch daher rührt, dass Programme
wie ACE und Bioprospector nicht etwa ein Motiv nur einmal gefunden haben pro Sequenz,
sondern mehrmals (besonders AligneACE neigte dazu). Schlimm noch ist es, wenn sich
verschiedene Motive eines Programmes sich mehrfach mit Motiven desselben Programmes
überschnitten. Dies hat sicherlich etwas zu bedeuten, doch ist es auf den ersten Blick
wenig förderlich, wenn wir die oben benannte Durchschnittsmethode machen wollen.
Homologe Suche - Ein Cluster:
Hier haben wir jeweils ein Cluster einer Spezies durch die besagten Tools laufen lassen und
betrachten jetzt die Resultate wie oben besprochen:
Wenn man die Gesamtsummenübersicht sich anschaut, stellt man fest, sie ist sehr unübersichtlich. Hier sieht man zwar vereinzelt im Interregionssumme eine Spitze, doch das Gesamtniveau ist sehr hoch und die verschiedenen Sequenzen zeigen gut verteilt Häufigkeiten.
Wenn man nun die Einzelnen Motive der Programme verteilt betrachtet, hat man eine bunte Streuungslandschaft,
besonders bei AligneACE, jedoch ist es nicht förderlich ein bestimmtes Motiv herauszufiltern.
Betrachtet man nun probehalber einzelne Sequenzen, so stellt man fest,
dass dies auch nicht hilfreich ist, da hier oftmals zu wenig Sequenzen überlappen
von den einzelnen Programmen insbesondere AlignAce welche jede Menge verschiedene Motive anbietet.
Also bis hierher ist die Suche ersteinmal undurchsichtig.
Homolog - Eine Spezies:
Wir betracteten jetzt alle Cluster einer Spezies und
was wir dort so herausfinden: Hier trennt sich schon einmal (bei Hund und Mensch) die
gesamte Interegionssumme in ein Plateau und ein Gebirge. Betrachtet man nun noch die
Motivhäufungen der einzelnen Sequenzen (zugegeben es sind sehr viele) So erkennt man doch
pro Sequenz meistens eine Häufung der Anzahl der Motiv,
die denen der anderen Sequenzen ähnlich aussehen. Vorbildlich haben sich diese hinzukommend
noch im Bereich von 350bp bis 450bp über die Cluster und Sequenzen hinweg verteilt.
Betrachtung der Verteilung der Motive:
Die verschiedenen Bioprospectormotive, scheinen gar nicht mehr so verschieden,
denn sie liegen alle (Grafik dazu) beinander,
und wenn öfters vorkommend, halt dort auch auf einem haufen, sowohl beim Hund als auch beim Menschen. Bei AligneACE Motiven, scheint es eher darum zu gehen, auf der ganzen Sequenz ein und das selbe Motiv zu finden (wie wir oben schon feststellten), deswegen gibt es scheinbar mit mehr Sequenzen weniger Motive, die jedoch überall verteilt sind (all_HsalleACE.ps). Bei Meme haben wir wieder eine aller-Weltsverstreuung. Schauen wir uns YMF an, dann freuen wir uns, dass es dort auch im Bereich 340 - 450 sammelt, und immerhin sind es auch immer ähnliche Sequenzen am Stück.
Betrachtet man jetzt mal parallel Einzelne Genpromotorregionen der selben Nummer,
dann hat man bevorzugt bei geringeren Nummern bei Hund und Mensch den Effekt,
dass die Motive sich intersequenziell an der selben Stelle befinden.
Leider ist dies aber meist nur für Bioprospector der Fall, aber es ist schonmal interessant,
dass dieses Tool dort die ganzen Motive nicht quer über die Sequenz verteilt.
Paralog - Ein Cluster:
Bei allen Clusterversammlungen, haben wir das gleiche Resultat
wie bei der homologen-ein-Cluster Betrachtung, ausser beim
A Cluster.
Da zeigt sich deutlich ab, dass es wieder um 340-450bp eine Anhäufung gibt.
Betrachtet man nun die einzelnen Programmoutputs, sieht man sofort,
dass wieder BioProspector die Gewichtung ausmacht, während die anderen
Programme gut streuen. Leider konnte hier YMF nicht zu Hilfe kommen, da
dies nur dazu geeignet ist innerhalb einer Spezies zu suchen (Trimmuster).
Zu guter letzt sind selbst im D-CLuster die Bioprospectormotive gestreuter,
wobei ein Kern von 4 Motiven immer an der selben Stelle liegt.
Paralog - Alle Cluster:
Wenn man sich die Outputs genauer anschaut, kommt man zu dem Schluss, dass sich die
Motivsuche auf mehrere Cluster verteilt, sowie zur selben Zeit auf mehrere Spezies,
mittels Auswertung der Häfigkeitsmethode nicht lohnt, da die Verteilung der Motiv
zu unscharf ist wie man hier sehen kann
Auswertung - TRANSFAC Datenbank
Mit den erhaltenen Vergleichsmotiven aus der TRANSFAC Datenbank, haben wir
zu jedem von der Datenbank erhaltenem Motiv eine Liste mit den von uns gefundenen
Motiven erstellt, welche mit den Datenbankmotiv korrespondieren inklusive deren Score.
Am Ende wurde je erhaltener Datenbankmatrix die Summe der Listenscores berechnet, ausgehend
von der Vermutung, dass je öfter eine Matrix mit einem von uns gefundenem Motiv korrespondiert,
dessen Wahrscheinlichkeit erhöht ein wirklich vorhandenes Motiv zu sein.
Hier eine Liste mit den Scoren von Canis familaris - Cluster D
|