Praktikum RNA- und Proteinstrukturen, Ergebnisse Gerstl-Standfuss

Einleitung

Im Praktikum zum Modul "RNA-und Proteinstrukturen" sollte es vor allem darum gehen, die Faltung langer RNAs vorherzusagen. Bisherige Analysemethoden haben sich als noch nicht akkurat genug herausgestellt, daher wird an neuen Algorithmen geforscht. Auch das Programm CoFold von Proctor und Meyer, welches cotranskriptionelle Faltung beruecksichtigt, beschaeftigt sich mit diesem Problem und wurde daher in diesem Praktikum verwendet.

Analysiert wurden Daten aus der RNA-Datenbank RNA STRAND v2.0, die insgesamt 4667 RNA-Sequenzen unterschiedlicher Art und Herkunft enthaelt.

Filtern der Daten aus der Datenbank

Da die RNA STRAND-Datenbank Sequenzen aller Laengen enthaelt, wurde zunaechst nach den langen Sequenzen gefiltert. Als lang wurden in diesem Fall Sequenzen mit Laengen ueber 200 Nukleotiden definiert. Ausserdem zeigte sich nach den ersten Analysen, dass einige der Sequenzen die Zeichen "~" und "N" enthielten, welche fuer die Faltung sehr hinderlich waren, daher wurden auch diese Sequenzen entfernt. Somit blieben fuer die Faltungsanalysen 2035 Sequenzen.

Faltung mit dem Programm CoFold

Alle 2035 Sequenzen wurden mit dem Programm CoFold und den laut Paper besten Werten fuer die Parameter distAlpha und distTau gefaltet, diese Werten waren 0,5 bzw. 640. Zusaetzlich wurde der Datensatz ein weiteres Mal mit den andronesco-Parametern gefalten, um die Ergebnisse zu vergleichen

Auswertung der Faltungsergebnisse

Die Ergebnisse der Faltung durch CoFold wurden mit den in der Datenbank angegebenen Strukturen verglichen. Hierzu wurden mithilfe eines Perl-Skripts die absoluten und relative Distanzen, welche die Basenpaare ueberbrueckten, fuer beide Datensaetze ausgerechnet.



Ergebnisse der Distanzanalysen (in Tabellenform):


Im nachfolgenden Bild ist eine Auftragung der logarithmischen Anzahl der Funde fuer die berechneten relativen Distanzen fuer Datenbank und CoFold-Faltungen dargestellt. Es ist erkennbar, dass der grundlegende Kurvenverlauf aller drei Kurven sich durchaus aehnelt. Im Bereich der relativen Distanz zwischen etwa 60-80 zeigt die Datenbank mehr Basenpaare als die CoFold-Faltungen. Alle drei Kurven zeigen einen Abfall der Frequenz bei etwa 90 und danach einen Peak, der eine Praeferenz fuer langreichweitige Basenpaare nahelegt. Dies ist daher bemerkenswert, da CoFold langreichweitige Basenpaarungen eigentlich bestrafen sollte. Im Vergleich zur CoFold-Kurve ohne den andronesco-Parameter zeigt die Kurve (PDF) mit andronesco-Parameter eine etwas hoehere Frequenz fuer die langreichweitigen Basenpaare.

Analyse von Zufallsdaten

Um zu ueberpruefen, ob der charakteristische Peak in allen drei Kurven einen biologischen Hintergrund hat, wurden Zufallsdaten erstellt und erneut mit CoFold gefalten. Zuerst wurden mit dem Random-Befehl 1000 Zufallssequenzen und von diesen erneut die Distanzmatrix erstellt. In der naechsten Abbildung (PDF) sind die relativen Distanzen der Zufallsdaten im Vergleich zur Datenbank und den CoFold-Daten (ohne andronesco-Parameter) dargestellt. Es gab keinen deutlichen Unterschied zwischen beiden CoFold-Modi im Bezug auf die Zufallssequenzen, daher ist hier beispielhaft nur eine Variante dargestellt. Es zeigte sich, dass Anzahl und Laenge der Zufallssequenzen nicht ausreichten und der zu betrachtende Bereich nicht abgedeckt war.

Um den Peak doch noch genauer betrachten zu koennen, wurden im naechsten Schritt mit dem Programm kshuffle die Sequenzen aus der Datenbank geshuffelt und erneut mit CoFold gefalten. Auch hier unterschieden sich die beiden CoFold-Modi nicht, so dass erneut nur die Variante ohne den andronesco-Parameter gezeigt wird. In dieser Abbildung (PDF) zeigt sich nun, dass die Kurve der Shuffle-Daten keinen Peak aufweist. Es gibt zwei moegliche Ursachen hierfuer: Einerseits weist der Peak der anderen Kurven auf die tatsaechliche Existenz langreichweitiger Basenpaare in realen Biomolekuelen hin, andererseits konnte die Bestrafungsfunktion des Programms CoFold bei den Shuffle-Sequenzen moeglicherweise besser greifen.

Berechnen verschiedener Parameter fuer die Einschaetzung der Qualitaet der CoFold-Ergebnisse

Mithilfe eines Perl-Skripts wurden TP, TN, FP und FN berechnet, welche dann wiederum fuer die Berechnung verschiedener Parameter wie MCC, PPV und Sensitivity benutzt wurden. Wichtig zu erwaehnen ist, dass die fuer die Berechnung der TN-Werte, welche sich aus der Anzahl aller moeglichen Basenpaare (Total) minus TP, FP und FN ergeben, notwendige Anzahl aller moeglichen Basenpaare unterschiedlich berechnet wurde. Einmal geschah es in Abschaetzung mit der Formel Total=((n-3)(n-4)/3), im anderen Fall durch Ermittlung der Basenkomposition nach der Formel Total=T*A+G*C berechnet. Waehrend Variante 1 den Mindestabstand fuer ein Basenpaar beruecksichtigt, bezieht Variante zwei die korrekten Basenpaarungen mit ein. Im Hinblick auf diese Vorbetrachtungen wurden Perl-Skripte erstellt (Variante 1, Variante 2).

Die naechste Abbildung (PDF) soll die Aenderung von MCC, PPV und Sensitivity in Abhaengigkeit von der Sequenzlaenge verdeutlichen. Dazu sind zusaetzlich zu den Daten noch Regressionsgeraden eingezeichnet, die eine nicht signifikante negative Steigung zeigen.

Selbst diese geringe Abnahme bleibt aus, wenn der Datensatz so gefiltert wird, dass eine aehnliche Anzahl kuerzerer wie laengerer Sequenzen betrachtet wird. Dies zeigt die naechste Abbildung (PDF), welche nach folgendem R-Skript erstellt wurde. Die Steigung der Regressionsgeraden ueber den MCC entspricht unabhaengig von der Sequenzlaenge nahezu 0, die Vorhersagegenauigkeit aendert sich also nicht.

Analyse der Datenbank auf einen moeglichen Bias durch Ueberrepraesentation bestimmter Sequenzlaengen

Eine Analyse der Datenbank sollte zu Tage bringen, ob bestimmte Sequenzen ueberrepraesentiert sind und dadurch die Kurven und Ergebnisse stark beeinflusst werden. Besonders betrachtet wurden im vorliegenden Fall die unterschiedlichen Sequenzlaengen, die etwa zwischen 200-3500 schwankten, aber in sehr variabler Anzahl auftraten (siehe Abbildung(PDF)).

Der Grundgedanke dahinter ist, dass kuerzere Sequenzen (<1000 bp) aufgrund der Bestrafungsfunktion von CoFold eine hoehere Wahrscheinlichkeit haben, Basenpaare mit einer relativen Distanz von ~100 auszubilden. D.h. Basenpaare, die praktisch die gesamte Sequenzlaenge ueberspannen, sollten bei kuerzeren Sequenzen haeufiger auftreten als bei laengeren. Dies koennte eintreten, da CoFold laengere Distanzen bei Basenpaaren bestrafen sollte.

Untersucht wurde nun, ob ein homogenerer Datensatz (im Bezug auf die Sequenzlaengen) zu Aenderungen im Auftreten von Basenpaaren, die die Gesamtsequenzlaenge umspannen, fuehren.

Dieser Ansatz wurde realisiert, indem der Datensatz zwischen Sequenzen der Laenge 200-1000 bp und >1000 bp geteilt und erneut analysiert wurde. In der naechsten Abbildung (PDF) ist erkennbar, der Kurvenverlauf sich nicht stark veraendert hat, der Peak tritt bei gesplittetem Datensatz trotzdem in beiden Faellen auf. Das heisst, trotz Bestrafung durch CoFold treten auch bei laengeren Sequenzen sequenzueberspannende Basenpaarungen auf. Ursache dafuer koennte sein, dass die Verknuepfung der "losen" Enden keine innere Strukturen zerstoert (es treten also keine Pseudoknoten auf) und es so energetisch sinnvoller erscheint, die Enden zu verknuepfen, die bislang noch keine Paarungen eingegangen sind. Dieser grundlegende Effekt scheint auch evolutionaer etabliert zu sein, so dass er stets zu erwarten ist. Weitere Untersuchungen waeren angebracht um diesen Effekt zu untersuchen.

Analyse der Datenbank auf einen moeglichen Bias durch Ueberrepraesentation bestimmter Sequenztypen

Auch auf die Moeglichkeit, dass bestimmte Sequenztypen in der Datenbank haeufiger als andere auftreten und dadurch ein Bias entstehen konnte, wurde der Datensatz untersucht.

In diesem zweiten Fall wurde mithilfe des Programms Clustal Omega die paarweise Distanz der Strukturen untereinander bestimmt (hierbei wurde schon im Voraus zwischen den verschiedenen RNA-Typen in der Datenbank unterschieden). Anschliessend wurde mit einem Threshold von 0,3 der Datensatz in Cluster unterteilt und nur jeweils ein Vertreter dieses Clusters untersucht. Das Ergebnis dieser Analysen zeigt die naechste Abbildung (PDF). Es ist kein Unterschied im Kurvenverlauf erkennbar, die Tatsache, dass die Distanz-Kurve tiefer verlaeuft, laesst sich mit der geringeren Anzahl verwendeter Sequenzen erklaeren. Der Peak besteht unveraendert.

Kleinere Experimente mit dem Programm MEA

Das im Praktikum entwickelte Programm MEA zur Basenpaarvorhersage wurde mit einem Bruchteil des RNA STRAND- Datensatzes untersucht. Im vorliegenden Fall wurden aus Zeitgruenden nur die Ribonuclease-P-Sequenzen verwendet, welche relativ kurz sind (~200-500 bp) und sich auf 451 in Frage kommende Sequenzen belaufen.

Nach Analyse der Sequenzen mittels verschiedener Werte fuer die Parameter (s.u., Formel als Rscript) ergibt sich im Vergleich zur Datenbank und den CoFold-Daten (mit andronesco-Parameter) das in der naechsten Abbildung (PDF) dargestellte Ergebnis. Die Default-Werte verlaufen aehnlich wie die vergleichbare CoFold-Kurve, waehrend die Kurve mit den stark veraenderte Parametern vor allem im Bereich der mittellangen Basenpaare deutlich tiefer liegt.

Verwendet wurden folgende Parameter:



Des Weiteren zeigt die folgende Abbildung (PDF) den Vergleich des F1-Scores fuer das Programm CoFold und MEA. Im Mittel betraegt der F1-Score fuer CoFold 0,499 und fuer Mea 0,590, Mea stellt sich also zumindest fuer den analysierten reduzierten Datensatz als besser heraus als CoFold.

Analysen der RNA STRAND Daten mittels Mea

Nach Analyse des gesamten RNA STRAND-Datensatzes zeigte sich das in der folgenden Graphik (PDF) aufgetragende Resultat. Die Mea-Kurve scheint dem Verlauf der Datenbank-Kurve deutlich besser zu folgen als die CoFold-Kurve.


Zur weiteren Analyse der Vorhersagegenauigkeit von MEA wurde der F1-Score mit dem von CoFold verglichen. Hierzu zeigt die naechste Abbildung (PDF) zwei Boxplots und die Notches. Da die Notches nicht ueberlappen, ist davon auszugehen, dass die Mediane beider Plots sich signifikant unterscheiden. Der Median des F1-Scores der CoFold-Daten liegt fuer den gesamten Datensatz bei einem Wert von 0,453, bei den Mea-Daten bei 0,512. Auch fuer den Gesamtdatensatz ist die Mea-Vorhersage mit Default-Parametern offenbar genauer als CoFold.

Der T-Test ergab, dass sich die Mittelwerte der F1-Scores von CoFold und Mea signifikant unterscheiden (p<2.2e-16 bei 1576 Freiheitsgraden).

Zusammenfassung

Abschliessend laesst sich sagen, dass Mea sich als vielversprechendes Programm erweist. Weitere Tests mit verschiedenen Parametern und Datensaetzen sind aber notwendig. Ausserdem sollten Vergleiche zu bestehenden Programmen wie CoFold durchgefuehrt werden.