Im Praktikum zum Modul "RNA-und Proteinstrukturen" sollte es vor allem darum gehen, die Faltung langer RNAs
vorherzusagen. Bisherige Analysemethoden haben sich als noch nicht akkurat genug herausgestellt, daher wird an
neuen Algorithmen geforscht. Auch das Programm CoFold von Proctor und Meyer, welches cotranskriptionelle Faltung beruecksichtigt, beschaeftigt
sich mit diesem Problem und wurde daher in diesem Praktikum verwendet.
Analysiert wurden Daten aus der
RNA-Datenbank RNA STRAND v2.0, die insgesamt
4667 RNA-Sequenzen unterschiedlicher Art und Herkunft enthaelt.
Da die RNA STRAND-Datenbank Sequenzen aller Laengen enthaelt, wurde zunaechst nach den langen Sequenzen gefiltert. Als lang wurden in diesem Fall Sequenzen mit Laengen ueber 200 Nukleotiden definiert. Ausserdem zeigte sich nach den ersten Analysen, dass einige der Sequenzen die Zeichen "~" und "N" enthielten, welche fuer die Faltung sehr hinderlich waren, daher wurden auch diese Sequenzen entfernt. Somit blieben fuer die Faltungsanalysen 2035 Sequenzen.
Alle 2035 Sequenzen wurden mit dem Programm CoFold und den laut Paper besten Werten fuer die Parameter distAlpha und distTau gefaltet, diese Werten waren 0,5 bzw. 640. Zusaetzlich wurde der Datensatz ein weiteres Mal mit den andronesco-Parametern gefalten, um die Ergebnisse zu vergleichen
Die Ergebnisse der Faltung durch CoFold wurden mit den in der Datenbank angegebenen Strukturen verglichen. Hierzu wurden mithilfe eines Perl-Skripts die absoluten und relative Distanzen, welche die Basenpaare ueberbrueckten, fuer beide Datensaetze ausgerechnet.
Ergebnisse der Distanzanalysen (in Tabellenform):
Im nachfolgenden Bild ist eine Auftragung der logarithmischen Anzahl der Funde fuer die berechneten relativen
Distanzen fuer Datenbank und CoFold-Faltungen dargestellt. Es ist erkennbar, dass der grundlegende Kurvenverlauf
aller drei Kurven sich durchaus aehnelt. Im Bereich der relativen Distanz zwischen etwa 60-80 zeigt die Datenbank
mehr Basenpaare als die CoFold-Faltungen. Alle drei Kurven zeigen einen Abfall der Frequenz bei etwa 90 und
danach einen Peak, der eine Praeferenz fuer langreichweitige Basenpaare nahelegt. Dies ist daher bemerkenswert,
da CoFold langreichweitige Basenpaarungen eigentlich bestrafen sollte. Im Vergleich zur CoFold-Kurve ohne den
andronesco-Parameter zeigt die Kurve (PDF)
mit andronesco-Parameter eine etwas hoehere Frequenz fuer die langreichweitigen Basenpaare.
Um zu ueberpruefen, ob der charakteristische Peak in allen drei Kurven einen biologischen Hintergrund hat, wurden
Zufallsdaten erstellt und erneut mit CoFold gefalten. Zuerst wurden mit dem Random-Befehl 1000 Zufallssequenzen und
von diesen erneut die Distanzmatrix erstellt. In der naechsten Abbildung (PDF) sind die relativen Distanzen der Zufallsdaten im Vergleich zur Datenbank und den
CoFold-Daten (ohne andronesco-Parameter) dargestellt. Es gab keinen deutlichen Unterschied zwischen beiden
CoFold-Modi im Bezug auf die Zufallssequenzen, daher ist hier beispielhaft nur eine Variante dargestellt.
Es zeigte sich, dass Anzahl und Laenge der Zufallssequenzen nicht ausreichten und der zu betrachtende Bereich
nicht abgedeckt war.
Um den Peak doch noch genauer betrachten zu koennen, wurden im naechsten Schritt mit dem Programm kshuffle die
Sequenzen aus der Datenbank geshuffelt und erneut mit CoFold gefalten. Auch hier unterschieden sich die beiden
CoFold-Modi nicht, so dass erneut nur die Variante ohne den andronesco-Parameter gezeigt wird. In dieser
Abbildung (PDF) zeigt sich nun, dass die Kurve
der Shuffle-Daten keinen Peak aufweist. Es gibt zwei moegliche Ursachen hierfuer: Einerseits weist der Peak der
anderen Kurven auf die tatsaechliche Existenz langreichweitiger Basenpaare in realen Biomolekuelen hin, andererseits konnte die
Bestrafungsfunktion des Programms CoFold bei den Shuffle-Sequenzen moeglicherweise besser greifen.
Mithilfe eines Perl-Skripts wurden TP, TN, FP und FN berechnet, welche dann wiederum fuer die Berechnung
verschiedener Parameter wie MCC, PPV und Sensitivity benutzt wurden. Wichtig zu erwaehnen ist, dass die fuer die
Berechnung der TN-Werte, welche sich aus der Anzahl aller moeglichen Basenpaare (Total) minus TP, FP und FN ergeben,
notwendige Anzahl aller moeglichen Basenpaare unterschiedlich berechnet wurde. Einmal
geschah es in Abschaetzung mit der Formel Total=((n-3)(n-4)/3), im anderen Fall durch Ermittlung der
Basenkomposition nach der Formel Total=T*A+G*C berechnet. Waehrend Variante 1 den Mindestabstand fuer ein Basenpaar
beruecksichtigt, bezieht Variante zwei die korrekten Basenpaarungen mit ein. Im Hinblick auf diese Vorbetrachtungen
wurden Perl-Skripte erstellt (Variante 1,
Variante 2).
Die naechste Abbildung (PDF) soll die Aenderung von MCC, PPV und Sensitivity in Abhaengigkeit von der Sequenzlaenge
verdeutlichen. Dazu sind zusaetzlich zu den Daten noch Regressionsgeraden eingezeichnet, die eine nicht signifikante
negative Steigung zeigen.
Selbst diese geringe Abnahme bleibt aus, wenn der Datensatz so gefiltert wird, dass eine aehnliche Anzahl kuerzerer
wie laengerer Sequenzen betrachtet wird. Dies zeigt die naechste Abbildung (PDF), welche nach folgendem R-Skript erstellt wurde.
Die Steigung der Regressionsgeraden ueber den MCC entspricht unabhaengig von der Sequenzlaenge nahezu 0, die
Vorhersagegenauigkeit aendert sich also nicht.
Eine Analyse der Datenbank sollte zu Tage bringen, ob bestimmte Sequenzen ueberrepraesentiert sind und dadurch die
Kurven und Ergebnisse stark beeinflusst werden. Besonders betrachtet wurden im vorliegenden Fall die
unterschiedlichen Sequenzlaengen, die etwa zwischen 200-3500 schwankten, aber in sehr variabler Anzahl auftraten
(siehe Abbildung(PDF)).
Der Grundgedanke dahinter ist, dass kuerzere Sequenzen (<1000 bp) aufgrund der Bestrafungsfunktion von CoFold eine
hoehere Wahrscheinlichkeit haben, Basenpaare mit einer relativen Distanz von ~100 auszubilden. D.h. Basenpaare,
die praktisch die gesamte Sequenzlaenge ueberspannen, sollten bei kuerzeren Sequenzen haeufiger auftreten als bei
laengeren. Dies koennte eintreten, da CoFold laengere Distanzen bei Basenpaaren bestrafen sollte.
Untersucht wurde nun, ob ein homogenerer Datensatz (im Bezug auf die Sequenzlaengen) zu Aenderungen im Auftreten
von Basenpaaren, die die Gesamtsequenzlaenge umspannen, fuehren.
Dieser Ansatz wurde realisiert, indem der Datensatz zwischen Sequenzen der Laenge 200-1000 bp und >1000 bp geteilt
und erneut analysiert wurde. In der naechsten Abbildung (PDF) ist erkennbar, der Kurvenverlauf sich nicht stark
veraendert hat, der Peak tritt bei gesplittetem Datensatz trotzdem in beiden Faellen auf. Das heisst, trotz
Bestrafung durch CoFold treten auch bei laengeren Sequenzen sequenzueberspannende Basenpaarungen auf. Ursache
dafuer koennte sein, dass die Verknuepfung der "losen" Enden keine innere Strukturen zerstoert (es treten also
keine Pseudoknoten auf) und es so energetisch sinnvoller erscheint, die Enden zu verknuepfen, die bislang noch
keine Paarungen eingegangen sind. Dieser grundlegende Effekt scheint auch evolutionaer etabliert zu sein, so dass
er stets zu erwarten ist. Weitere Untersuchungen waeren angebracht um diesen Effekt zu untersuchen.
Auch auf die Moeglichkeit, dass bestimmte Sequenztypen in der Datenbank haeufiger als andere auftreten und dadurch
ein Bias entstehen konnte, wurde der Datensatz untersucht.
In diesem zweiten Fall wurde mithilfe des Programms Clustal
Omega die paarweise Distanz der Strukturen untereinander bestimmt (hierbei wurde schon im Voraus zwischen den
verschiedenen RNA-Typen in der Datenbank unterschieden). Anschliessend wurde mit einem Threshold von 0,3 der
Datensatz in Cluster unterteilt und nur jeweils ein Vertreter dieses Clusters untersucht. Das Ergebnis dieser
Analysen zeigt die naechste Abbildung (PDF).
Es ist kein Unterschied im Kurvenverlauf erkennbar, die Tatsache, dass die
Distanz-Kurve tiefer verlaeuft, laesst sich mit der geringeren Anzahl verwendeter Sequenzen erklaeren. Der Peak
besteht unveraendert.
Das im Praktikum entwickelte Programm MEA zur Basenpaarvorhersage wurde mit einem Bruchteil des RNA STRAND-
Datensatzes untersucht. Im vorliegenden Fall wurden aus Zeitgruenden nur die Ribonuclease-P-Sequenzen verwendet,
welche relativ kurz sind (~200-500 bp) und sich auf 451 in Frage kommende Sequenzen belaufen.
Nach Analyse der Sequenzen mittels verschiedener Werte fuer die Parameter (s.u., Formel als Rscript) ergibt sich im Vergleich zur Datenbank und den CoFold-Daten
(mit andronesco-Parameter) das in der naechsten Abbildung (PDF) dargestellte Ergebnis. Die Default-Werte verlaufen aehnlich wie die vergleichbare
CoFold-Kurve, waehrend die Kurve mit den stark veraenderte Parametern vor allem im Bereich der
mittellangen Basenpaare deutlich tiefer liegt.
Verwendet wurden folgende Parameter:
Des Weiteren zeigt die folgende Abbildung (PDF) den Vergleich des F1-Scores fuer das Programm CoFold und
MEA. Im Mittel betraegt der F1-Score fuer CoFold 0,499 und fuer Mea 0,590, Mea stellt sich also zumindest
fuer den analysierten reduzierten Datensatz als besser heraus als CoFold.
Nach Analyse des gesamten RNA STRAND-Datensatzes zeigte sich das in der folgenden Graphik
(PDF) aufgetragende Resultat. Die
Mea-Kurve scheint dem Verlauf der Datenbank-Kurve deutlich besser zu folgen als die CoFold-Kurve.
Zur weiteren Analyse der Vorhersagegenauigkeit von MEA wurde der F1-Score mit dem von CoFold verglichen. Hierzu zeigt
die naechste Abbildung (PDF) zwei Boxplots und die Notches. Da die Notches nicht ueberlappen, ist davon auszugehen,
dass die Mediane beider Plots sich signifikant unterscheiden. Der Median des F1-Scores der CoFold-Daten liegt fuer
den gesamten Datensatz bei einem Wert von 0,453, bei den Mea-Daten bei 0,512. Auch fuer den
Gesamtdatensatz ist die Mea-Vorhersage mit Default-Parametern offenbar genauer als CoFold.
Der T-Test ergab, dass sich die Mittelwerte der F1-Scores von CoFold und Mea signifikant unterscheiden
(p<2.2e-16 bei 1576 Freiheitsgraden).
Abschliessend laesst sich sagen, dass Mea sich als vielversprechendes Programm erweist. Weitere Tests mit verschiedenen Parametern und Datensaetzen sind aber notwendig. Ausserdem sollten Vergleiche zu bestehenden Programmen wie CoFold durchgefuehrt werden.