Für die Strukturvorhersage von RNA-Sequenzen gibt es viele Programme, welche vor allem geeignet sind um die Strukturen kurzer RNA-Sequenzen von bis zu 200 Nukleotiden vorherzusagen. Dabei gibt es RNAs, vor allem rRNA und tmRNA, welche mehr als 200 Nukleotide, zum Teil bis zu 4000 Nukleotide aufweisen können. Die Vorhersage der Strukturen dieser großen RNA-Sequenzen erweist sich bislang als relativ schwierig, da mit zunehmender Länge der RNA auch die Möglichkeit der Basenpaarausbildung und damit Helices steigen. Im Rahmnen dieses Praktikums sollten daher RNA-Sequenzen mit mehr als 200 Nukleotiden mit dem Programm RNAfold gefalten werden und anschließend mit Referenzstrukturen verglichen werden. Als Datenbank für die Referenzsequenzen diente dabei RNA-Strand.
Die Sequenzen wurden mittels RNAfold jeweils mit und ohne zusätzliche andronescu Parameter gefalten, wobei jeweils die Maximum Expected Accuracy (MEA) für alle Sequenzen berechnet wurde. Die erhaltenen Werte wurden grafisch dargestellt, wobei die Basenpaaranzahl gegen die relativen und absoluten Basenpaarabstände aufgetragen wurden.
Neben der Faltung ganzer RNA-Moleküle wurde zusätzlich ein erweitertes RNAfold-Programm verwendet, durch welches die RNA-Sequenzen mit beschränkten Basenpaarabstand 100, 150, 200 und 250 Nukleotide) gefalten wurden. Um die erhaltenen, gefaltenen RNA-Strukturen mit den Referenz-Strukturen zu vergleichen wurden true positive (TP), false positive (FP), true negative (TN) und false negative (FN) bestimmt, sowie der Matthews correlation coefficient (MCC) und F-Measure berechnet.
Die erhaltenen Werte zeigten eine deutliche Abnahme der Anzahl an Basenpaaren mit steigender Länge an RNA-Sequenzen. Besonders gering war die Häufigkeit der Basenpaaren bei relativen Abständen von 85% - 95%. Um auszuschließen, dass diese geringe Häufigkeit zufällig entstand, wurden durch verschiedene Programme (u.a. Kshuffle) Zufallssequenzen generiert, welche die Abnahme der Häufigkeit der Basenpaaren bei relativen Abständen von 85% - 95% nicht aufwiesen.
Bei den darsgestellten Ergebnissen wurden die Datenbankeinträge verwendet, bei denen folgende RNA-Eigenschaften vorliegen:
mindestens 200 Nukleotide lang
besitzt maximal 5 hintereinanderliegende gaps oder nicht eindeutig sequenzierte Nukleotide
In der Datenbank liegen eine Vielzahl unterschiedlicher RNAs vor, welche deferenzierte Strukturmerkmale aufweisen. Um den Fehler zu minimieren, der durch die parallele Betrachtung aller RNA-Klassen entstanden ist, wurden diese hinsichtlich der Faltungsgenauigkeit zusätzlich separat betrachet.
Alle grafisch dargestellten Ergebnisse sind unter
folgenden Links als .pdf ersichtlich.