3. Durchführung

3.1. Datengewinnung

Zur Datengewinnung wurden 2 verschiedene Datenbanken zu Hilfe genommen. Zum ersten die NCBI-Datenbank1 und die EBI-Datenbank2. Die Anfangsinformationen stammen von der ICTVdB3, wo die Spezies der Gattung aufgelistet sind. Anhand der vorhandenen Informationen wurden in den Datenbanken nach weitere Sequenzen gesucht. Übersicht der Spezies:

Gruppe 1Fasta
(A27950)JSRV genomic sequence7462 bpfasta
M80216Jaagsiekte sheep retrovirus7462 bpfasta
Y16627Ovine enzootic nasal tumour virus, complete sequence7434 bpfasta
AY197548Enzootic nasal tumour virus of goats, complete genome7448 bpfasta
Gruppe 2
AF033815Mason-Pfizer monkey virus, complete genome8557 bpfasta
(NC_001550)Mason-Pfizer monkey virus8557 bpfasta
(M12349)Mason-Pfizer monkey virus8557 bpfasta
M11841Simian retrovirus 18173 bpfasta
AF126468Simian retrovirus SRV28105 bpfasta
M16605Simian retrovirus 27759 bpfasta
Gruppe 3
AF033807aMouse mammary tumor virus, complete proviral genome8805 bpfasta
(NC_001503)Mouse mammary tumor virus8805 bpfasta
M15122bMouse mammary tumor virus10125 bpfasta
AF228550Endogenous mouse mammary tumor virus Mtv19851 bpfasta
AF228551Exogenous mouse mammary tumor virus9895 bpfasta
D16249Mouse mammary tumor virus proviral DNA
for gag-protease-pol polyprotein and env protein, complete cds4
8603 bpfasta

Die Sequenzen in Klammern wurden wegen zu hoher phylogenetischer Ähnlichkeit aus den Gruppen entfernt.
Es wurde in wurde in einem Alignment die Sequenz a durch die Sequenz b ersetzt. Wider Erwarten änderte sich an dem Ergebnis des Alignments nichts.

3.2. Multiples Alignment und phylogenetische Bäume

Diese Daten wurden dann im Fasta-Format abgespeichert und für die Weiterverarbeitung mit ClustalW bearbeitet. Diese Bearbeitung zeichnete sich dadurch aus, daß der Header der Fasta-Datei derart in Form gebracht werden musste, so daß ClustalW damit umgehen kann. ClustalW erwartet eine Fasta-Datei mit einem Header: "> Dateiname …". ClustalW lieferte dann eine aln-Datei, welche mit Hilfe des Skriptes aln2nex.pl in eine nex-Datei umgewandelt wurde. Diese konnte dann mit Leichtigkeit dem splitstree-Skript übergeben werden, das daraus eine ps-Datei generierte. Dieser PostScript-Datei konnte man eine Übersicht über die evolutionäre Distanz der Sequenzen entnehmen.
allSeqs
Abb.3: Wie bei dieser Ausgabe zu erkennen ist, unterteilt sich das Alignment aller Sequenzen in 3 Gruppen.

Mit diesen 3 Gruppen wurde dann der Prozess des Alignments erneut durchgeführt.
Vorschau Gruppe 1
Gruppe 1
Vorschau Gruppe 2
Gruppe 2
Vorschau Gruppe 3
Gruppe 3
Abb.4: In diesen Bildern war dann zu erkennen, wie weit die Sequenzen miteinander verwandt sind,
also wie viele Sequenzteilstücke mit Sequenzteilstücken anderer Sequenzen gleich sind.

Die Gruppen enthielten Sequenzen, die zu 100% gleich waren und daraufhin aus der Gruppe entfernt wurde, so daß folgende reduzierte Gruppen entstanden:
Vorschau Gruppe 1 (reduziert)
Gruppe 1 (reduziert)
Vorschau Gruppe 2 (reduziert)
Gruppe 2 (reduziert)
Vorschau Gruppe 3 (reduziert)
Gruppe 3 (reduziert)
Abb.5: Wie man sieht hat sich in den Beziehung zueinander nicht gravierend verändert,
aber durch die Reduzierung hat sich der Rechenaufwand für die spätere Faltung deutlich verringert.

Nachdem feststand welche Sequenzen weiter verwendet werden würden, wurden diese Sequenzen mit RNAFold lokal und auf Rechnern in Wien bearbeitet. Dieser rechenaufwendige Prozeß nahm einige Zeit in Anspruch.

Abb.6: Die Gruppen 1,2 und 3 wurden paarweise aligned und weiter untersucht.
Abb.7: Die Gruppen 1 und 2 wurden paarweise aligned und ebenfalls weiter untersucht.

3.3. Vorhersage der Sekundärstruktur

Nun folgte die Vorarbeit für die aufwendige Faltung der Sequenzen. Diese besteht darin, dass die ausgewählten Sequenzen (im Fasta-Format) in das Vienna-Format transferiert wurden. Das Vienna-Format unterscheidet sich nur dadurch vom Fasta-Format, dass die Zeilenumbrüche in der eigentlichen Sequenz aus der Datei entfernt werden und die Sequenz auf einer Zeile residiert. Diese Dateien im Vienna-Format wurden dann mit Hilfe von "RNAfold" gefaltet, was sehr lange dauerte. Bei der Faltung entstand eine mfe5-Sequenz, die von RNAfold für jede Sequenz direkt auf die Ausgabe geschrieben wird und in eine Datei umgeleitet werden sollte. Diese Datei wurde dann mit dem Skript split.pl in einzelne mfe-Dateien für jede der Sequenzen aufgeteilt. Diese mfe-Dateien liegen dann in Klammernotation vor und wurden mit AliDot weiter verarbeitet. Weiterhin kreierte RNAfold zwei ps-Dateien, wobei eine davon die Sekundärstruktur der Sequenz enthält (Name_ss.ps) und die zweite ein Dotplot der Paarungswahrscheinlichkeiten der Basen (Name_dp.ps).

3.4. Bestimmung konservierter RNA-Strukturelemente

Mit Hilfe eines Shell-Skriptes (extract.sh) wurden die Informationen zu den Strukturen aus dem Alignment, welches ClustalW liefert, der Ausgabe von Alidot und der DotPlot-ps-Datei extrahiert. Zusätzlich erwartet das Skript noch die Angabe der ersten und letzten Base. Der Skript läuft wie folgt ab: Aus diese Art und Weise wurden einzelne Intervalle der Konsenssequenz untersucht. Zur Beurteilung der Sekundärstrukturen wurden die MountainPlots und die markierten grafischen Darstellungen der Sekundärstrukturen verwendet.
Siehe Auswertung.
Es wurden bevorzugt nach langen "Hairpin"-Strukturen mit einer großen Anzahl konservierender/kompensatorischer Punktmutationen Ausschau gehalten. Punktmutationen wurden in der grafischen Darstellung der Sekundärstrukturvorhersage mit eingekreisten Basensymbolen (A,T,G,C) abgebildet. Eine eingekreiste Base bedeutet, daß an dieser Stelle in den verglichenen Sequenzen unterschiedliche Base an einer Wasserstoffbrückenbindung beteiligt sind. Die farbliche Sättigung des Basensymbols charakterisiert in wievielen Sequenzen an dieser Stelle ein Basenpaar ausgebildet wird. Ein schwarzes Symbol bildet in jeder Sequenz eine Brücke, bei einem dunkelgrauen Symbol wird in einer Sequenz und bei einem hellgrauen Symbol in zwei Sequenzen kein Basenpaar ausgebildet.

1National Center For Biotechnology Information zurück
2European Bioinformatics Institut zurück
3International Committee Of Taxonomy And Of Viruses DataBase zurück
4CodingSequence zurück
5Maximum-Free-Energy zurück