Durchführung

1. Datengewinnung
2. Multiples Alignment
3. Phylogentischer Baum
4. RNA-Sekundärstruktur-Vorhersage
5. Konservierte Sekundärstrukturen

1. Datengewinnung

Als Datenquelle nutzten wir die NCBI-Datenbank, in der sich folgende Sequenzen zu den verschiedenen Vertretern der Spumaviren befanden:

Bovine foamy virus
- NC_001831.1 Bovine foamy virus (12002 bases)

Equine foamy virus
- NC_002201.1 Equine foamy virus (12035 bases)

Feline foamy virus
- NC_001871.1 Feline foamy virus (10479 bases)
- Y08851.1 FFVY08851 Feline foamy virus DNA (deprecated, ersetzt durch NC_001871.1)

Feline syncytial virus
- U85043 Feline syncytial virus (10484 bases)

Foamy retrovirus
- keine komplette Sequenzen vorhanden

Human foamy virus
- NC_001736.1 Human foamy virus (13242 bases)

Human spumaretrovirus
- AF033816 Human spumaretrovirus (5340 bases)
- HSU21247 Human spumaretrovirus (deprecated, ersetzt durch AF033816)

Simian foamy virus
- NC_001364.1 Simian foamy virus (13246 bases)
- AF525404.1 Simian foamy virus isolate HU6 (12171 bases)

Simian foamy virus type 1
- X54482.1 SFVGENOME Simian foamy virus type 1 (12972 bases)

Simian foamy virus type 3
- M74895.1 SMFPOLORF Simian foamy virus type 3 (13111 bases)

Simian foamy virus type 6
- keine komplette Sequenzen vorhanden

Die als deprecated bezeichneten Sequenzen wurden bei unseren Experimenten nicht weiter berücksichtigt, da sie durch neuere Daten ersetzt wurden. Demnach gingen 10 Sequenzen in die weiteren Betrachtungen ein.

nach oben

2. Multiples Alignment

Um das multiple Alignment der von uns ausgewählten Virensequenzen zu bestimmen, verwendeten wir zunächst das Programm clustalw, wofür es notwendig war, die einzelnen Sequenzen im FASTA-Format in eine zusammenhängende Sequenzdatei zusammenzufassen.
ClustalW berechnete zu erst die paarweisen Alignments der Sequenzen um dann aus den resultierenden Daten das Multiple Alignment zu bestimmen.

Als Ergebnis des multiplen Alignments erhielten wir eine .aln Datei, in der das multiple Alignment enthalten ist und eine .dnd Datei, welche Informationen über den phylogenetischen Baum beinhaltet.

Da solche Alignments mittels unterschiedlicher Algorithmen berechnet werden können, und ClustalW nur einen davon benutzt, haben wir uns entschieden, die Ergebnisse mit den Ergebnissen anderer Verfahren zu vergleichen. Dazu verwendeten wir zusätzlich die Programme code2aln und dialign2.

Das Programm Dialign2 unterscheidet sich zu den anderen Programmen dahingehend, dass es nicht die die einzelnen Basen alignt, sondern die aus denen abgeleiteten Proteine.

Die Ergebnisse des Programms clustalw

Die Ergebnisse des Programms code2aln

Die Ergebnisse des Programms dialign2

nach oben

3. Phylogentischer Baum

Mit den aus oben genannten Programmen erhaltenen Alignments (.aln Dateien) haben wir mit Hilfe des Programms splitstree unseren phylogenetischen Baum erstellt. Dafür mussten zunächst aber die Alignment-Dateien in ein für splitstree kombatibles Format, das Nexus-Format, umgewandelt werden. Dieses Problem haben wir mit dem Perlscript aln2nex gelöst. Nach Eingabe der .nxs Dateien stellte splitstree unseren Baum als Grafik dar, welchen wir zur besseren Betrachtung als Postscript exportierten.

Um die verschiedenen Arbeitsweisen der oben aufgeführten Alignment-Programme zu verdeutlichen, haben wir die Phylogentischen Bäume für beide Verfahren (Sequenz- und Protein-Alignment) erstellt.

Es ergaben sich nunmehr 3 Baumdarstellungen, die sich aus den jeweiligen Alignments von clustalw, code2aln und dialign2 herleiteten.

all-seq_clustalw.nxs - NEXUS-Datei aus den Daten des Programms clustalw
all-seq_code2aln.nxs - NEXUS-Datei aus den Daten des Programms code2aln
all-seq_dialign2.nxs - NEXUS-Datei aus den Daten des Programms dialign2

Die Ergebnisse des Programms splitstree

Die Schritte 2 und 3 wurden mehrmals ausgeführt um auf die endgültig ausgewählten Sequenzen (siehe 1. Datengewinnung ) zu kommen. Dabei wurden Sequenzen die zu ähnlich zu einer anderen Sequenz oder zu unterschiedlich zu allen anderen Sequenzen waren aus der Betrachtung herausgenommen. Die Betrachtung der Phylogentischen Bäume half bei dieser Entscheidung. Bei Identischen Sequenzen wurde die jeweils aktuellere Version gewählt.

nach oben

4. RNA-Sekundärstruktur-Vorhersage

Die Vorhersage der Sekundärstruktur der RNA aus den jeweiligen Sequenzen wurde von uns mit dem Programm RNAfold, aus dem Vienna-RNA-Package der Universität Wien, durchgeführt.

Dabei mussten aber zunächst die im FASTA-Format vorliegenden Sequenzen in eine für dieses Programm kompatible Form gebracht werden. Dies geschah mit Hilfe, des ebenfalls im Vienna-RNA-Package enthaltenen Programm readseq.

Da das Berechnen der Sekundärstruktur auch nur einer Sequenz sehr rechenintensiv ist, verlangte der Umgang mit RNAfold sowohl Orgnanisationstalent als auch Geduld. Da wir von allen Gruppen, mit durchschnittlich 12000 Basen, die wohl längsten Sequenzen hatten, benötigten wir Rechner mit mindestens 2GB Arbeitsspeicher. Bei der Anzahl von zehn Sequenzen war es da oft schwierig freie Ressourcen zu finden. Eine letzte Rettung war da die Hilfe der Universität Wien die uns die Berechnung einiger Sequenzen und somit Rechenlast abnahm. Trotz dessen konnten nicht alle Sequenzen vollständig berechnet werden.

Die notwendigen Informationen (.mfe Dateien, siehe Die Ergebnisse des Programms RNAfold) zur Erstellung des Mountainplots und der einzelnen Sekundärstrukturen hatten wir jedoch.

nach oben

5. Konservierte Sekundärstrukturen

Konservierte Sekundärstrukturen sind Abschnitte der RNA, die in allen Sequenzen die gleiche oder zumindest ähnliche Sekundärstruktur ausprägt, allerdings nicht aus den gleichen Basen bestehen.

Die Sekundärstruktur einer RNA entsteht dadurch das die Monomere der einsträngigen RNA an gewissen Stellen Dimere durch die Verbindung über Wasserstoffbrücken bilden. Zum Beispiel binden bekanntermaßen die Basen A (Adenin) mit U (Uracil) und G (Guanin) mit C (Cytosin). Allerdings bilden ebenfalls G mit U und U mit U solche, wenn auch nicht ganz so enge, Verbindungen.

Hinweise auf Stellen konservierter Sekundärstruktur liefert das Programm alidot. Da man zur Bestimmung konservierter Strukturen sowohl die Sekundärstruktur der einzelnen Sequenzen als auch das Multiple Alignment aller Sequenzen braucht, benötigt alidot die Eingabe der .aln Datei eines der Alignment-Programme und die von RNAfold erstellten .mfe Dateien der einzelnen Sequenzen. Tatsächlich ist nur die .aln als Eingabe notwendig und von ihr wird auf die .mfe verwiesen, dazu müssen sich allerdings alle Dateien in einem Verzeichnis befinden.

Als Ausgabe erhält man man mehrere Postscriptdateien (Die Ergebnisse des Programms alidot). Eine dieser Dateien zeigt den Dotplot des Alignments und die andere zeigt die sekundäre Struktur des Alignments mit markierten Stellen, welche für konservierte Paarungen stehen.

Mit Hilfe des Programms cmountain kann man weiter einen Mountainplot (Die Ergebnisse des Programms cmountain) des Alignments erstellen. Durch ihn kann leicht erkannt werden an welchen Stellen es sich um konservierte Sekundärstrukuren oder nur konservierte Sequenzen handelt.

Hat man solche Stellen gefunden schneidet man mit Hilfe von ClustalX (ClustalW mit grafischer Oberfläche) diese aus. Danach muss der Abschnitt neu alignt werden und das neue Alignment wieder gefaltet werden. Es werden also alle Schritte noch einmal (oder mehrmals) auf den verdächtigen Stellen ausgeführt, bis man Stellen konservierter Sekundärstrukur gefunden hat oder sich herausstellt das es sie nicht gibt.

nach oben