Durchführung |
Durchführung
1. Datengewinnung 1. DatengewinnungAls Datenquelle nutzten wir die NCBI-Datenbank, in der sich folgende Sequenzen zu den verschiedenen Vertretern der Spumaviren befanden:
Die als deprecated bezeichneten Sequenzen wurden bei unseren Experimenten nicht weiter berücksichtigt, da sie durch neuere Daten ersetzt wurden. Demnach gingen 10 Sequenzen in die weiteren Betrachtungen ein.
2. Multiples AlignmentUm das multiple Alignment der von uns ausgewählten Virensequenzen zu bestimmen, verwendeten
wir zunächst das Programm clustalw, wofür es notwendig war, die einzelnen Sequenzen
im FASTA-Format in eine zusammenhängende Sequenzdatei zusammenzufassen. Als Ergebnis des multiplen Alignments erhielten wir eine .aln Datei, in der das multiple Alignment enthalten ist und eine .dnd Datei, welche Informationen über den phylogenetischen Baum beinhaltet. Da solche Alignments mittels unterschiedlicher Algorithmen berechnet werden können, und ClustalW nur einen davon benutzt, haben wir uns entschieden, die Ergebnisse mit den Ergebnissen anderer Verfahren zu vergleichen. Dazu verwendeten wir zusätzlich die Programme code2aln und dialign2.
Das Programm Dialign2 unterscheidet sich zu den anderen Programmen dahingehend, dass es nicht die
die einzelnen Basen alignt, sondern die aus denen abgeleiteten Proteine.
3. Phylogentischer BaumMit den aus oben genannten Programmen erhaltenen Alignments (.aln Dateien) haben wir mit Hilfe des Programms splitstree unseren phylogenetischen Baum erstellt. Dafür mussten zunächst aber die Alignment-Dateien in ein für splitstree kombatibles Format, das Nexus-Format, umgewandelt werden. Dieses Problem haben wir mit dem Perlscript aln2nex gelöst. Nach Eingabe der .nxs Dateien stellte splitstree unseren Baum als Grafik dar, welchen wir zur besseren Betrachtung als Postscript exportierten. Um die verschiedenen Arbeitsweisen der oben aufgeführten Alignment-Programme zu verdeutlichen, haben wir die Phylogentischen Bäume für beide Verfahren (Sequenz- und Protein-Alignment) erstellt.
Es ergaben sich nunmehr 3 Baumdarstellungen, die sich aus den jeweiligen Alignments von clustalw, code2aln und dialign2
herleiteten.
Die Schritte 2 und 3 wurden mehrmals ausgeführt um auf die endgültig ausgewählten Sequenzen (siehe 1. Datengewinnung ) zu kommen. Dabei wurden Sequenzen die zu ähnlich zu einer anderen Sequenz oder zu unterschiedlich zu allen anderen Sequenzen waren aus der Betrachtung herausgenommen. Die Betrachtung der Phylogentischen Bäume half bei dieser Entscheidung. Bei Identischen Sequenzen wurde die jeweils aktuellere Version gewählt.
4. RNA-Sekundärstruktur-VorhersageDie Vorhersage der Sekundärstruktur der RNA aus den jeweiligen Sequenzen wurde von uns mit dem Programm RNAfold, aus dem Vienna-RNA-Package der Universität Wien, durchgeführt. Dabei mussten aber zunächst die im FASTA-Format vorliegenden Sequenzen in eine für dieses Programm kompatible Form gebracht werden. Dies geschah mit Hilfe, des ebenfalls im Vienna-RNA-Package enthaltenen Programm readseq. Da das Berechnen der Sekundärstruktur auch nur einer Sequenz sehr rechenintensiv ist, verlangte der Umgang mit RNAfold sowohl Orgnanisationstalent als auch Geduld. Da wir von allen Gruppen, mit durchschnittlich 12000 Basen, die wohl längsten Sequenzen hatten, benötigten wir Rechner mit mindestens 2GB Arbeitsspeicher. Bei der Anzahl von zehn Sequenzen war es da oft schwierig freie Ressourcen zu finden. Eine letzte Rettung war da die Hilfe der Universität Wien die uns die Berechnung einiger Sequenzen und somit Rechenlast abnahm. Trotz dessen konnten nicht alle Sequenzen vollständig berechnet werden. Die notwendigen Informationen (.mfe Dateien, siehe Die Ergebnisse des Programms RNAfold) zur Erstellung des Mountainplots und der einzelnen Sekundärstrukturen hatten wir jedoch.
5. Konservierte SekundärstrukturenKonservierte Sekundärstrukturen sind Abschnitte der RNA, die in allen Sequenzen die gleiche oder zumindest ähnliche Sekundärstruktur ausprägt, allerdings nicht aus den gleichen Basen bestehen. Die Sekundärstruktur einer RNA entsteht dadurch das die Monomere der einsträngigen RNA an gewissen Stellen Dimere durch die Verbindung über Wasserstoffbrücken bilden. Zum Beispiel binden bekanntermaßen die Basen A (Adenin) mit U (Uracil) und G (Guanin) mit C (Cytosin). Allerdings bilden ebenfalls G mit U und U mit U solche, wenn auch nicht ganz so enge, Verbindungen. Hinweise auf Stellen konservierter Sekundärstruktur liefert das Programm alidot. Da man zur Bestimmung konservierter Strukturen sowohl die Sekundärstruktur der einzelnen Sequenzen als auch das Multiple Alignment aller Sequenzen braucht, benötigt alidot die Eingabe der .aln Datei eines der Alignment-Programme und die von RNAfold erstellten .mfe Dateien der einzelnen Sequenzen. Tatsächlich ist nur die .aln als Eingabe notwendig und von ihr wird auf die .mfe verwiesen, dazu müssen sich allerdings alle Dateien in einem Verzeichnis befinden. Als Ausgabe erhält man man mehrere Postscriptdateien (Die Ergebnisse des Programms alidot). Eine dieser Dateien zeigt den Dotplot des Alignments und die andere zeigt die sekundäre Struktur des Alignments mit markierten Stellen, welche für konservierte Paarungen stehen. Mit Hilfe des Programms cmountain kann man weiter einen Mountainplot (Die Ergebnisse des Programms cmountain) des Alignments erstellen. Durch ihn kann leicht erkannt werden an welchen Stellen es sich um konservierte Sekundärstrukuren oder nur konservierte Sequenzen handelt. Hat man solche Stellen gefunden schneidet man mit Hilfe von ClustalX (ClustalW mit grafischer Oberfläche) diese aus. Danach muss der Abschnitt neu alignt werden und das neue Alignment wieder gefaltet werden. Es werden also alle Schritte noch einmal (oder mehrmals) auf den verdächtigen Stellen ausgeführt, bis man Stellen konservierter Sekundärstrukur gefunden hat oder sich herausstellt das es sie nicht gibt.
|