Trennlinie
Stichwortsuche - Uni Leipzig
Trennlinie
Trennlinie
Durchführung
Step 0 - Vorarbeit
Zu Beginn galt es unseren Arbeitsplatz mit geeigneter Software auszustatten. Diese ist unter dem Menüpunkt "Empfohlene Programme" auf unserer Linkseite zu finden.
Step 1 - Datenerhebung
Zu allererst stellten wir RNA-Sequenzen zusammen, welche wir im weiteren hinsichtlich konservierter RNA-Sekundärsstrukturen untersuchen wollten. Die Auswahl der Sequenzen erfolgte ausschließlich aus dem Datenbestand der Universal Virus Database of the International Committee on Taxonomy of Viruses (ICTVdB) des National Center for Biotechnology Information (NCBI).
Im Folgenden werden die Viren aufgeführt, aus welchen die verwendeten Sequenzen stammmen:
Accession-Number Quellvirus Sequenzlänge [bp]
AF033807 Mouse mammary tumor virus 8805
AF033815* Mason-Pfizer monkey virus 8557
AF105220 Ovine pulmonary adenocarcinoma virus 7455
AF126467 Simian retrovirus 2 8105
AF228550 Endogenous mouse mammary tumor virus Mtv1 9851
AF228552* Exogenous mouse mammary tumor virus 9851
M11841 Simian SRV-1 type D retrovirus 8173
M12349 Mason-Pfizer monkey virus 8557
M15122* Mouse mammary tumor virus 10125
M16605 Simian retrovirus 2 7759
M23385 Simian sarcoma virus 8785
M80216 Ovine pulmonary adenocarcinoma virus 7462
* Hierbei handelt es sich um Sequenzen die im Laufe der Untersuchungen von weiteren Untersuchungen ausgenommen wurden, da sie sich für die Untersuchungen als nicht geeignet erwiessen. Aufgrund dessen werden nun im weiteren Verlauf mehrere Datenversionen angegeben, einmal bezüglich 12 Sequenzen und einmal bezüglich 9 Sequenzen. Dies geschieht bis zu dem Punkt in den Untersuchungen, wo festgestellt wurde, dass die Verwendung der 9 Sequenzen günstigere Ergebnisse liefert.

Es wurden hier nur Beta-Retroviren ausgewählt.

Die ausgewählten Sequenzen liegen im FASTA-Format vor, welches auch das grundlegende Datenformat auf dem die Untersuchungen aufbauen, bildet. Allerdings musste vorher noch eine Headerkorrektur der von der ICTVdB geladenen Dateien erfolgen. Die aus der ICTVdB ermittelten Sequenzen wurden nun noch zur Weiterverarbeitung in einer einzigen Datei zusammengefasst.
  • 12 Sequenzen (data, 103 KB)
  • 9 Sequenzen (data, 76 KB)
Step 2 - Sequenzalignment
Der erste Schritt bei der Analyse der ausgewählten Sequenzen ist das multiple Alignment aller Sequenzen. Die Alignmentberechnung erfolgte zunächst mit dem Programm ClustalW.
Das Programm brachte folgende Alignment-Ergebnisse:
Daraus ergaben sich folgende Alignmment-Dateien: Im späteren Verlauf des Praktikums wurden die Sequenzen noch mit den Programmen Code2aln und Dialign2 bearbeitet. Von nun an arbeiteten wir allerdings nur noch mit den selektierten 9 Sequenzen weiter, da schon feststand, das dies bessere Ergebnisse liefern würde als das Alignment von 12 Sequenzen. Wärend das multiple Alignment mit Code2aln im Vergleich zum Alignment-Ergebnis des ClustalW-Algorithmus keine anderen Alignment-Daten brachte (die Alignments waren komplett identisch), unterschied sich das Alignment mit Dialign2 von den anderen beiden erheblich. Konkret sahen die Alignmentergebnisse wie folgt aus:
  • Code2aln

  • Dialign2
    • Alignment-Dateien*
      • Dialign2-Datenformat (data.ali, 347 KB)
      • ClustalW-Datenformat (data.aln, 145 KB)
Step 3 - Phylogenetische Bäume
Die Alignmentergebnisse lassen sich als phylogenetischen Baum anschaulicher darstellen und interpretieren. Hierzu wurde das Programm Splitstree verwendet.
Um die Alignment-Dateien graphisch darstellen zu können, mussten wir das ClustalW-Alignment-Format in das splitstreeeigene Nexus-Dateiformat umwandeln. Dies realisierten wir mit Hilfe eines Perl-Skriptes (aln2nex.pl), das die Konvertierung der Datenformate automatisierte.
Im Folgenden sind die Alignment-Ergebnisse sowohl im Splitstree-Dateiformat, als auch in Form von jpg-Dateien, welche wir aus den original Splitstree Post-Script Ausgaben gewannen, aufgeführt:
  • 12 Sequenzen
    • Aus (data.nex, 151 KB) gewannen wir diesen Baum (jpg, 33 KB)
Anhand der Grafik war leicht zu erkennen, dass wir mit redundanten Sequenzen arbeiteten. Somit entschlossen wir uns für die weitere Analyse folgende Sequenzen auszuschließen und nicht weiter zu betrachten:
Entfernte Sequenz Grund
AF033815 Identisch mit M12349
AF228552 zu große Ähnlichkeit mit AF033807 und AF228550
M15122 Identisch mit AF033807
  • 9 Sequenzen
    • ClustalW
    • Code2aln
    • Dialign2
An dieser Stelle haben wir entschieden, das es keinen Sinn macht das Alignment mittels Code2aln weiter zu betrachten, da dieses leider absolut identisch zum ClustalW-Alignment war. Auf Grund dessen wird das Alignment mit Code2aln von den weiteren Betrachtungen ausgenommen.
Step 4 - Analyse
Nun konnten wir uns auf die Suche nach stabilen Sekundärstrukturen begeben. Wir nutzten das Tool RNAfold des Vienna RNA Package zur Energieberechnung für die Bildung der RNA-Sekundärstrukturen. Mittels readseq bereiteten wir unsere FASTA-Sequenzdatei für die Weiterverarbeitung durch RNAfold auf. Ergebnis dieses Schrittes und Quelldatei für RNAfold war die Datei data.vienna.
Das rechenintensive RNAfold ließen wir über Nacht auf Cluster-Rechnern verteilt laufen und erhielten das Faltungsergebnis in Form von Ausgabedateien (*.out) bzw. *.ps Dateien. Durch das Perl-Skript split.pl wurde nun für jede Sequenz eine *.mfe Dateie erzeugt.
Sequenz RNAfold-Ausgabe-Datei RNAfold-Dotplot mfe-Datei
AF033807 AF033807.out AF033807_dp.ps AF033807.mfe
AF105220 AF105220.out AF105220_dp.ps AF105220.mfe
AF126467 AF126467.out AF126467_dp.ps AF126467.mfe
AF228550 AF228550.out AF228550_dp.ps AF228550.mfe
M11841 M11841.out M11841_dp.ps M11841.mfe
M12349 M12349.out M12349_dp.ps M12349.mfe
M16605 M16605.out M16605_dp.ps M16605.mfe
M23385 M23385.out M23385_dp.ps M23385.mfe
M80216 M80216.out M80216_dp.ps M80216.mfe
Dadurch hatten hatten wir alle benötigten Dateien zur Weiterverarbeitung mit Alidot zusammen. Beide Programme sind Teil des Vienna RNA Package. Alidot dient zum Auffinden konservierter Motive. Dazu werden die Informationen über die Einzelsequenzen zusammengefasst. Wir riefen es auf zwei unterschiedliche Arten auf: Zum Einen nutzte Alidot die *.mfe Dateien, und zum Anderen benutzte es durch Angabe des Parameters -p die *.ps Dateien. Die Alidot-Ausgabedateien enthalten Informationen über die Anzahl und die Wahrscheinlichkeiten, ob eine Basenpaarung vorkommt.

  • ClustalW:
  • Dialign2:
Letztlich erzeugten wir unter Verwendung der Alidot Ausgaben über das Skript cmount.pl, das ebenfalls zum Vienna RNA Package gehört, Mountainplots. Entsprechend der verwendeten Alignment-Algorithmen und der beiden unterschiedlichen Alidot-Aufrufe erhielten wir folgende Ergebnisse:
  • ClustalW
    • Mountainplot auf Grundlage der *.mfe Dateien ( jpg, 169 KB; ps, 65 KB)
    • Mountainplot auf Grundlage der *.ps Dateien ( jpg, 108 KB; ps, 91 KB)
  • Dialign2
    • Mountainplot auf Grundlage der *.mfe Dateien ( jpg, 142 KB; ps, 79 KB)
    • Mountainplot auf Grundlage der *.ps Dateien ( jpg, 126 KB; ps, 121 KB)
Der letzte wichtige Analyseschritt war es nun aus den erhaltenen Dotplots und aus den Mountainplots interessante Stellen herauszusuchen, und diese näher zu untersuchen. Diese Untersuchung beinhaltete das Bilden eines Dotplots und eines Mountainplots, welche auf den selektierten Bereich beschränkt sind. Ebenso galt es nun diesen Sequenzausschnitt zu selektieren und die Sekundärstruktur dieses Bereiches darzustellen. Die Selektion erfolgte durch das Perl-Skript conses.pl, das Dateien vom Typ *.cons erzeugte. Diese Dateien wurden nun mittels RNAplot als RNA-Sekundärstruktur in einer Postscript-Datei festgehalten. Darauf folgte eine Nachbearbeitung mit Hilfe des Perl-Skriptes anote.pl, das den Sekundärstrukturen noch Markierungen einzelner Basen hinzufügt. Es fügt Markierungen in Form kleiner Kreise ein, die angeben, ob die jeweilige Sequenzposition innerhalb der verschiedenen Sequenzen zwar die gleiche Struktur bildet, es sich aber um verschiedene Basen handelt. Je nachdem ob wenige oder mehrere Sequenzen nicht in das Schema der konservierten Sekundärstruktur an dieser Stelle passen, wird die Basse und/oder der markierende Kreis in verschiedenen Graustufen dargestellt. Da es viele Stellen innerhalb der Gesamtsequenzen zu untersuchen gab schien es uns sinnvoller ein Shell-Skript zu verwenden, welches all diese Schritte automatisiert (extract.sh). Sowohl conses.pl, RNAplot, als auch anote.pl sind Teile des Vienna RNA Package.
Step 5 - Protokoll
Der letzte Schritt des Praktikums war die Erstellung einer geeigneten Dokumentation über alle abgelaufenen Vorgänge. Damit das Protokoll einfach zugänglich ist, und von so vielen Personen wie möglich ohne zusätzlichen Software-Aufwand zu betrachten ist, verfassten wir diese Webseiten. Das Ergebnis sehen sie nun vor sich.
Trennlinie
Valid XHTML 1.1!