Durchführung
Step 0 - Vorarbeit
Zu Beginn galt es unseren Arbeitsplatz mit geeigneter Software auszustatten. Diese ist unter dem
Menüpunkt "Empfohlene Programme" auf unserer
Linkseite zu finden.
Step 1 - Datenerhebung
Zu allererst stellten wir RNA-Sequenzen zusammen, welche wir im weiteren
hinsichtlich konservierter RNA-Sekundärsstrukturen untersuchen wollten.
Die Auswahl der Sequenzen erfolgte ausschließlich aus dem Datenbestand der
Universal Virus Database of the International Committee on Taxonomy of Viruses (ICTVdB) des
National Center for Biotechnology Information (NCBI).
Im Folgenden werden die Viren aufgeführt, aus welchen die verwendeten Sequenzen stammmen:
Accession-Number |
Quellvirus |
Sequenzlänge [bp] |
AF033807 |
Mouse mammary tumor virus |
8805 |
AF033815* |
Mason-Pfizer monkey virus |
8557 |
AF105220 |
Ovine pulmonary adenocarcinoma virus |
7455 |
AF126467 |
Simian retrovirus 2 |
8105 |
AF228550 |
Endogenous mouse mammary tumor virus Mtv1 |
9851 |
AF228552* |
Exogenous mouse mammary tumor virus |
9851 |
M11841 |
Simian SRV-1 type D retrovirus |
8173 |
M12349 |
Mason-Pfizer monkey virus |
8557 |
M15122* |
Mouse mammary tumor virus |
10125 |
M16605 |
Simian retrovirus 2 |
7759 |
M23385 |
Simian sarcoma virus |
8785 |
M80216 |
Ovine pulmonary adenocarcinoma virus |
7462 |
* Hierbei handelt es sich um Sequenzen die im Laufe der Untersuchungen
von weiteren Untersuchungen ausgenommen wurden,
da sie sich für die Untersuchungen als nicht geeignet erwiessen.
Aufgrund dessen werden nun im weiteren Verlauf mehrere Datenversionen angegeben,
einmal bezüglich 12 Sequenzen und einmal bezüglich 9 Sequenzen.
Dies geschieht bis zu dem Punkt in den Untersuchungen, wo festgestellt wurde,
dass die Verwendung der 9 Sequenzen günstigere Ergebnisse liefert.
Es wurden hier nur Beta-Retroviren ausgewählt.
Die ausgewählten Sequenzen liegen im FASTA-Format vor, welches auch das grundlegende Datenformat
auf dem die Untersuchungen aufbauen, bildet. Allerdings musste vorher noch eine Headerkorrektur der
von der ICTVdB geladenen Dateien erfolgen. Die aus der ICTVdB ermittelten Sequenzen wurden nun noch
zur Weiterverarbeitung in einer einzigen Datei zusammengefasst.
- 12 Sequenzen (data, 103 KB)
- 9 Sequenzen (data, 76 KB)
Step 2 - Sequenzalignment
Der erste Schritt bei der Analyse der ausgewählten Sequenzen ist das multiple Alignment aller Sequenzen.
Die Alignmentberechnung erfolgte zunächst mit dem Programm
ClustalW.
Das Programm brachte folgende Alignment-Ergebnisse:
Daraus ergaben sich folgende Alignmment-Dateien:
Im späteren Verlauf des Praktikums wurden die Sequenzen noch mit den Programmen
Code2aln
und
Dialign2 bearbeitet. Von nun an arbeiteten wir allerdings nur noch mit den selektierten
9 Sequenzen weiter, da schon feststand, das dies bessere Ergebnisse liefern würde als das Alignment von 12 Sequenzen.
Wärend das multiple Alignment mit
Code2aln im Vergleich zum Alignment-Ergebnis des
ClustalW-Algorithmus keine anderen Alignment-Daten brachte (die Alignments waren komplett identisch),
unterschied sich das Alignment mit
Dialign2 von den anderen beiden erheblich. Konkret sahen die
Alignmentergebnisse wie folgt aus:
Step 3 - Phylogenetische Bäume
Die Alignmentergebnisse lassen sich als phylogenetischen Baum anschaulicher darstellen und interpretieren.
Hierzu wurde das Programm
Splitstree verwendet.
Um die Alignment-Dateien graphisch darstellen zu können, mussten wir das ClustalW-Alignment-Format in das
splitstreeeigene
Nexus-Dateiformat umwandeln.
Dies realisierten wir mit Hilfe eines Perl-Skriptes (
aln2nex.pl), das die Konvertierung der
Datenformate automatisierte.
Im Folgenden sind die Alignment-Ergebnisse sowohl im Splitstree-Dateiformat, als auch in Form von jpg-Dateien,
welche wir aus den original
Splitstree Post-Script Ausgaben gewannen, aufgeführt:
- 12 Sequenzen
- Aus (data.nex, 151 KB) gewannen wir
diesen Baum (jpg, 33 KB)
Anhand der Grafik war leicht zu erkennen, dass wir mit redundanten Sequenzen arbeiteten. Somit entschlossen wir uns
für die weitere Analyse folgende Sequenzen auszuschließen und nicht weiter zu betrachten:
Entfernte Sequenz |
Grund |
AF033815 |
Identisch mit M12349 |
AF228552 |
zu große Ähnlichkeit mit AF033807 und AF228550 |
M15122 |
Identisch mit AF033807 |
Dialign2
An dieser Stelle haben wir entschieden, das es keinen Sinn macht das Alignment mittels
Code2aln
weiter zu betrachten, da dieses leider absolut identisch zum
ClustalW-Alignment war.
Auf Grund dessen wird das Alignment mit
Code2aln von den weiteren Betrachtungen ausgenommen.
Step 4 - Analyse
Nun konnten wir uns auf die Suche nach stabilen Sekundärstrukturen begeben.
Wir nutzten das Tool
RNAfold des
Vienna RNA Package zur Energieberechnung
für die Bildung der RNA-Sekundärstrukturen. Mittels
readseq bereiteten wir
unsere
FASTA-Sequenzdatei für die Weiterverarbeitung
durch
RNAfold auf. Ergebnis dieses Schrittes und Quelldatei für RNAfold war die Datei
data.vienna.
Das rechenintensive
RNAfold ließen wir über Nacht auf Cluster-Rechnern verteilt laufen und
erhielten das Faltungsergebnis in Form von Ausgabedateien (*.out) bzw. *.ps Dateien.
Durch das Perl-Skript
split.pl wurde nun für jede Sequenz eine *.mfe Dateie erzeugt.
Dadurch hatten hatten wir alle benötigten Dateien zur Weiterverarbeitung mit
Alidot zusammen.
Beide Programme sind Teil des
Vienna RNA Package.
Alidot dient zum Auffinden konservierter Motive. Dazu werden die Informationen über die Einzelsequenzen
zusammengefasst. Wir riefen es auf zwei unterschiedliche Arten auf:
Zum Einen nutzte
Alidot die *.mfe Dateien, und zum Anderen benutzte es durch Angabe des Parameters -p
die *.ps Dateien. Die
Alidot-Ausgabedateien
enthalten Informationen über die Anzahl und die Wahrscheinlichkeiten, ob eine Basenpaarung vorkommt.
- ClustalW:
- Alidot ohne Parameter -p
- Alidot mit Parameter -p
- Dialign2:
- Alidot ohne Parameter -p
- Alidot mit Parameter -p
Letztlich erzeugten wir unter Verwendung der
Alidot Ausgaben über das Skript
cmount.pl,
das ebenfalls zum
Vienna RNA Package gehört, Mountainplots.
Entsprechend der verwendeten Alignment-Algorithmen und der beiden unterschiedlichen
Alidot-Aufrufe
erhielten wir folgende Ergebnisse:
- ClustalW
- Mountainplot auf Grundlage der *.mfe Dateien (
jpg, 169 KB;
ps, 65 KB)
- Mountainplot auf Grundlage der *.ps Dateien (
jpg, 108 KB;
ps, 91 KB)
- Dialign2
- Mountainplot auf Grundlage der *.mfe Dateien (
jpg, 142 KB;
ps, 79 KB)
- Mountainplot auf Grundlage der *.ps Dateien (
jpg, 126 KB;
ps, 121 KB)
Der letzte wichtige Analyseschritt war es nun aus den erhaltenen Dotplots und aus den Mountainplots interessante
Stellen herauszusuchen, und diese näher zu untersuchen. Diese Untersuchung beinhaltete das Bilden eines Dotplots
und eines Mountainplots, welche auf den selektierten Bereich beschränkt sind.
Ebenso galt es nun diesen Sequenzausschnitt zu selektieren und die
Sekundärstruktur dieses Bereiches darzustellen. Die Selektion erfolgte durch das Perl-Skript
conses.pl, das
Dateien vom Typ *.cons erzeugte. Diese Dateien wurden nun mittels
RNAplot als RNA-Sekundärstruktur in einer
Postscript-Datei festgehalten. Darauf folgte eine Nachbearbeitung mit Hilfe des Perl-Skriptes
anote.pl, das
den Sekundärstrukturen noch Markierungen einzelner Basen hinzufügt. Es fügt Markierungen in Form
kleiner Kreise ein, die angeben, ob die jeweilige Sequenzposition innerhalb der verschiedenen Sequenzen
zwar die gleiche Struktur bildet, es sich aber um verschiedene Basen handelt.
Je nachdem ob wenige oder mehrere Sequenzen nicht in das Schema der konservierten Sekundärstruktur an dieser Stelle
passen, wird die Basse und/oder der markierende Kreis in verschiedenen Graustufen dargestellt.
Da es viele Stellen innerhalb der Gesamtsequenzen zu untersuchen gab schien es uns sinnvoller ein Shell-Skript zu verwenden,
welches all diese Schritte automatisiert (
extract.sh). Sowohl
conses.pl,
RNAplot, als auch
anote.pl sind Teile des
Vienna RNA Package.
Step 5 - Protokoll
Der letzte Schritt des Praktikums war die Erstellung einer geeigneten Dokumentation über alle abgelaufenen Vorgänge.
Damit das Protokoll einfach zugänglich ist, und von so vielen Personen wie möglich ohne zusätzlichen
Software-Aufwand zu betrachten ist, verfassten wir diese Webseiten. Das Ergebnis sehen sie nun vor sich.