Uta Schulze & Madlen Hartmann
letzte Änderung: 16.04.2004

Durchführung

  1. Genomdatenbank
  2. ClustalW
  3. Splitstree
  4. RNAfold
  5. Alidot
  6. weitere Bearbeitung
    • ClustalX
    • code2aln
    • dpzoom
    • consensus
    • RNAplot
    • anote
    • cmount

1. Genomdatenbank

Extraktion der Sequenzdaten aus der Genombank NCBI
Für unsere Untersuchungen waren nur die Sequenzen mit vollständig bekanntem Genom von Bedeutung.
Nach eingehender Betrachtung der Alphavirussequenzen bildeten wir schliesslich zwei zu untersuchende Gruppen:
Art ID *.fa Datei Länge der Sequenz
Gruppe 1 Avian myelocytomatosis virus AF033809 AF033809.fa 3392 bp
Fujinami sarcomama virus AF033810 AF033810.fa 4788 bp
Avian sarcoma virus Y73 J02027 J02027.fa 3718 bp
Fujinami sarcoma virus J02194 J02194.fa 4788 bp
Avian sarcoma virus UR2 M10455 M10455.fa 3166 bp
Recombinant avian retrovirus MH2E21 M14008 M14008.fa 2630 bp
Avian myeloblastosis virus M55076 M55076.fa 1929 bp
Avian carcinoma virus NC_001402 NC_001402.fa 2630 bp
Fujinami sarcoma virus NC_001403 NC_001403.fa 4788 bp
Y73 sarcoma virus NC_001404 NC_001404.fa 3718 bp
Avian myelocytomatosis virus NC_001866 NC_001866.fa 3392 bp
Avian sarcoma virus CT10 Y00302 Y00302.fa 2428 bp
Gruppe 2 Avian leukosis virus AB112960 AB112960.fa 7448 bp
Rous sarcoma virus AF033808 AF033808.fa 9392 bp
Rous sarcoma virus strain Schmidt-Ruppin B AF052428 AF052428.fa 9396 bp
Avian leukosis virus strain ev-1 AY013303 AY013303.fa 7525 bp
Avian leukosis virus strain ev-3 AY013304 AY013304.fa 5842 bp
Avian leukosis virus ADOL-7501 AY027920 AY027920.fa 7612 bp
Rous sarcoma virus D10652 D10652.fa 9317 bp
Rous sarcoma virus J02342 J02342.fa 9625 bp
Avian leukemia virus ALV-RSA genome M37980 M37980.fa 7286 bp
Rous sarcoma virus NC_001407 NC_001407.fa 9392 bp
Avian leukosis virus NC_001408 NC_001408.fa 7268 bp
Avian leukosis virus HPRS-103 (subgroup J) Z46390 Z46390.fa 7841 bp

Zur weiteren Bearbeitung wurden die Sequenzen im Fasta-Format (*.fa) gespeichert.
Die Spalte ID enthält die Bezeichnungen unter denen die Sequenzen in der NCBI - Datenbank zu finden sind.
Ausserdem sind die Ausgaben der Datenbank verlinkt.


2. ClustalW

ClustalW ermöglicht die Bestimmung paarweiser und multipler Alignments (und der dazugehörigen Scorewerte).
Eingelesen wird eine *.fa Datei, in der alle Sequenzen die aligned werden sollen enthalten sind - dazu wurden die einzelnen *.fa Dateien mit cat *.fa > x.fa in eine Ausgabedatei umgeleitet.
Ergebnis von ClustalW ist eine *.aln Datei, die das multiple Sequenzalignment der Gruppe von Sequenzen enthält.


3. Splitstree

Mit den multiplen Alignments, die mit Hilfe von ClustalW erzeugt wurden, kann nun mit Splitstree der phylogenetische Baum erstellt werden.
In diesem können Ähnlichkeiten zwischen den Sequenzen aufgrund der Abstände erkannt werden.
Um die *.aln Dateien mit xsplits öffnen zu können, mussten sie zuerst in das von Splitstree verwendete nex Format umgewandelt werden ( mit Hilfe des Perlscripts aln2nex.pl )

Aufgrund der phylogenetischen Bäume haben wir ein paar Sequenzen aus den beiden Gruppen entfernt, da diese äqivalent oder zumindestens sehr ähnlich zu anderen Sequenzen waren (erkennbar an der Lage im Baum)

Art ID Grund für die Entfernung
Gruppe 1 Avian myelocytomatosis virus AF033809 gleiche Länge und Lage im Baum* wie NC_001866
Fujinami sarcomama virus AF033810 gleiche Länge und Lage im Baum wie J02194 und NC_001403
Avian sarcoma virus Y73 J02027 gleiche Länge und Lage im Baum wie NC_001404
Fujinami sarcoma virus J02194 gleiche Länge und Lage im Baum wie AF033810 und NC_001403
Recombinant avian retrovirus MH2E21 M14008 gleiche Länge und Lage im Baum wie NC_001402
Gruppe 2 Rous sarcoma virus AF033808 gleiche Länge und Lage im Baum wie NC_001407
Avian leukosis virus strain ev-3 AY013304 ähnliche Lage im Baum wie AY013303
Rous sarcoma virus J02342 gleiche Lage im Baum wie NC_001407
Avian leukemia virus ALV-RSA genome M37980 gleiche Lage im Baum wie NC_001408
* Gleiche Lage im Baum bedeutet bei den meisten Sequenzen, dass sie identisch sind.
Oft wurden die Sequenzen zu einem späteren Zeitpunkt noch einmal untersucht und mit einer neuen ID in der Datenbank abgespeichert, die "alten" Einträge jedoch nicht entfernt. NC_* sind dabei die neueren Einträge)

Nach dem ersten ClustaW - Durchlauf und Betrachtung der Ergebnisse mit Splitstree sahen die beiden Gruppen (mit denen wir dann weitergearbeitet haben) dann folgendermaßen aus:

Art ID Länge der Sequenz
Gruppe 1 Avian sarcoma virus UR2 M10455 3166 bp
Avian myeloblastosis virus M55076 1929 bp
Avian carcinoma virus NC_001402 2630 bp
Fujinami sarcoma virus NC_001403 4788 bp
Y73 sarcoma virus NC_001404 3718 bp
Avian myelocytomatosis virus NC_001866 3392 bp
Avian sarcoma virus CT10 Y00302 2428 bp
Gruppe 2 Avian leukosis virus AB112960 7448 bp
Rous sarcoma virus strain Schmidt-Ruppin B AF052428 9396 bp
Avian leukosis virus strain ev-1 AY013303 7525 bp
Avian leukosis virus ADOL-7501 AY027920 7612 bp
Rous sarcoma virus D10652 9317 bp
Rous sarcoma virus NC_001407 9392 bp
Avian leukosis virus NC_001408 7268 bp
Avian leukosis virus HPRS-103 (subgroup J) Z46390 7841 bp

Für diese Gruppen haben wir mittels ClustalW erneut die paarweisen, mulitplen Alignments bestimmen lassen:

Mit Splitstree haben wir uns dann wieder für jede Gruppe den erstellten phylogenetischen Baum angesehen:


4. RNAfold

Mit dem im Vienna RNA Package enthaltenen Programm RNAfold können "Minimum Free Energy Structures"
(*.mfe Datei) sowie mit der Option -p zusätzlich die Basenpaarungswahrscheinlichkeiten (*_dp.ps Datei) berechnet werden.
Damit ist eine genauere Vorhersage der Sekundärstruktur möglich, das ist jedoch sehr aufwendig..
Für RNAfold muss die Datei, die "gefaltet" werden soll, zuerst in das "Vienna" Format umgewandelt werden.
Dazu wird das ebenfalls enthaltene Tool readseq benutzt.
Der Aufruf für dieses sieht folgendermassen aus: ./readseq -a -f=19 pfad/*.fa > *.tofold

Sequenz *.tofold *.mfe *_dp.pdf
Gruppe 1 Avian sarcoma virus UR2 M10455.tofold M10455.mfe M10455_dp.pdf
Avian myeloblastosis virus M55076.tofold M55076.mfe M55076_dp.pdf
Avian carcinoma virus NC_001402.tofold NC_001402.mfe NC_001402_dp.pdf
Fujinami sarcoma virus NC_001403.tofold NC_001403.mfe NC_001403_dp.pdf
Y73 sarcoma virus NC_001404.tofold NC_001404.mfe NC_001404_dp.pdf
Avian myelocytomatosis virus NC_001866.tofold NC_001866.mfe NC_001866_dp.pdf
Avian sarcoma virus CT10 Y00302.tofold Y00302.mfe Y00302_dp.pdf
Gruppe 2 Avian leukosis virus AB112960.tofold AB112960.mfe AB112960_dp.pdf
Rous sarcoma virus strain Schmidt-Ruppin B AF052428.tofold AF052428.mfe AF052428_dp.pdf
Avian leukosis virus strain ev-1 AY013303.tofold AY013303.mfe AY013303_dp.pdf
Avian leukosis virus ADOL-7501 AY027920.tofold AY027920.mfe AY027920_dp.pdf
Rous sarcoma virus D10652.tofold D10652.mfe D10652_dp.pdf
Rous sarcoma virus NC_001407.tofold NC_001407.mfe NC_001407_dp.pdf
Avian leukosis virus NC_001408.tofold NC_001408.mfe NC_001408_dp.pdf
Avian leukosis virus HPRS-103 (subgroup J) Z46390.tofold Z46390.mfe Z46390_dp.pdf

Die *.tofold Dateien dienen als Eingabe für das RNAfold .
Die *.mfe Dateien enthalten die Strukturvorhersage für die Sequenzen in Klammernotation.
. steht für eine ungepaarte Base
( bzw. ) stehen für die gepaarten Basen
Im Dotplot ( *_dp.pdf Dateien ) kennzeichnet jeder Punkt ein Basenpaar, je größer der Punkt, um so größer ist die Wahrscheinlichkeit für das Auftreten dieses Basenpaars.

5. Alidot

Mit dem Programm Alidot können konservierte Sekundärstrukturen erkannt werden.
Für diese Berechnung wird das von ClustalW bestimmte multiple Alignment (also die *.aln Datei) sowie die Sekundärstrukturvorhersage die durch RNAfold erzeugt wurde (also die *.mfe - oder *_dp.ps - Dateien) benutzt.
Die Ausgabe von Alidot ist eine *.out Datei, die eine Tabelle enhält, in der die verschiedenen Basenpaarungsmöglichkeiten an bestimmten Stellen in der Sequenz sowie die Wahrscheinlichkeit des Auftretens aufgelistet sind
(also in wieviel % der Sequenzen das Basenpaar ausgebildet wird).

Alidot erzeugt ebenfalls wieder Dotplots:

Anschließend können nun mit mount.pl noch Mountplots erzeugt werden.


Bedeutung der Farben in Dotplot und Mountplot:
Beide Plots bieten eine Möglichkeit zur Visualisierung der RNA-Sekundärstruktur.

Farbe Bedeutung
rot in allen verglichenen Sequenzen sind die Basenpaare gleich
ocker zwei verschiedene Basenpaare
grün drei verschieden Basenpaare
türkis vier verschieden Basenpaare
blau fünf verschiedene Basenpaare
violett sechs verschiedene Basenpaare


6. weitere Bearbeitung der Daten

- ClustalX

Mit ClustalX können multiple Alignments erstellt werden.
Dazu werden die Sequenzen im FASTA Format importiert und dann im Menue der Punkt "do complete Alignment" gewählt.
Wurde vorher bereits ein multiples Alignment mit ClustalW erstellt, so ist es auch möglich die entsprechende *.aln Datei zu importieren.
Die Sequenzen werden dabei so arrangiert, daß homologe Sequenzen übereinanderliegen.
Die Farbgebung kennzeichnet die Basen:

Im unteren Teil ist die Homologie der Sequenzen durch die Größe der Balken wiedergegeben.
Außerdem erkennt man, durch Sterne und Punkte markiert, konservierte Bereiche.
Die Sterne markieren dabei die Basen, welche in allen Sequenzen zu 100 % übereinstimmen.
Die Punkte hingegen weisen auf eine hohe Übereinstimmung der Basen innerhalb der Sequenzen hin.

- code2aln

Code2aln bildet ebenfalls multiple Alignments, und ist dabei in der Lage codierende bzw. nicht-codierende Regionen in den Sequenzen zu finden und überlappene codierende Regionen zu berücksichtigen




Es gibt mehrere Tools mit denen man konservierte Sekundärstrukturen gut erkennbar darstellen kann.
Dabei ist es möglich die Sequenzen auf bestimmte Bereiche einzugrenzen (Zahl1 - Zahl2).

Um uns die Nutzung der verschiedenen Tools zu vereinfachen, haben wir für jede der beiden Gruppen ein Shell-Script
( Gruppe 1 , Gruppe 2 ) geschrieben, in dem alle Tools aufgerufen werden.

- dpzoom.pl
- consensus.pl
- RNAplot
Sequenz Plot
Gruppe 1 M10455 M10455_ss.pdf
M55076 M55076_ss.pdf
NC_001402 NC_001402_ss.pdf
NC_001403 NC_001403_ss.pdf
NC_001404 NC_001404_ss.pdf
NC_001866 NC_001866_ss.pdf
Y00302 Y00302_ss.pdf
Gruppe 2 AB112960 AB112960_ss.pdf
AF052428 AF052428_ss.pdf
AY013303 AY013303_ss.pdf
AY027920 AY027920_ss.pdf
D10652 D10652_ss.pdf
NC_001407 NC_001407_ss.pdf
NC_001408 NC_001408_ss.pdf
Z46390 Z46390_ss.pdf

- anote.pl
- cmount.pl
Bioinformatik - Praktikum:
Konservierte RNA-Sekundärstrukturen
/html>