Praktikum Bioinformatik - Modul NukleinsäurenFamilie der Dicistroviridae
Christine Körner, Torsten Glomb |
||
|
Im Rahmen des Praktikums sollten konservierte Sekundärstrukturelemente von RNA-Viren mit bioinformatischen Methoden gefunden werden. Konservierte Strukturelemente sind gleichartige Faltungen der Sekundästruktur bei unterschiedlichen Primärstrukturen. Daraus lassen sich Rückschlüsse auf funktional wichtige Bereiche der RNA ziehen. Desweiteren wurde eine Analyse der Verwandtschaftsverhältnisse der untersuchten Virenarten vorgenommen.
Die Dicistroviridae bilden eine Familie deren Spezies ein einsträngiges RNA-Genom in Positivstrangordnung (positive stranded single strand RNA - +ssRNA) besitzen. Es ist bisher nur die Gattung der Cripaviren in dieser Familie enthalten. Folgende Virenarten gliedern sich in diese Gattung ein:
Sicher zugeordnet: Vorläufig oder noch nicht zugeordnet: |
Der Name Dicistroviridae leitet sich aus dem dicistronischen Charakter (zwei Polypeptidketten kodierend) der Virenfamilie ab. Als Grundlage für den Gattungsnamen Cripavirus diente der Cricket Paralysis Virus. An diesem ist im folgenden Bild die genetische Struktur gezeigt.
![]() |
Abb. 2: Genomstruktur des Cricket Paralysis Virus |
Die vier farbigen Abschnitte VP1 bis VP4 kodieren je ein Kapsidprotein. Die IGR (intergenic region) agiert als interne Ribosomenbindungsstelle (internal ribosom entry site - IRES). Diese ermöglicht eine vom üblichen Startkodon (AUG) unabhängige Proteinsynthese. Die nicht translatierte 5' Region einiger Dicistroviridae fungiert ebenfalls als IRES, obwohl die Translation hier auf herkömmliche Weise mittels Methionin initiiert wird. Die meisten Arten der Dicistroviridae besitzen außerdem am 5' Ende ihres Genoms ein kovalent angelagertes Protein (VPg).
Die Virionen der Familie Dicistroviridae haben einen Durchmesser von ca. 30 nm. Es werden hauptsächlich wirbellose Wirte, wie z.B. Honigbiene, Drosophila, Garnelen und verschiedene Grillenarten befallen.
Für die Gewinnung der Daten sind die Datenbanken NCBI und ICTV nach vollständigen Genomen (CG - complete genome) durchsucht worden. Bei mehreren Genomsätzen einer Spezies wurden jeweils die neueren Daten verwendet. Zu jeder klassifizierten Spezies wurde genau ein Genom gefunden. Die Datenauswahl gestaltete sich wie folgt:
NBCI Drosophila C virus (DCV) Himetobi P virus (HiPV) Plautia stali intestine virus (PSIV) Rhopalosiphum padi virus (RhPV)* Aphid lethal paralysis virus (ALPV)* Acute bee paralysis virus (ABPV) Taura syndrome virus (TSV)* |
NC_001834 |
Black queen cell virus (BQCV) Cricket paralysis virus (CrPV) Triatoma virus (TrV) |
|||
*Diese Sequenzen wurden bei späteren Analysen nicht weiter betrachtet, da sie zu einem schlechten Alignment führten. |
Die Sequenzen der gefundenen Datensätze sind im FASTA-Format heruntergeladen und in der Datei allSeq.txt zusammengefügt worden. Das multiple Alignment wurde zunächst mit ClustalW durchgeführt und die Datei allSeq.aln erstellt.
Mittels des Perl-Scripts aln2nex.pl wurde allSeq.aln in das Nexus-Format (allSeq.nxs) umgewandelt. Mit Hilfe von Splitstree wurde daraus der folgende phylogenetische Baum erstellt:
![]() |
Abb. 3: Phylogenetischer Baum 1 |
Dieser Baum lässt die verwandtschaftlichen Verhältnisse nicht klar erkennen. Daher wurde zur Sicherheit ein zweites Alignment mit code2aln durchgeführt. Äquivalent zur obigen Vorgehensweise, wurde aus der Datei allSeq.txt die Datei aln.aln durch multiples Alignment gewonnen. Nach der Umwandlung ins Nexus-Format, wurde aus der erhaltenen Datei (aln.nxs) ein weiterer phylogenetischer Baum mittels Splitstree erstellt.
![]() |
Abb. 4: Phylogenetischer Baum 2 |
Die Berechnung der energetisch günstigsten Struktur erfolgte durch das ViennaRNA-Package. Darin enthalten ist das Tool RNAfold, das die Faltung der RNA berechnet. Zunächst mussten jedoch die Sequenzdateien im FASTA-Format aufbereitet werden. Dies geschah mit dem Tool readseq, welches ebenfalls zum ViennaRNA-Package gehört.
Die folgenden Analysen wurden mit Alidot und dem alifold-Webinterface durchgeführt. Alidot sucht konservierte Sekundärstrukturelemente mit Hilfe der zuvor erstellten Faltungs- und Alignmentdaten. Die Ausgabe erfolgte in die Dateien alidot.out und aln_pf_dp.ps. Diese können mit AliDot.pl als Dotplot betrachtet werden. Ebenso dienen sie als Eingabe zur Erstellung eines Mountainplot mittels cmount.pl.
![]() |
Abb. 5: Mountplot 1 |
Der höchste Peak (zwischen 7000 und 8000) erreichte eine Wahrscheinlichkeit von lediglich 25,4 %. Zudem kennzeichnet die rote Färbung, dass nur geringfügig kompensatorische Mutationen vorliegen. Nach nochmaliger Betrachtung des Alignments wurden daher die Sequenzen der Spezies ALPV, RhPV und TSV aus der Analyse ausgeschlossen, da sie den größten Anteil an der Gap-Bildung im Alignment verursachten.
Mit den verbliebenen Sequenzen wurde erneut ein Alignment mittels ClustalW durchgeführt (allSeq.txt, allSeq.aln). Die Analyse mit Alidot ergab den folgenden Mountainplot.
![]() |
Abb. 6: Mountplot 2 |
Die beiden Peaks mit den höchsten Wahrscheinlichkeiten (6687-6754, 6784-6824), lieferten zugleich die höchsten kompensatorischen Mutationen. Daher wurden ihre Sequenzabschnitte aus dem multiplen Alignment mit consens.pl extrahiert. Die grafische Darstellung der Sekundärstruktur erfolgte mit RNAplot und wurde mit anote.pl annotiert. Zur Überprüfung wurden die Sequenzabschnitte noch einmal mit ClustalX aus dem Alignment herausgeschnitten und mit dem alifold-Webinterface abgebildet und annotiert.
RNAplot / annote.pl
|
![]() |
![]() |
|
|
Abb. 7: 6687-6754 |
Abb. 8: 6784-6824 |
|
alifold-Webinterface
|
![]() |
![]() |
|
|
Abb. 9: 6687-6754 |
Abb. 10: 6784-6824 |
|
Die mit Kreisen markierten Basen stellen kompensatorische Mutationen dar, während graue Basen Inkompatibilität verdeutlichen.
Bei beiden phylogenetischen Bäumen sind im Wesentlichen drei Gruppen zu erkennen. Eine Gruppe wird von den Spezies DCV und CrPV gebildet. Eine weitere Zweiergruppe ergibt sich durch ALPV und RhPV. Die Spezies BQCV, PSIV, TRV und HiPV ergeben schließlich die dritte und größte Gruppe. Abseits dieser drei Gruppen gliedern sich ABPV und TSV in den phylogenetischen Baum ein.
Bei der Analyse des Mountainplots mit reduzierter Sequenzanzahl wurden zwei vielversprechende Sequenzausschnitte selektiert.
![]() |
![]() |
![]() |
Abb. 11: Mountplot 2 mit markierten Peaks |
|
Abb. 12: Vergrößerung der markierten Peaks |
Die Wahrscheinlichkeit für den linken Peak (6687-6754) beträgt ~63 % und für den rechten (6784-6824) ~38 %. Die Farben der beiden Peaks sprechen für eine hohe kompensatorische Mutationsrate innerhalb dieser Sequenzabschnitte.
Die vorhergesagte Sekundärstruktur beider Sequenzstücke weist aufgrund häufiger Basenpaarung eine stabile Struktur auf. Durch die Anzahl der vielen kompensatorischen Mutationen handelt es sich bei den gefundenen Sequenzstücken mit hoher Wahrscheinlichkeit um konservierte Sekundärstrukturen innerhalb der Familie der Dicistroviridae.
Ein Vergleich mit der Literatur (Dicistroviridae Poster; Christian, P. et.al.) ergab, dass diese beiden Sequenzen Teilabschnitte des IGR-IRES Elements darstellen. Laut Christian, P. et al., ist die gesamte IGR-IRES bei den Dicistroviridae stark konserviert. Sie ermittelten für vier Vertreter (CrPV, PSIV, BQCV, ABPV) die Sekundärstruktur der IGR-IRES.
![]() |
Abb. 13: Sekundärstrukturen von CrPV, PSIV, ABPV, TSV, BQCV |
Es stellte sich heraus, dass es sich bei den von uns gefundenen Strukturen um die mit 1 (gelb) und 2 (lila) markierten Regionen handelt. Im Mountainplot lassen sich ebenenfalls die grün und blau markierte Abschnitte finden. Jedoch erzielen diese nur geringe Wahrscheinlichkeiten und wurden von alidot nicht vornehmlich als kompensatorische Mutationen eingestuft. Die Ursache dafür kann in unterschiedlich ausfallenden Sequenzstrukturen (siehe letzte Strukturausprägung Abb. 13), sowie dem Alignment liegen.
![]() |
![]() |
![]() |
||
Abb. 14: gefundene Regionen am Bsp. CrPV |
|
Abb. 15: Mountplot 2 mit Vergrößerungsausschnitt |
|
Abb. 16: Mountplot 2
|
Die vorhergesagte konservierte Sekundärstruktur der gesamten IGR-IRES Region unseres Alignments zeigt die nachstehende Grafik. Der in obiger Abbildung grün hervorgehobene Abschnitt wurde mit drei kompensatorischen Basenpaaren modelliert. Zwei dieser Paare besitzen eine dunkelgraue Abstufung und bezeigen daher eine leichte Inkompatibilität. Die vierte konservierte Struktur (oben blau) wurde nicht gefunden, was auf ein ungenaues Alignment / Sequenzen zurückgeführt werden könnte.
![]() |
Abb. 17: Vorhergesagte Sekundärstruktur der gesamten IGR-IRES Region |
Christian, P. et. al. | Dicistroviridae_Poster.pdf; Danforth Center; http://www.danforthcenter.org/iltab/ICTVnet/images/paris/Dicistroviridae_Poster.pdf; 31.03.2003 |
Christian, P. | psr04.dicistro.v2.doc; Danforth Center; http://www.danforthcenter.org/upload/ictvbook/dicistroviridae/psr04.dicistro.v2.doc; 04.04.2003 |
Christian, P. | ft2003.090-91i.01.dicis.usp.doc; Danforth Center; http://www.danforthcenter.org/upload/ictvupload/ft2003.090-91i.01.dicis.usp.doc; 24.04.2003 |
ICTV | Index of Viruses, http://www.ictvdb.iacr.ac.uk/Ictv/fs_dicis.htm, 31.03.2003 |
Institute for Animal Health | http://www.iah.bbsrc.ac.uk/virus/Dicistroviridae/; 31.03.2003 |
NCBI | http://www.ncbi.nlm.nih.gov/PMGifs/Genomes/144051.html, 31.03.2003 |
Abb. 1: | Morphologie des Cricket Paralysis Virus, Christian, P |
Abb. 2: | Genomstruktur des Cricket Paralysis Virus, Christian, P. et. al. |
Abb. 3: | Phylogenetischer Baum 1, selbst erstellt |
Abb. 4: | Phylogenetischer Baum 2, selbst erstellt |
Abb. 5: | Mountplot 1, selbst erstellt |
Abb. 6: | Mountplot 2, selbst erstellt |
Abb. 7: | 6687-6754, selbst erstellt |
Abb. 8: | 6784-6824, selbst erstellt |
Abb. 9: | 6687-6754, selbst erstellt |
Abb. 10: | 6784-6824, selbst erstellt |
Abb. 11: | Mountplot 2 mit markierten Peaks, selbst erstellt |
Abb. 12: | Vergrößerung der markierten Peaks, selbst erstellt |
Abb. 13: | Sekundärstrukturen von CrPV, PSIV, ABPV, TSV, BQCV, Christian, P. et. al. |
Abb. 14: | gefundene Regionen am Bsp. CrPV, Christian, P. et. al. - geändert |
Abb. 15: | Mountplot 2 mit Vergrößerungsausschnitt, selbst erstellt |
Abb. 16: | Mountplot 2 Strukturen mit geringerer Wahrscheinlichkeit, selbst erstellt |
Abb. 17: | Vorhergesagte Sekundärstruktur der gesamten IGR-IRES Region, selbst erstellt |