Bioinformatikpraktikum I

Martin Wannagat, Mathias Lesche


Aufgabenstellung

Ziel dieses Praktikums war es konservierte Sekundärstrukturen innerhalb einer Virusgruppe zu finden.
Dabei lag unser Augenmerk auf den Gammaretroviren.
nach oben

Gammaretrovirus

Gammaretoviren gehören wie die Alpha-, Beta- und Deltaretroviren, Lenti- und Spumaviren zu den Retroviren.
Retroviren haben einen Durchmesser von 100nm. Sie besitzen eine Hülle, in der sogenannte spikes enthalten sind. Das sind zum einen das äußere Hüllen - Glykoprotein SU und zum anderen das transmembrane Glykoprotein TM . Beide sind über Disulfidbrücken miteinander verbunden. SU ist das eigentliche Antigen, welches sich an die Zelle nach dem Schlüssel - Schloß - Prinzip bindet. TM ist dafür verantwortlich, dass das SU in der Hülle bleibt. Weiterhin initiiert es die Membranfusion von Virus und Wirtszelle.
Das Genom der Gammaretroviren hat folgenden Aufbau:

Abb.1:schematischer Aufbau des Genoms von Retroviren
Das Genom liegt einzelsträngig vor. Durchschnittlich ist das Genom 8 - 11 kB lang. Am 5' Ende befindet sich ein LTR (long terminal repeats).
"Danach" werden gag-, pol- und env- Proteine kodiert. Am 3' Ende befindet sich wieder ein LTR.

nach oben

verwendete Programme

nach oben

Durchführung

Die Sequenzen der Gammeretroviren nahmen wir von der Datenbank des NCBI (National Center for Biotechnology Information).
Um eine Liste aller Sequenzen zu erhalten, muss folgende Anfrage an die Datenbank erfolgen:
Im Auswahlmenü SEARCH wird das Element "Nucleotid" gewählt.
Anschließend gibt man in die Eingabezeile FOR folgendes ein: "gammaretrovirus complete 5000:15000[slen]"
Das Ergebnis der Anfrage an die Datenbank sind 31 Sequenzen, von denen wir 14 Sequenzen wählten.

nach oben

Sequenzen

Name ID Länge [bp]
Amphotropic murine leukemia virus AF411814 8217
Gibbon ape leukemia virus (GALV) NC_001885 8088
Woolly monkey sarcoma virus NC_001514 8785
Feline leukemia virus M18247 8440
Simian sarcoma virus M23385 8785
Cas-Br-E murine leukemia virus X57540 8231
Mus dunni endogenous virus AF053745 8655
AKV murine leukemia virus J01998 8374
Moloney murine leukemia virus AF010170 11328
Murine leukemia virus U43202 8892
DG-75 Murine leukemia virus AF221065 8207
Porcine endogenous type C retrovirus AJ293656 8918
Murine retrovirus Z93724 7020
Moloney murine leukemia virus AF033811 8332
nach oben

paarweises und multiples Alignment

Die oben genannten Sequenzen wurden einzeln im FASTA Format gespeichert und bearbeitet. Aus dem Header jeder einzelnen Datei wurde der Anfang und alle Pipes ("|") entfernt.Anschließend wurden die Dateien, mittels "cat *.fa > sequenz.seq" zu einer einzigen Datei zusammengefügt.
Diese Datei dient als Input für clustalw, dialign oder code2aln.
Für den ersten Durchlauf nutzen wir das Programm ClustalW. Dabei fiel auf, dass die Sequenzen M23385 und NC_001514 einen score von 100 haben. Daraus lässt sich schlußfolgern, dass diese beiden Sequenzen identisch sind. M23385 wurde daraufhin aus der Sequenzdatei entfernt.
NC_001514 und Z93724 wurden ebenfalls entfernt, da diese beide Sequenzen beim paarweisen Alignment mit den anderen Sequenzen einen sehr niedrigen score hatten. J01998 wird ebenfalls nicht berücksichtigt. Denn diese Sequenz hat einen score von 98 mit NC_001885
Um diese 4 Sequenzen zu entfernen, benötigten wir 3 Durchläufe von ClustalW. Somit blieben noch 10 Sequenzen übrig, die nochmal mittels ClustalW und Code2aln analysiert wurde. Hier können die Ergebnisse betrachtet werden.

nach oben

phylogenetischer Baum

Die Ausgabedatei von clustalw wurde mittels dem Pearlscript aln2nex.pl in eine Datei im Nexus-Format umgewandelt: ausgabe.nxs. Anhand dieser Datei konnte mittels Splitstree ein phylogenetischer Baum erstellt werden. Eine weiterer phylogenetischer Baum wurde mittels der Ausgabedatei von code2aln erstellt.

Ausgabedatei:
Abb. 2: Phylogenetischer Baum; Clustalw
Abb. 3: Phylogenetischer Baum; Code2aln

In beiden Bämen lassen sich zwei größere Gruppen erkennen.
Im Vergleich der beiden Bäume zeigen sich nur wenige Unterschiede in Bezug auf die Anordnung der einzelnen Sequenzen.
Das heißt, dass die Struktur der beiden Bäume ähnlich ist. Allerdings sind einzelne Sequenzen in dem jeweiligen Baum verschieden angeordnet. Es wurden somit verschiedene verwandschaftliche Beziehungen zwischen den Sequenzen festgestellt. Dies ist wohl auf ein unterschiedliches Alignment zurückzuführen.

nach oben

RNAfold

Die Datei sequenz.seq wird mit dem tool readseq, ist im Vienna RNA Package enthalten, vom FASTA in das Vienna Format umgewandelt.
Codezeile: readseq -a -v -f=19 sequenz.seq > sequenz.rna

In dieser Datei sind alle Sequenzen. Es wurde aber die Datei gesplittet, damit die Sequenzen einzeln berchnet werden konnten. Anschließend wird RNAfold für jede einzelne Sequenz ausgeführt.
Beispiel: RNAfold -p < Inputdatei > output.out
Mittels RNAfold werden die einzelnen Sequenzen gefaltet und die wahrscheinlichste (minimum free energey) Sekundärstruktur und die Basenpaarungswahrscheinlichkeit errechnet. Ergebnis dieser Berechnung ist eine postscript Datei und eine *.mfe Datei.

nach oben

Alidot

In der postscript Datei ist der Dotplot dargestellt. Mittels Alidot wird eine bessere Betrachtung ermöglicht.
Wenn zwei Basen i, j aus der Sequenz miteinander paaren, dann wird das an entsprechender Stelle (i, j) im Dotplot markiert. Ist die Farbe des Punktes rot, bedeutet dies, dass dieses Basenpaar in allen Sequenzen gleich ist. Die Sequenz ist damit konserviert. Über die Farben ocker, grün nach blau nimmt die Zahl der verschiedenen Basenpaarungen zu. Wenn der Punkt blau ist, dann ist die Sekundärstruktur konserviert. Es handelt sich um konsistente Mutationen. Je größer der Punkt, um so größer ist die Wahrscheinlichkeit mit der diese Basenpaarung vorrausgesagt wurde. Die mfe Datei enthält die Sekundästruktur in der bracket-Notation. Mit Hilfe des Pearlscripts cmount.pl kann man ein Mountainplot erstellen.
Wir erkannten, dass die Sequenz AF010170 mit der Länge von 11328 Basenpaaren sich nicht gut ins Gesamtbild einfügt, da alle anderen Sequenzen im Schnitt nur rund 8000 Basenpaare haben. Deshalb schlossen wir diese Sequenz in unseren weiteren Betrachtungen aus und fertigten einen neuen Mountainplot an.

Abb. 4: Mountainplot mit Sequenz AF010170
Abb. 5: Mountainplot ohne Sequenz AF010170
postscript Datei:

Anhand des Mountainplots und der Liste von Alidot (ohneAF010170original.out; ohneAF010170.out; ohneAF010170geordnet.out) kann nach konservierten Sekundärstrukturen gesucht werden. Damit der Überblick besser ist, haben wir diese Liste geordnet.
Da wir nur zwei Basenpaarungen mit je 77.8%(d.h.bei etwa 8 von 10 Sequenzen wurde diese Basenpaarung vorrausgesagt) hatten, nahmen wir auch Basenpaarungen mit 33.3% in unsere Liste mit auf.

nach oben

Auswertung

Weil wir in der Datenbankanfrage nicht "complete genome" angegeben haben, hatte dies zur Folge, dass wir auch Sequenzen genommen haben, die nur komplette Sequenzen waren. Auf der Suche nach konservierten Sekundärstrukturen war in der Liste von Alidot besonders auf Basenpaarungen mit hohen Prozentzahlen zu achten. Die Prozentzahlen geben die Wahrscheinlichkeit an, mit der die Basen eine Paarung eingehen. Des weiteren muss darauf geachtet werden, dass möglichst viele verschiedene Basen sich in den unterschiedlichen Sequenzen an dieser Stelle paaren, da dies heißt das nur Mutationen zugelassen wurden, die die Struktur nicht verändert haben.
Da sich in unserer Liste keine hohen Prozentzahlen fanden, haben wir mehrere Bereiche näher betrachtet. Konservierte Strukturen könnten sich dabei in den Bereichen
595 - 686, 3425 - 3463 und 5915 - 5950 befinden. Für diese Bereiche erstellten wir mit clustalw nochmal das Alignment und führten RNAalifold aus.
Leider stellte sich heraus, dass wir keine überzeugenden Anhäufungen von Sekundärstrukturen fanden.

nach oben
Bei den beiden nachfolgenden Bildern handelt es sich um die komplette Sekundärstruktur, die für alle Sequenzen berechnet wurde.
Abb. 6: Sekundärstruktur mit AF010170
Abb. 7: Sekundärstruktur ohne Sequenz AF010170
postscript Datei:

Abschnitt 3425...3463

Abb.8: links: Sekundärstruktur; rechts oben: Sequenzausschnitt; rechts unten: Mountainplot und Dotplot

In diesem Bereich existieren ein paar consistent mutations und nur 2 compensatory mutations.
Wir vermuten, dass es sich hierbei um eine Sekundärstruktur handelt, die auf Sequenzebene konserviert ist. Dies folgern wir aus der grossen Anzahl an schwarzgefärbten Basen bei der Sekundärstruktur. Des weiteren zeigt der Ausschnitt, der mittels ClustalX erstellt wurde, dass viel Basen in vielen Sequenzen einheitlich vorkommen.
Es handelt sich hierbei wahrscheinlich um einen Teil des proteinkodierenden Bereiches pol.

Abschnitt 5915...5950

Abb.9: links: Sekundärstruktur; rechts oben: Sequenzausschnitt; rechts unten: Mountainplot und Dotplot

Hierbei handelt es sich wahrscheinlich um eine Sekundärstruktur, die auf Sequenzebene konserviert ist. Deutlich zu erkennen ist, wie schon vorherigem, die schwarze Färbung der Basen. Nur 4 Basen besitzen eine gräuliche Färbung. Durch die Ausgabe von ClustalX kann man besonders gut erkennen, dass die ersten 5 Sequenzen fast im ganzen Bereich übereinstimmen. Jene 5 Sequenzen sind auch laut phylogenetischen Baum eng miteinander verwandt.
Auch hier handelt es sich wahrscheinlich um einen Teil des pol- Bereiches.

Abschnitt 595...686 ohne AF033811

Wir entschlossen uns diesen Bereich ohne die Sequenz AF033811 näher zu betrachten, weil sie nur Gaps erzeugte. Aber dieser Bereich sah recht zuversichtlich aus bezüglich einer möglichen konservierten Sekundärstruktur.

Abb.10: links: Sekundärstruktur; rechts oben: Sequenzausschnitt; rechts unten: Mountainplot und Dotplot

In diesem Abschnitt sind relativ viele Basen schwarz umkreist. Die meisten von ihnen gehen eine Basenpaarung mit einer weiteren schwarz umkreisten Base ein. Man spricht hier von einer compensatory mutation. Allerdings ist ein Grossteil der Basen nur grau gefärbt. Dies lässt darauf schliessen, dass die Basen an diesen Stellen sehr stark variieren. Von daher vermuten wir, dass es sich hierbei nicht um eine konservierte Sekundärstruktur handelt. Die Anzahl der konservierten Basenpaare ist, unserer Meinung nach, nicht hoch genug, um damit auf eine konservierte Sekundärstruktur zu schliessen.

postscript Datei:
nach oben

Links & Literatur

  1. Überblick Retroviren Universität Wien
  2. Praktikum Bioinformatik I: Retroviridae WS 01/02 Universität Wien
  3. Praktikum Bioinformatik I; WS 02/03 Universität Leipzig
nach oben