Detektion nicht annotierter Gene in Danaus plexippus

1. Einführung

Danaus plexippus

Der Monarchfalter (Danaus plexippus) zählt zu der Ordnung der Lepidoptera und gehört der Familie der Nymphalidae, der Edelfalter, an. Sein Lebensraum liegt vorwiegend in Nordamerika. Es wird in eine westliche und eine östliche Population unterschieden. Die westliche Population lebt zwischen den Rocky Mountains und dem Pazifik. Im Herbst wandert diese Population nach Südwesten an die Küste und im Frühjahr wieder zurück. Im Gegensatz dazu wandert die östliche Population, die zwischen dem Atlantik und den Rocky Mountains lebt, im Herbst vom Norden in den Süden nach Mexiko in die Sierra Nevada. Dort überwintert diese Population und wandert im Frühjahr an die südliche Karibikküste Nordamerikas, wo sie sich dann fortpflanzt und die Parentalgeneration stirbt, wohingegen die Nachwuchsgeneration wieder in den Norden in den alten Lebensraum zurückkehrt. Diese pflanzt sich dort ebenfalls fort, woraufhin die nachfolgende Population im darauffolgenden Herbst wieder an die gleiche Stelle Mexikos zurückkehren wie die Individuen der vorletzten Generation. Es ist zu vermuten, dass diese Wanderroute genetisch abgespeichert ist.

2. Zielstellung

Da der Monarchfalter den Neoptera (Neuflüglern) einzuordnen ist und andere Arten dieser Überordnung ein solches Wanderverhalten nicht aufweisen, ist es von Interesse, welche Unterschiede auf genetischer Ebene existieren. Um entsprechende Unterschiede zureichend auswerten zu können, ist eine möglichst vollständige Annotation der Gene in Danaus plexippus notwendig.
Die Aufgabe war es, Gene aufzuspüren, zu denen bisher keine Orthologen in Danaus plexippus annotiert waren. Um zunächst solche Othologen anderer Insektenarten zu aufzufinden wurde das Tool Proteinortho genutzt.

3. Durchführung

Das Genom von Danaus plexippus wurde zunächst nach Treffern von Genen verwandter Spezies untersucht, welche keine bekannten Orthologen in Danaus plexippus besitzen. Entsprechende Gene wurden mittels Proteinortho bestimmt; mit Hilfe des Alignment-Tools BLAT wurde das Sequenzalignment durchgeführt. Das Danaus-Genom wurde separat von zwei unterschiedlichen Quellen untersucht (MonarchBase und Ensembl). Es wurden die bekannten Gene folgender Organismen gegen das Genom von Danaus plexippus aligned:
Bombyx mori, Manduca sexta, Melitaea cinxia, Heliconius melpomene, Tribolium castaneum, Dendroctonus ponderosae, Nasonia vitripennis, Apis mellifera, Anopheles gambiae, Drosophila melanogaster, Rhodnius prolixus, Acyrthosiphon pisum und Locusta migratoria.
Der BLAT-Output wurde anschließend gefiltert und geclustert und als Ergebnis nach Abgleich der bestehenden Annotation (GFF-Datei) mögliche neue Annotationen ausgegeben. Für das Filtern und Clustering sowie den Abgleich mit der GFF-Annotation wurde ein Perl-Skript entwickelt.

Danaus plexippus

Die Abbildung oben zeigt schematisch die allgemeine Durchführung.
Im Folgenden wird die Durchführung schrittweise besprochen und auf enstprechende Skripte und Output-Dateien verwiesen.

3.1 Proteinortho-output filtern

Mit dem Tool Proteinortho können orthologe Proteine aus verschiedenen Organismen gesucht werden. Somit wurden Proteine gesucht, zu denen keine bekannten Orthologen in Danaus plexippus existieren.
In folgender Tabelle ist ein schematischer Ausschnitt aus dem Proteinortho-Output gezeigt. Jede Zeile stellt dabei die von Proteinortho gefundenen Orthologen dar.

B. mori D. melanogaster A. gambiae D. plexippus (dpl1) D. plexippus (dpl3)
Protein Protein * * Protein1, Protein2
* Protein * Protein *
Protein Protein1, Protein2 Protein * *
Protein * Protein Protein Protein
* Protein Protein * *
* * Protein1, Protein2 Protein *

Es wurden die Zeilen übernommen, in denen keine Orthologen in Danaus plexippus gefunden wurden (grün eingefärbt).

B. mori D. melanogaster A. gambiae D. plexippus (dpl1) D. plexippus (dpl3)
Protein Protein1, Protein2 Protein * *
* Protein Protein * *

Anschließend wurden die Sequenzen aller Proteine dieser Zeilen mit einem Perl-Skript in eine einzige Fasta-Datei übernommen.

3.2 BLAT gegen das Genom von Danaus plexippus

Die Fasta-Datei aus 3.1 wurde mit dem Alignment-Tool BLAT gegen das Genom von Danaus plexippus aligned. Der Output wurde gefiltert, sodass lediglich noch Hits mit einem geringeren e-Value als e-20 ausgegeben wurden. Zusätzlich wurden die Hits mit den Proteinsequenz-Längen und der Strangorientierung versehen. Im Folgenden ist ein Beispiel für einige Zeilen des BLAT-Outputs gegeben:

Query idSubject id%identityalign. lengthmismatchesgap openingsq. startq. ends. starts. ende-valuebit-scoreProtein lengthProtein %coverorientation
MCINX001022-PADPSCF30020892.9211380411655445551071.3e-59227.013582-

3.3 Clustering der Hits

Da die BLAT-Hits keine Introns mit einbeziehen und in einigen Fällen die Orthologen nur teilweise Hits im entsprechenden Gen liefern, wurden die Hits der Orthologen je Contig geclustert, sodass ein Bereich mit einer Start- und Endposition ausgegeben werden kann, in welchem vermutlich ein Ortholog im Danaus plexippus liegt.

Im Folgenden ist eine BLAT-Output-Datei gezeigt, in welcher mehrere Hits von drei orthologen Proteinen in einem Contig von Danaus plexippus gefunden wurden. Schematisch sind die Hits in der Abbildung darunter dargestellt.

Query idSubject id%ident.align. len.mismatchesgap open.q. startq. ends. starts. ende-valuebit-scoreCDS lengthCDS coverorient.
MCINX001227-PADPSCF30020087.505670781331218921220591.1e-22104.016832+
MCINX001227-PADPSCF30020087.505670781331255331257001.1e-22104.016832+
Msex2.13355-RBDPSCF30020098.3360101762351233351235147.7e-26115.023824+
Msex2.13355-RBDPSCF30020098.3360101762351269761271557.7e-26115.023824+
Msex2.13355-RBDPSCF30020082.7658100721291218921220651.5e-22104.023823+
Msex2.13355-RBDPSCF30020082.7658100721291255331257061.5e-22104.023823+
FBpp0297988DPSCF30020083.33601001832421223181224971.2e-26118.030419+
FBpp0297988DPSCF30020083.33601001832421259591261381.2e-26118.030419+

Danaus plexippus

Durch Anwendung eines Perl-Skripts zum Clustering der Hits wird eine Datei mit dem der Untenstehenden Tabelle ausgegeben. Die Schematische Abbildung unter der Tabelle zeigt das Cluster.

HitsContigCluster startCluster endGene-IDsCluster Orientation
8DPSCF300200121892127155MCINX001227-PA,Msex2.13355-RB,FBpp0297988+

Danaus plexippus

3.4 Hits mit der GFF-Annotation abgleichen

Im Anschluss an das Clustering (siehe 3.3) wurden die Clusterpositionen mit den bestehenden Annotationen der GFF-Dateien verglichen. Dies wurde mit Hilfe eines Perl-Skripts durchgeführt.
Falls innerhalb des Clusters bereits ein annotierter Bereich existiert, wurde dieser nicht weiter übernommen. Ein solcher Fall ist im folgenden Bild schematisch dargestellt.

Danaus plexippus

Andernfalls, wenn keine Annotation im Bereich des Clusters gefunden wurde, wird das Cluster übernommen und als ein mögliches neues Ortholog in Danaus plexippus gewertet. Das folgende Bild zeigt einen solchen Fall schematisch:

Danaus plexippus

Der finale Output nach erfolgreichem Vergleich mit der GFF-Annotation ist an einem Beispiel-Cluster in der folgenden Tabelle gezeigt:

ContigCluster startCluster endCluster orientationCluster lengthHitsGene-IDs
DPSCF300216393488389893-35955ACYPI000381-PA,CCG001188.1

4. Ergebnisse

Es sind im Folgenden exemplarisch geclusterte Hits gezeigt, welche an nicht annotierten Bereichen sitzen. Für die Darstellung wurde der Genom-Browser von MonarchBase genutzt.

Result

Result

Result

Die Nummern an Hits und unterschiedlichen Orthologen sind für beide Genome (MonarchBase und Ensembl) in den untenstehenden Tabellen gezeigt:

MonarchBase
OutputHitsOrthologe
Gefiltertes Blatout730418667
Cluster120637200
Nicht annotierte Cluster1506258
Ensembl
OutputHitsOrthologe
Gefiltertes Blatout809548671
Cluster149587146
Nicht annotierte Cluster904478

5. Diskussion und Zusammenfassung

Es konnten erfolgreich Positionen (Cluster) auf dem Genom von Danaus plexippus bestimmt werden, welche auf bisher nicht annotierte Gene hinweisen. Für das Clustering wurden Vereinfachungen gemacht, wodurch vermutlich einige Hits aussortiert wurden, welche auf weitere mögliche nicht annotierte Gene in Danaus plexippus hinweisen hätten können.
Eine Verbesserung des Clustering-Algorithmus würde sich für weitere Untersuchungen anbieten.

Im Weiteren ist zu klären, ob es sich bei den gefundenen Positionen tatsächlich um Gene handelt. Möglich wäre ein Vergleich mit Ab-initio-Vorhersagen. Wenn gesichter ist, dass es sich bei einer Vorhersage um ein Gen handelt, müsste die (funktionelle) Identität geklärt werden. Die Zuordnung der Proteinfamilien könnte mit Hilfe der Pfam-Datenbank geschehen. Weiterhin wäre ein Vergleich mit homologen Proteinen mit bereits bekannter Funktion eine Möglichkeit zur Vorhersage der Funktion.
Insbesondere Gene, welche eine Rolle in Orientierungsmechanismen oder der Kontrolle epigenetischer Mechanismen spielen, sind von großem Interesse für die Untersuchung genetischer Ursachen der Migration.

Quellenangaben

Weblinks:
http://reppertlab.org/
http://en.wikipedia.org/wiki/Monarch_butterfly
http://metazoa.ensembl.org/index.html
http://monarchbase.umassmed.edu/

Literatur:
Zhan S, Zhang W, Niitepold K, Hsu J, Haeger F, Zalucki MP, Altizer S, de Roode JC, Reppert SM, Kronforst MR (2014). The genetics of monarch butterfly migration and warning coloration.

Merlin C, Heinze S, Reppert SM (2012). Unraveling navigational mechanisms in migratory insects.

Zhu H, Gegear RJ, Casselman A, Kanginakudru S, Reppert SM (2009). Defining behavioral and molecular differences between summer and migratory monarch butterflies.

Zhan S, Reppert SM (2013). MonarchBase: the monarch butterfly genome database.