Statistik

Praktikumszeitraum: 12.01. - 23.01.2015

Gruppe: PRAK10

1) Einleitung/Aufgabenstellung

Von den in Abbildung 1 abgebildeten Metazoa-Spezies sollten statistische Werte erhoben werden. Hierbei sollten Werte wie Genomgröße, Anzahl der Gene und Proteine ermittelt, sowie die annotierten Daten bezüglich der Chromosomen bzw. Scaffolds und der Typen (Gene, CDS, Exons, RNAs, …) ausgewerted werden. Besonderes Augenmerk wird dabei auf den Monarchfalter, Danaus plexipus (dpl), gelegt. Hierbei wurden zum einen Daten aus der Datenbank ENSEMBL entnommen, welche im Weiteren als Danaus plexipus_1 (dpl1) bezeichnet werden. Zum anderen wurden Daten aus der Monarchbase verwendet. Diese Daten werden unter dem Namen Danaus plexipus_3 (dpl3) aufgeführt.

Phylogenetischer Baum
Abbildung 1: Phylogenetischer Baum der zu untersuchenden Metazoa-Spezies

2) Vorgehensweise

Genomgröße

fastalength /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa> | awk 'BEGIN{len=0}{len += $1}END{print len}'

Mit dem Befehl fastalength wird die Anzahl der Aminosäuren jedes Proteins, welches im fasta-file enthalten ist, ausgegeben. Der anschließende awk-Befehl summiert diese Werte auf und gibt somit zum Abschluss die gesuchte Genomgröße aus.

Anzahl Gene und Proteine

Um die Anzahl der Gene und Proteine der zu untersuchenden Spezies zu bestimmen wurden zur Vorbereitung der nachfolgenden Vorgehensweisen die Ordner gff3/ und pep.fa/ erstellt und mit den jeweiligen Daten für alle Metazoa-Spezies befüllt.

Gene aus *.gff3

for file in *; do awk '{print $3}' $file | grep '^gene$' | wc -l >> ../genes_gff; done

Ausgeführt im Ordner gff3/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Mit dem awk-Befehl wird die dritte Spalte des aktuellen gff-files ausgewählt und mit grep nach dem Typ 'gene' durchsucht. Zum Abschluss wird die Anzahl der Treffer mit wc -l aufsummiert und an die Datei 'genes_gff' gehängt, in der, nach dem Fertigstellen der Schleife, die Anzahl der Gene für alle Spezies zu finden ist.

Transkripte aus *.gff3

for file in *; do awk '{print $3}' $file | grep '^transcript$' | wc -l >> ../transcripts; done

Ausgeführt im Ordner gff3/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Mit dem awk-Befehl wird die dritte Spalte des aktuellen gff-files ausgewählt und mit grep nach dem Typ 'transcript' durchsucht. Zum Abschluss wird die Anzahl der Treffer mit wc -l aufsummiert und an die Datei 'transcripts' gehängt, in der, nach dem Fertigstellen der Schleife, die Anzahl der Transkripte für alle Spezies zu finden ist.

Gene aus *.fa

for file in *; do awk '{if ($1 ~/^>/){print $4}}' $file | uniq | wc -l >> ../genes_fa; done

Ausgeführt im Ordner pep.fa/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Wenn die erste Spalte des fasta-files mit einem > beginnt und somit den Header eines Proteins repräsentiert, gibt der awk-Befehl die vierte Spalte aus. In dieser Spalte steht welches Gen die Information zum aktuellen Protein enthält. Anschließend wird mit uniq dafür gesorgt, dass jedes Gen nur einmal aufgezählt wird und zum Abschluss werden die verschiedenen Gene mit wc -l gezählt und in die Datei 'genes_fa' angehängt, in der, nach Fertigstellen der Schleife, die Anzahl der Gene für alle Spezies zu finden ist.

Proteine aus *.fa

for file in *; do awk '{if ($1 ~/^>/){print $1}}' $file | wc -l >> ../proteins; done

Ausgeführt im Ordner pep.fa/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Wenn die erste Spalte des fasta-files mit einem > beginnt und somit den Header eines Proteins repräsentiert, gibt der awk-Befehl diese Spalte aus. Im Anschluss wird mit wc -l die Anzahl der Header und somit auch der Proteine bestimmt und an die Datei 'proteins' gehängt, in der, nach Fertigstellen der Schleife, die Anzahl der Proteine für alle Spezies zu finden ist.

Annotierte Daten

Bei den nachfolgenden Untersuchungen mussten die Daten vorher im Einzelnen näher betrachtet werden um z.B. herauszufinden ob eine Annotation auf Chromosomen oder Scaffolds basiert. Deswegen sind diese Daten für jede Spezies einzeln erhoben worden.

Anzahl Chromosome bzw. Scaffolds

Zum einen wurden Daten aus dem gff-file bezogen, um die Annotationsdaten zu analysieren.

grep -v '^#' ../gff3/<*.gff3> | awk '{print $1}' | sort | uniq | wc -l

Mit Hilfe von grep -v '^#' werden zunächst nur die Zeilen betrachtet, die nicht mit einem '#' beginnen, also keine Kommentarzeilen sind. Der anschließende awk-Befehl gibt die erste Spalte des gff-files weiter, welche danach mittels sort sortiert und mittels uniq von Duiplikaten befreit wird. Abschließend wird die Anzahl der unterschiedlichen Chromosomen bzw. Scaffolds mit wc -l bestimmt und ausgegeben.

Zum anderen wurden die Chromosome bzw. Scaffolds aus dem Genom-fasta-files bestimmt

grep -c '>' /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa>

Mit dem grep-Befehl wurden die Header der fasta-files aufsummiert.

Anzahl Typen

grep -v '^##' ../gff3/<*.gff3> | awk '{print $3}' | sort | uniq | wc -l

Mit Hilfe von grep -v '^#' werden zunächst nur die Zeilen betrachtet, die nicht mit einem '#' beginnen, also keine Kommentarzeilen sind. Der anschließende awk-Befehl gibt die dritte Spalte des gff-files weiter, welche danach mittels sort sortiert und mittels uniq von Duiplikaten befreit wird. Abschließend wird die Anzahl unterschiedlichen Typen mit wc -l bestimmt und ausgegeben.

Typenauflistung

for species in *; do grep -v '^#' $species | awk '{print $3}' | sort | uniq -c > $species.types; done

grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 2.1 - <*.gff3.types> | sed 's/ /\t/g'

grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 1.3 2.1 - <*.gff3.types> | sed 's/ /\t/g'

grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 1.15 2.1 - <*.gff3.types> | sed 's/ /\t/g'

Im ersten Schritt der Erstellung einer Auflistung aller Typen für jede Spezies sind wir wie folgt vorgegangen:
Zunächst wurde im Ordner gff3/ mittels einer for-Schleife über alle Spezies-Daten iteriert. In jeder Datei wurden mit Hilfe von grep -v '^#' nicht-Kommentarzeilen herausgefiltert und anschließend mit dem awk-Befehl die dritte Spalte weitergegeben um diese dann mittels sort zu sortieren und mittels uniq -c von Duplikaten zu befreien und zugleich die jeweilige Anzahl an Duplikaten des entsprechenden Typs in eine Datei mit dem durchsuchten Dateinamen zuzüglich der Endung '.types' abzuspeichern.

Im zweiten Schritt wurden diese Daten dann in einer Datei namens 'types' wie folgt zusammengeführt:
Mit Hilfe von grep -v '^#' wurde die erste Zeile der Datei vor dem Zusammenführen extrahiert. Anschließend wurden mittels join alle Spalten der 'types'-Datei mit der ersten Spalte der Typen einer Spezies vereinigt und mit dem sed-Befehl Leerzeichen durch Tabulatoren ersetzt. Die resultierende Ausgabe wurde nun in 'types' kopiert und die Datei abgespeichert. Anschließend wurde die Auswahl der Spalten auf die neuen Daten angepasst und der Vorgang wiederholt bis alle Spezies in einer Datei zusammengeführt waren.

Längenverteilung

Die Längenverteilung der Gene und Proteine für jede Spezies wurde mit R und dem Script comparison.R in Histogrammen pro Spezies und mit dem Script allinone.R alle Proteinlängen und alle Genlängen jeweils auf einer Seite dargestellt.

Den Daten liegen zwei Dateien pro Spezies zu Grunde, z.B. aga.pep.fastalength.lst für die Längen der Proteine und Anopheles_gambiae.AgamP4.24.count für die Längen der Gene.

Abbildung 2 wurde mit Hilfe von count_all.ods erstellt.

fastalength /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa> > <*.fastalength.lst>

Mit dem Befehl fastalength wird die Anzahl der Aminosäuren jedes Proteins, welches im fasta-file enthalten ist, ausgegeben.

awk '{if ($3 ~/^gene$/){print $5-$4}}' <*.gff3> > <*.count>

Mit dem awk-Befehl wird zuerst überprüft ob es sich bei der aktuellen Zeile um ein Gen handelt, anschließend wird die Differenz aus Spalte 5 (Sequenzende) und Spalte 4 (Sequenzanfang) gebildet und ausgegeben.

Proteinortho: Unterschiede zu Danaus plexipus

Die Spalten 4-18 geben die verschiedenen Spezies aus, wobei in Spalte 10 Danaus plexipus_1 und in Spalte 11 Danaus plexipus_3 dargestellt wird.

  1. Wie viele dpl Gene kommen nicht im proteinortho-output vor?

    awk '{if ($11 ~/[^*]/){col=$11; gsub(/,/,"\n",col);print col}}' proteinortho.poff | sort | uniq | wc -l

    awk '{if ($10 ~/[^*]/){col=$10; gsub(/,/,"\n",col);print col}}' proteinortho.poff | sort | uniq | wc -l

    Ein '*' in proteinortho.poff gibt an, dass entsprechendes Gen in dieser Spezies nicht vorhanden ist. Mit dem awk-Befehl wird die Spalte, in der sich Danaus plexipus_1 bzw. _3 befinden nur dann weitergeleitet, wenn dort ein Gen erkannt wurde. Mit gsub werden die mit Komma getrennten Gene in eigene Zeilen aufgetrennt. Anschließend werden die Gene mittels sort sortiert und mittels uniq von Duplikaten befreit. Zum Abschluss werden die unterschiedlichen Gene mit wc -l gezählt und das Ergebnis ausgegeben.

  2. Wie unterscheiden sich die Spalten dpl1 und dpl3?

    1. Wie viele Familien gibt es, in denen Gene in dpl1 vorkommen und in dpl3 nicht und umgekehrt?

      • dpl1 aber dpl3 nicht

        awk '{if ($10 != "*" && $11 == "*")print $0}' proteinortho.poff | wc -l

        Mit Hilfe des awk-Befehls wird hier überprüft, ob in der aktuellen Familie bei dpl1 mindestens ein Gen vorliegt und bei dpl3 keins, letzteres wird durch einen '*' repräsentiert. Mittels print $0 wird die gesamte Zeile weitergeleitet und alle Zeilen mit wc -l aufsummiert.

      • dpl3 aber dpl1 nicht

        awk '{if (($10 == "*" && $11 != "*"))print $0}' proteinortho.poff | wc -l

        Mit Hilfe des awk-Befehls wird hier überprüft, ob in der aktuellen Familie bei dpl1 kein Gen gefunden wurde, was durch einen '*' repräsentiert wird, und bei dpl3 mindestens ein Gen vorliegt. Mittels print $0 wird die gesamte Zeile weitergeleitet und alle Zeilen mit wc -l aufsummiert.

    2. Wie viele Gene sind in dpl1 und dpl3 dupliziert?

      awk '{if ($10 ~/,/){print $10}}' proteinortho.poff | wc -l

      awk '{if ($10 ~/,/){print $11}}' proteinortho.poff | wc -l

      Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 bzw. dpl3 ein Komma zu finden ist, die Gene also dupliziert vorliegen, und diese anschließend mit wc -l aufsummiert.

    3. Dupliziert in dpl1 und in dpl3 nicht und umgekehrt?

      • dpl1 aber dpl3 nicht

        awk '{if ($10 ~/,/ && $11 ~/[^,]/)print $0}' proteinortho.poff | wc -l

        Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 ein Komma zu finden ist und in der Spalte von dpl3 keins. Ein Komma findet sich bei einer Auflistung mehrerer Gene, was einer Duplizierung entspricht.

      • dpl3 aber dpl1 nicht

        awk '{if ($10 ~/[^,]/ && $11 ~/,/)print $0}' proteinortho.poff | wc -l

        Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 kein Komma zu finden ist, jedoch in der Spalte von dpl3 eins vorkommt. Ein Komma findet sich bei einer Auflistung mehrerer Gene, was einer Duplizierung entspricht.

  3. Welche Gene von dpl sind nur in dpl dupliziert?

    awk '{found = 0;if ($10 ~/,/){for (i=4;i<10;i++){if ($i ~/,/){found=1; break}}for (i=12;i<19;i++){if ($i ~/,/){found=1; break}}if (found!=1)print $0}}' proteinortho.poff | wc -l

    awk '{found = 0;if ($11 ~/,/){for (i=4;i<10;i++){if ($i ~/,/){found=1; break}}for (i=12;i<19;i++){if ($i ~/,/){found=1; break}}if (found!=1)print $0}}' proteinortho.poff | wc -l

    Mit Hilfe des awk-Befehls werden hier alle Spezies auf Duplikate überprüft. Dies wird mittels einer Suche nach einem Komma realisert. Die aktuell untersuchte Zeile wird nur ausgegeben, wenn in den Spalten 4-9 und 12-18 kein Komma gefunden werden konnte, aber in Spalte 10 für dpl1 eine Duplizierung vorliegt.

Vergleich der miRNA Familien

Das Alignment der miRNA Familien wurde von Gruppe PRAK09 erstellt. Diese Daten wurden mit Clustalx beispielhaft an einer miRNA Familie ausgewertet. Zusätzlich wurde die Faltung mit dem Programm RNAalifold für diese Familie berechnet.

3) Ergebnisse

Übersichtstabelle

Die Genomgrößen, Anzahl Gene, Transkripte, Proteine, Chromosomen, Scaffolds und Typen der zu untersuchenden Metazoa-Spezies werden in Tabelle 1 dargestellt.

Die Anzahl der Gene wurde sowohl aus den gff3-files, als auch aus den Fasta-files ermittelt. Hierbei fällt auf, dass beide Werte in den meisten Spezies leicht voneinander abweichen.

Auch die Anzahl der Gene und Proteine, welche beide aus dem Fasta-file ermittelt wurden, weichen teilweise stark voneinenader ab.

Bei den annotierten Daten wurden entweder Chromosomen oder Scaffolds annotiert. Bei Scaffolds handelt es sich um Teile von Genomsequenzen, welche aus end-sequenced whole-genome shotgun Klonen rekonstruiert wurden. Sie bestehen aus Contigs und Gaps. Zudem werden vorschiedene Typen annotiert. Hier weicht die Anzahl und auch Art der Annotationstypen in den verschiedenen Spezies stark voneinander ab. Die Annotationstypen der verschiedenen Spezies sind in Tabelle 2 zusammengefasst. Wenn keine Daten vorhanden waren, wurde dieses Feld mit n.a. (not available) gekennzeichnet.

Tabelle 1: Übersicht der Genomgrößen, sowie Anzahl Gene, Transkripte, Proteine, Chromosomen, Scaffolds und Typen der zu untersuchenden Metazoa-Spezies
Spezies-Name Genomgröße Anzahl Gene (gff) Anzahl Transkripte Anzahl Gene (fa) Anzahl Proteine Anzahl Chromosomen (gff) Anzahl Scaffolds (gff) Anzahl Chromosomen/Scaffolds (Genom) Anzahl Typen
Acyrthosiphon pisum 541675471 36198 36724 36195 36195 n.a. 23185 23924 20
Anopheles gambiae 273109044 12847 15183 12843 14697 8 n.a. 8 19
Apis mellifera 219629612 15317 15530 15314 15314 16 n.a. 16 19
Bombyx mori 480775871 14630 15882 14623 14623 n.a. 36744 43622 17
Danaus plexippus 1 272853388 16265 16962 16254 16254 n.a. 13242 13318 18
Danaus plexippus 3 248564116 15130 n.a. n.a. n.a. n.a. 867 5397 4
Dendroctonus ponderosae 252847629 13091 13689 13088 13457 n.a. 7276 8133 19
Drosophila melanogaster 168736537 14176 28196 13937 26950 7 n.a. 7 18
Heliconius melpomene 273786188 12669 16170 12669 12829 n.a. 4249 4309 14
Locusta migratoria 5759798599 n.a. n.a. 798 2646 n.a. n.a. 1397429 n.a.
Manduca sexta 399655158 15542 172 27403 27403 n.a. 2451 Contigs: 38380 7
Melitaea cinxia 389907520 16723 16745 16674 16674 n.a. 8260 8261 12
Plutella xylostella 336850047 n.a. 18071 n.a. 18071 n.a. 1383 1793 2
Nasonia vitripennis 356728377 17282 18112 17083 17174 5 n.a. 5 20
Rhodnius prolixus 702642977 15443 16702 15429 15441 n.a. 27483 27870 19
Tribolium castaneum 210566138 16533 16953 16524 16526 10 n.a. 10 20
Rohdaten

Typentabelle

Bei den zu untersuchenden Metazoa-Spezies wurden verschiedene Typen annotiert. Eine Auflistung dieser zeigt Tabelle 2.

Tabelle 2: Auflistung der verschiedenen Annotationstypen für die zu untersuchenden Metazoa-Spezies
Typen Acyrthosiphon pisum Anopheles gambiae Apis mellifera Bombyx mori Danaus plexippus 1 Danaus plexippus 3 Dendroctonus ponderosae Drosophila melanogaster Heliconius melpomene Manduca sexta Melitaea cinxia Nasonia vitripennis Plutella xylostella Rhodnius prolixus Tribolium castaneum
gene 36198 12847 15317 14630 16265 15130 13091 14176 12669 15542 16723 17282 0 15443 16533
pseudogene 1488 10 0 0 12 0 0 366 0 0 0 3142 0 100 24
transcript 36724 15183 15530 15882 16962 0 13689 28196 16170 127 16745 18112 0 16702 16953
mRNA 0 0 0 0 0 15130 0 0 0 27403 0 0 18071 0 0
CDS 164431 62408 81526 79783 95713 101578 79897 141885 84599 206965 96860 91321 116956 89097 71744
exon 184739 66485 85044 86288 96836 101578 80217 162331 95271 219222 102157 104404 0 92864 72366
five_prime_UTR 32115 7706 5944 0 0 0 5268 25528 9160 0 7709 1504 0 3360 60
three_prime_UTR 33840 7381 6767 0 0 0 5912 25772 8996 0 5438 9048 0 4014 63
non_canonical_5'_splice_site 0 0 0 0 0 0 0 0 0 8 0 0 0 0 0
non_canonical_3'_splice_site 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0
RNA 15 10 4 2 2 0 3 0 0 0 0 15 0 17 3
rRNA 126 53 60 108 74 0 16 160 87 0 5 41 0 85 8
rRNA_gene 126 53 60 108 74 0 16 160 87 0 5 41 0 85 8
miRNA 143 187 88 4547 208 0 32 307 106 0 0 146 0 75 69
miRNA_gene 143 187 88 4547 208 0 32 0 106 0 0 146 0 75 69
snoRNA 67 12 16 21 26 0 11 288 0 0 0 27 0 11 13
snoRNA_gene 67 12 16 21 26 0 11 288 0 0 0 27 0 11 13
snRNA 61 38 26 570 101 0 28 31 0 0 40 44 0 333 25
snRNA_gene 61 38 26 570 101 0 28 31 0 0 40 44 0 333 25
tRNA_gene 0 0 0 0 0 0 214 314 2373 0 22 344 0 220 215
pseudogenic_tRNA 136 9 6 741 57 0 12 0 968 0 0 380 0 1010 200
ncRNA_gene 0 0 0 0 0 0 0 538 0 0 0 0 0 0 0
biological_region 36669 0 11181 45210 5583 0 51395 16791 3560 0 0 19386 0 0 4697
repeat_region 1761695 574635 939698 1223669 628904 0 210119 370070 888787 0 2219011 562776 0 1628171 301628
Rohdaten

Die Tabelle zeigt zum einen Gene, Pseudogene, Transkripte und mRNA. mRNA wurde nur bei drei Spezies annotiert, wobei da keine oder nur wenige Transkripte annotiert wurden. Die Anzahl der Transkripte/mRNAs ist dabei stehts größer als die der Gene. Zum anderen wurden codierende Sequenzen (CDS), Exon, sowie 3' und 5' UTR annotiert. Dabei beinhalten Exons die CDS sowie die 3' und 5' UTRs. Die UTRs wurden jedoch in 5 Spezies garnicht annotiert und sind in den anderen Spezies zahlenmäßig unterrepräsentiert. In Manduca sexta wurden zudem noncanonical 5' und 3' splice sites annotiert. Noncanonical Splicing ist ein Prozess bei dem mit Hilfe des Minor Spliceosoms untypische Introns (U12-Typ) entfernt werden können. Im Gegensatz dazu ist das cannonical Splicen U2-abhängig. Des Weiteren werden verschiedene RNAs annotiert. Es treten rRNA(Gene), miRNA(Gene), snoRNA(Gene), snRNA(Gene),tRNA (Pseudo-)Gene und ncRNA Gene auf. Zudem wurde in einigen Spezies RNA annotiert. Es fällt auf, dass *RNA und *RNA Gene jeweils den gleichen Wert ergibt. Außerdem gibt es Sequenzabschnitte, die als Biologische Regionen bezeichnet werden. Zudem sind Repeat Regionen annotiert, die in großer Häufigkeit auftreten.

Längenvergleich

Die erstellten Histogramme des Langenvergleichs der Gene und Proteine sind dem Link 'Längenvergleich' zu entnehmen. Dabei wurden die Proteine und Gene aus den gff3- und fasta-files nach ihrer Länge in 50nt Gruppen aufgeteilt und deren Häufigkeit gegen die Länge aufgetragen. Dabei sind die Gene in orange dargestellt und die Proteine in blau. Die Länge der Proteine wurde mit drei multipliziert um sie mit den Genen vergleichen zu können (Triplettcode). Bei allen Spezies zeigt sich sowohl bei den Genen als auch bei den Proteinen ein typischer Kurvenverlauf. Es gibt viele kurze Gene/Proteine und die Häufigkeit nimmt ab, je größer die Gene/Proteine werden.

comparison.pdf

allinone.pdf

Längenvergleich
Abbildung 2: Längenverteilung der Gene aller untersuchten Spezies

Proteinortho: Unterschiede zu Danaus plexipus

Mit hilfe des Outputs von Proteinortho wurden folgende Fragen beantwortet.

  1. Wieviele dpl Gene kommen nicht im proteinortho-output vor?

    Für dpl1 wurde mit dem unter 2) Vorgehensweise angegebenen Befehl 13446 Gene gefunden (Header wurde manuell abgezogen). Diese Zahl wurde von der in der Übersichtstabelle angegebenen Anzahl Gene (gff), 16254, subtrahiert. Somit ergibt sich für Danaus plexipus_1 ein Wert von 2808 Gene.

    Mit den Daten von Danaus plexipus_3 wurde ebenso verfahren. Somit ergab sich in diesem Fall ein Wert von 15130-13344= 1786 Genen, die nicht im proteinortho-output vorkommen.

  2. Wie unterscheiden sich die Spalten dpl1 und dpl3?

    In dpl1 wurden im proteinortho-output nur die Genbezeichnung EHJ… angegeben.

    Bei dpl3 hingegen wurden die Gene mit der Bezeichnung DPOGS…-PA versehen, was auf Protein hindeuted.

    Um diese Frage detailierter zu beantworten wurden folgene Unterfagen erstellt:

    1. Wie viele Familien gibt es, in denen Gene in dpl1 vorkommen und in dpl3 nicht; und umgekehrt?

      Es wurden 2130 Familien gefunden in denen in dpl1 Gene vorkommen, in dpl3 aber nicht.

      Zudem wurden 1992 Gen-Familien in dpl3 gefunden, in denen keine Gene von dpl1 vorkommen.

    2. Wie viele Gene sind in dpl1 und dpl3 dupliziert?

      Es wurden insgesamt 125 Gene ermittelt, die in dpl1 dupliziert sind.

      Außerdem kamen 160 Gene vor, die in dpl3 dupliziert vorlagen

    3. Wie viele Gene sind in dpl1 dupliziert und in dpl3 nicht; und umgekehrt?

      Es wurden 125 Gene ermittelt, die in dpl1 dupliziert sind, aber nicht in dpl3.

      Außerdem kamen 160 Gene vor, die in dpl3 aber dpl1 nicht dupliziert vorlagen.

      Vergleicht man diese Ergebnisse mit denen aus 2b. kommt man zu dem Schluss, dass kein Gen sowohl in dpl1 als auch in dpl3 dupliziert vorliegt.

  3. Welche Gene von dpl sind nur in dpl dupliziert?

    In Danaus plexipus_1 und _3 wurden je 75 Gene gefunden, die dupliziert vorlagen, in allen anderen Spezien aber nicht dupliziert wurden. Es handelt sich dabei um verschiedene Gene, da kein Gen sowohl in dpl1 als auch in dpl3 dupliziert vorliegt. (siehe 2c.)

Vergleich der miRNA Familien

Sequenzalignment am Beispiel der MIPF0000029_mir-133 Familie

Für den Vergleich der Sequenz, sowie der Struktur der miRNA Familien wurde exemplarisch die Familie MIPF0000029_mir-133 ausgewählt. In dieser wurden 14 miRNAs gefunden und paarweise aligned. Es wurden die Scores verglichen und alle Scores unter 30 speziell betrachted. Dabei wiesen zwei der Alignments einen Score unter 30 auf. Es handelt sich um das Alignment von aga-mir-133 mit dpl3-mir-133 sowie dme-mir-133 mit dpl3-mir-133. Abbildung 3 zeigt dieses Sequenzalignment eingefärbt nach Basen-Identität und der Struktur in der Klammer-Punkt-Schreibweise der 14 miRNAs.

miRNA BaseIdentity
Abbildung 3: Alignment der miRNAs der MIPF0000029_mir-133 Familie, coloriert nach Base-Identity

Es zeigt sich eine hohe Übereinstimmung Struktur. Die Klammern zeigen Basenpaare und die Punkte Loops. Bei der Struktur handelt es sich also um Hairpins. Auch die Basenidentität ist v. a. in den Stem-Regionen des Hairpins sehr gut. Am höhsten ist diese Übereinstimmung auf der rechten Seite, was darauf schließen läßt, das es sich dabei um die miRNA handelt.

Es treten zwei Auffälligkeiten auf. Zum einen ist die Sequenz der aga-mir-133 sehr kurz. Somit kann die linke Seite nicht mit den anderen miRNAs verglichen werden. Dies hat außerdem zur Folge, dass die ermittelte Struktur sehr stark von der der anderen Sequenzen abweicht. Zum andern fällt die miRNA dpl3-mir-133 auf. Hier sind vor allem auf der rechten Seite im konservierten Bereich einige Basen mutiert. Somit ist auch der niedrige Score bei dem Alignment zu erklären.

Das Alignment wurde zudem zur besseren Veranschaulichung noch nach den konservierten Basen eingefärbt. Dies ist in Abbildung 4 zu sehen.

miRNA Conservation
Abbildung 4: Alignment der miRNAs der MIPF0000029_mir-133 Familie, coloriert nach Base-Conservation

Auch hier zeigt sich, dass v. a. die Stem-Regionen stark konserviert sind. Zudem wird erneut verdeutlicht, dass rechts der längere konservierte Bereich ist und die miRNA dpl3-mir-133 hier die meisten Abweichungen zeigt. Abbildung 5 stellt die konservierte Struktur der MIPF0000029_mir-133 Familie dar.

Struktur
Abbildung 5: konservierte Struktur der miRNAs der MIPF0000029_mir-133 Familie (aus RNAalifold)

Es ist ein Hairpin zu erkennen, bei dem auf der linken Seite einige Basen eingekreist sind. Diese zeigen die Möglichkeit von untypische Basenpaarungen (z. B. G-U oder A-U) an.

4) Auswertung

Übersichtstabelle

Die Anzahl der Gene sowohl aus den gff3-files als auch aus den Fasta-files weichen in den meisten Spezies leicht voneinander ab. Um dies zu erklären müssten die abweichenden Gene im einzelnen betrachtet und näher untersucht werden.

Auch die Anzahl der Gene und der Proteine, welche beide aus dem Fasta-file ermittelt wurden, weichen teilweise stark voneinenader ab. Dies kann damit erklärt werden, dass ein Gen mehrere Proteine codieren kann (alternatives Splicen).

Unterschiede in der Annotation sind erklärbar, da es keine einheitlichen Vorschriften für eine Annotation gibt. Ob Chromosomen oder Scaffolds annotiert wurden liegt an den bereits vorhandenen Informationen zu den Spezies, die sich teilweise stark unterscheiden. Bei gut untersuchten Spezies gibt es viele Informationen zum Genom und der Verteilung der Gene auf den Chromosomen. Bei anderen Spezies sind diese Daten noch nicht erfasst worden.

Die Anzahl der Chromosomen bzw. Scaffolds unterscheiden sich zwischen den Daten aus dem gff (annotierte Daten) und dem Genom-Fastafile (Gesamtdaten) meist nur gering. D. h. es wurden auf fast allen Chromosomen/Scaffolds auch Daten annotiert. Bei Manduca sexta wurden im gff Scaffolds und im Genom-fasta Contigs angegeben. Dies erklärt hier den großen Unterschied.

Typentabelle

Die Auflistung der verschiedenen Annotationstypen zeigt, dass zwischen den zu untersuchenden Spezies teilweise sehr große Unterschiede in der Annotation auftreten. In einigen Spezies wurden Gene und Transkripte annotiert, wobei aus den Zahlen hervorgeht, dass einige Transkripte mehr als ein Gen ergeben. Dies kann durch alternatives Splicen ermöglicht werden. In anderen Spezies sind Gene und mRNA annotiert. Transkripte und mRNA können also als Synonym bzeichnet werden. Als Pseudogene werden Gene bezeichnet, die abgeschnitten erscheinen, basierend auf Sequenzähnichkeit zu einem andern Gen im Genom oder deren GC-Gehalt. Sie sind nicht zwingend identisch zu einem anderen Gen, weil nicht funktionstüchtig sind und somit nicht unter Selektionsdruck stehen.

Zum anderen fällt bei den Exons, CDS und UTRs auf, dass es viel weniger UTRs als CDS gibt. Diese Zahlen sollten identisch sein. Möglicherweise wurden die UTRs beim Sequenziern nicht mit erfasst oder bei der Annotation nicht als solche erkannt und anders benannt. Es ist vorstellbar, dass einige UTRs unter der Kategorie 'biologische Regionen' zu finden wären. Bei dieser Einteilung handelt es sich um Sequenzabschnitte mit biologischer Funktion. Dies kann von RNAs über CDS bis hin zu repeats alles sein. Es handet sich wahrscheinlich um Sequenzabschnitte, die nicht zugeordnet werden konnten.

Um die verschiedenen RNAs zu annotieren, werden verschiedenen Methoden angewendet. miRNAs beispielsweise werden ermittelt, indem die Sequenzabschnitte mittels BLASTN gegen miRBase Sequenzen verglichen werden. Die tRNAs werden mit tRNAscan-SE ermittelt. Zu jeder annotierten miRNA gibt es je ein miRNA Gen. Dies trifft auch bei rRNAs, snRNAs und snoRNAs zu.

Längenvergleich

Die erstellten Histogramme des Längenvergleichs zeigen alle sowohl bei den Genen als auch bei den Proteinen ein typischer Kurvenverlauf. Es gibt viele kurze Gene/Proteine und die Häufigkeit nimmt ab, je größer die Gene/Proteine werden.

Proteinortho: Unterschiede zu Danaus plexipus

Die Daten von dpl1 und dpl3 weisen bei den meisten Fragen große Unterschiede auf. Das ist auf die Herkunft der Annotationsdaten zurückzuführen. Die Informationen zur Annotation von ENSEMBL (dpl1) sind wesentlich ausführlicher als diese aus der Monarchbase (dpl3). Bei Letzteren wurde das Augenmerk vor allem auf Gene, mRNA, Exons und CDS gelegt und keine weiteren Typen, wie z.B. RNA, Repeats, Pseudogene annotiert.

Mittels Proteinortho wurden in den zu untersuchenden Spezies Orthologe (Homologe in verschiedenen Spezies) ermittelt. Die meisten Gene des Danaus plexipus treten als Orthologe auch in den anderen zu untersuchenden Spezies auf. Zudem gibt es ca. 2000 Gene im Monarchfalter, die in den anderen Spezies fehlen. Dies kann mehrere Ursachen haben. Zum einen können im Danaus plexipus Genduplikationen (Paraloge) oder Mutationen aufgetreten sein. Diese Unterschiede haben evolutionsgeschichtliche Ursachen und führen zur Diversität der verschiedenen Spezies, denn mit dem selben Genpool würde es keine Aufspaltung in mehrere Spezies geben. Zum anderen könnten einige Gene dabei sein, die in den anderen Spezies nicht annotiert worden sind, wo aber eigentlich Orthologe da sind. Diese werden, wenn überhaupt, eine Minderheit bilden.

Vergleich der miRNA Familien

Sequenzalignment am Beispiel der MIPF0000029_mir-133 Familie

Aus den Ergebnissen des miRNA Alignments zeigt sich, dass in dieser Familie die Struktur und auch die Sequenz konserviert vorliegt. Es zeigt sich auch, dass dabei die rechte Seite des Hairpins am stärksten konserviert ist. Somit läßt sich vermuten, dass auf diese Seite die funktionelle miRNA ist. Ausnahmen dieser starken Konservierung bilden aga-mir-133 und dpl3-mir-133. Im ersten Fall wurde sich eventuell eine Verbesserung des Alignments ergeben, wenn die Sequenz v. a. auf der linken Seite verlängert werden würde. Im Fall der dpl3-mir-133 sind jedoch so viele Mutationen in wichtigen Bereichen aufgetreten, dass die Vermutung nahe liegt, dass diese miRNA nicht mehr funktionell ist.

Die in Abbildung 5 dargestellte konservierte Hairpin-Struktur zeigt durch die eingekreisten Basen auf der linken Seite, dass die Struktur stärker konserviert ist als die Sequenz. Da diese Möglichkeiten der Mutation auf der linken Seite liegen, kann auch mit Hilfe dieser Abbildung festgestellt werden, dass die miRNA auf der rechten Seite des Hairpins liegt.

Quellen

http://www.bioinf.uni-leipzig.de/teaching/currentClasses/class190.html

http://monarchbase.umassmed.edu/home.html

http://metazoa.ensembl.org/index.html

http://www.mirbase.org/

http://www.ncbi.nlm.nih.gov/assembly/

http://www.pseudogene.org/background.php

http://www.ensembl.org/info/genome/genebuild/ncrna.html