Praktikumszeitraum: 12.01. - 23.01.2015
Gruppe: PRAK10
Von den in Abbildung 1 abgebildeten Metazoa-Spezies sollten statistische Werte erhoben werden. Hierbei sollten Werte wie Genomgröße, Anzahl der Gene und Proteine ermittelt, sowie die annotierten Daten bezüglich der Chromosomen bzw. Scaffolds und der Typen (Gene, CDS, Exons, RNAs, …) ausgewerted werden. Besonderes Augenmerk wird dabei auf den Monarchfalter, Danaus plexipus (dpl), gelegt. Hierbei wurden zum einen Daten aus der Datenbank ENSEMBL entnommen, welche im Weiteren als Danaus plexipus_1 (dpl1) bezeichnet werden. Zum anderen wurden Daten aus der Monarchbase verwendet. Diese Daten werden unter dem Namen Danaus plexipus_3 (dpl3) aufgeführt.
fastalength /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa> | awk 'BEGIN{len=0}{len += $1}END{print len}'
Mit dem Befehl fastalength wird die Anzahl der Aminosäuren jedes Proteins, welches im fasta-file enthalten ist, ausgegeben. Der anschließende awk-Befehl summiert diese Werte auf und gibt somit zum Abschluss die gesuchte Genomgröße aus.
Um die Anzahl der Gene und Proteine der zu untersuchenden Spezies zu bestimmen wurden zur Vorbereitung der nachfolgenden Vorgehensweisen die Ordner gff3/ und pep.fa/ erstellt und mit den jeweiligen Daten für alle Metazoa-Spezies befüllt.
for file in *; do awk '{print $3}' $file | grep '^gene$' | wc -l >> ../genes_gff; done
Ausgeführt im Ordner gff3/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Mit dem awk-Befehl wird die dritte Spalte des aktuellen gff-files ausgewählt und mit grep nach dem Typ 'gene' durchsucht. Zum Abschluss wird die Anzahl der Treffer mit wc -l aufsummiert und an die Datei 'genes_gff' gehängt, in der, nach dem Fertigstellen der Schleife, die Anzahl der Gene für alle Spezies zu finden ist.
for file in *; do awk '{print $3}' $file | grep '^transcript$' | wc -l >> ../transcripts; done
Ausgeführt im Ordner gff3/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Mit dem awk-Befehl wird die dritte Spalte des aktuellen gff-files ausgewählt und mit grep nach dem Typ 'transcript' durchsucht. Zum Abschluss wird die Anzahl der Treffer mit wc -l aufsummiert und an die Datei 'transcripts' gehängt, in der, nach dem Fertigstellen der Schleife, die Anzahl der Transkripte für alle Spezies zu finden ist.
for file in *; do awk '{if ($1 ~/^>/){print $4}}' $file | uniq | wc -l >> ../genes_fa; done
Ausgeführt im Ordner pep.fa/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Wenn die erste Spalte des fasta-files mit einem > beginnt und somit den Header eines Proteins repräsentiert, gibt der awk-Befehl die vierte Spalte aus. In dieser Spalte steht welches Gen die Information zum aktuellen Protein enthält. Anschließend wird mit uniq dafür gesorgt, dass jedes Gen nur einmal aufgezählt wird und zum Abschluss werden die verschiedenen Gene mit wc -l gezählt und in die Datei 'genes_fa' angehängt, in der, nach Fertigstellen der Schleife, die Anzahl der Gene für alle Spezies zu finden ist.
for file in *; do awk '{if ($1 ~/^>/){print $1}}' $file | wc -l >> ../proteins; done
Ausgeführt im Ordner pep.fa/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Wenn die erste Spalte des fasta-files mit einem > beginnt und somit den Header eines Proteins repräsentiert, gibt der awk-Befehl diese Spalte aus. Im Anschluss wird mit wc -l die Anzahl der Header und somit auch der Proteine bestimmt und an die Datei 'proteins' gehängt, in der, nach Fertigstellen der Schleife, die Anzahl der Proteine für alle Spezies zu finden ist.
Bei den nachfolgenden Untersuchungen mussten die Daten vorher im Einzelnen näher betrachtet werden um z.B. herauszufinden ob eine Annotation auf Chromosomen oder Scaffolds basiert. Deswegen sind diese Daten für jede Spezies einzeln erhoben worden.
Zum einen wurden Daten aus dem gff-file bezogen, um die Annotationsdaten zu analysieren.
grep -v '^#' ../gff3/<*.gff3> | awk '{print $1}' | sort | uniq | wc -l
Mit Hilfe von grep -v '^#' werden zunächst nur die Zeilen betrachtet, die nicht mit einem '#' beginnen, also keine Kommentarzeilen sind. Der anschließende awk-Befehl gibt die erste Spalte des gff-files weiter, welche danach mittels sort sortiert und mittels uniq von Duiplikaten befreit wird. Abschließend wird die Anzahl der unterschiedlichen Chromosomen bzw. Scaffolds mit wc -l bestimmt und ausgegeben.
Zum anderen wurden die Chromosome bzw. Scaffolds aus dem Genom-fasta-files bestimmt
grep -c '>' /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa>
Mit dem grep-Befehl wurden die Header der fasta-files aufsummiert.
grep -v '^##' ../gff3/<*.gff3> | awk '{print $3}' | sort | uniq | wc -l
Mit Hilfe von grep -v '^#' werden zunächst nur die Zeilen betrachtet, die nicht mit einem '#' beginnen, also keine Kommentarzeilen sind. Der anschließende awk-Befehl gibt die dritte Spalte des gff-files weiter, welche danach mittels sort sortiert und mittels uniq von Duiplikaten befreit wird. Abschließend wird die Anzahl unterschiedlichen Typen mit wc -l bestimmt und ausgegeben.
for species in *; do grep -v '^#' $species | awk '{print $3}' | sort | uniq -c > $species.types; done
grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 2.1 - <*.gff3.types> | sed 's/ /\t/g'
grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 1.3 2.1 - <*.gff3.types> | sed 's/ /\t/g'
…
grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 1.15 2.1 - <*.gff3.types> | sed 's/ /\t/g'
Im ersten Schritt der Erstellung einer Auflistung aller Typen für jede Spezies sind wir wie folgt vorgegangen:
Zunächst wurde im Ordner gff3/ mittels einer for-Schleife über alle Spezies-Daten iteriert. In jeder Datei wurden mit Hilfe von grep -v '^#' nicht-Kommentarzeilen herausgefiltert und anschließend mit dem awk-Befehl die dritte Spalte weitergegeben um diese dann mittels sort zu sortieren und mittels uniq -c von Duplikaten zu befreien und zugleich die jeweilige Anzahl an Duplikaten des entsprechenden Typs in eine Datei mit dem durchsuchten Dateinamen zuzüglich der Endung '.types' abzuspeichern.
Im zweiten Schritt wurden diese Daten dann in einer Datei namens 'types' wie folgt zusammengeführt:
Mit Hilfe von grep -v '^#' wurde die erste Zeile der Datei vor dem Zusammenführen extrahiert. Anschließend wurden mittels join alle Spalten der 'types'-Datei mit der ersten Spalte der Typen einer Spezies vereinigt und mit dem sed-Befehl Leerzeichen durch Tabulatoren ersetzt. Die resultierende Ausgabe wurde nun in 'types' kopiert und die Datei abgespeichert. Anschließend wurde die Auswahl der Spalten auf die neuen Daten angepasst und der Vorgang wiederholt bis alle Spezies in einer Datei zusammengeführt waren.
Die Längenverteilung der Gene und Proteine für jede Spezies wurde mit R und dem Script comparison.R in Histogrammen pro Spezies und mit dem Script allinone.R alle Proteinlängen und alle Genlängen jeweils auf einer Seite dargestellt.
Den Daten liegen zwei Dateien pro Spezies zu Grunde, z.B. aga.pep.fastalength.lst für die Längen der Proteine und Anopheles_gambiae.AgamP4.24.count für die Längen der Gene.
Abbildung 2 wurde mit Hilfe von count_all.ods erstellt.
fastalength /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa> > <*.fastalength.lst>
Mit dem Befehl fastalength wird die Anzahl der Aminosäuren jedes Proteins, welches im fasta-file enthalten ist, ausgegeben.
awk '{if ($3 ~/^gene$/){print $5-$4}}' <*.gff3> > <*.count>
Mit dem awk-Befehl wird zuerst überprüft ob es sich bei der aktuellen Zeile um ein Gen handelt, anschließend wird die Differenz aus Spalte 5 (Sequenzende) und Spalte 4 (Sequenzanfang) gebildet und ausgegeben.
Die Spalten 4-18 geben die verschiedenen Spezies aus, wobei in Spalte 10 Danaus plexipus_1 und in Spalte 11 Danaus plexipus_3 dargestellt wird.
Wie viele dpl Gene kommen nicht im proteinortho-output vor?
awk '{if ($11 ~/[^*]/){col=$11; gsub(/,/,"\n",col);print col}}' proteinortho.poff | sort | uniq | wc -l
awk '{if ($10 ~/[^*]/){col=$10; gsub(/,/,"\n",col);print col}}' proteinortho.poff | sort | uniq | wc -l
Ein '*' in proteinortho.poff gibt an, dass entsprechendes Gen in dieser Spezies nicht vorhanden ist. Mit dem awk-Befehl wird die Spalte, in der sich Danaus plexipus_1 bzw. _3 befinden nur dann weitergeleitet, wenn dort ein Gen erkannt wurde. Mit gsub werden die mit Komma getrennten Gene in eigene Zeilen aufgetrennt. Anschließend werden die Gene mittels sort sortiert und mittels uniq von Duplikaten befreit. Zum Abschluss werden die unterschiedlichen Gene mit wc -l gezählt und das Ergebnis ausgegeben.
Wie unterscheiden sich die Spalten dpl1 und dpl3?
Wie viele Familien gibt es, in denen Gene in dpl1 vorkommen und in dpl3 nicht und umgekehrt?
dpl1 aber dpl3 nicht
awk '{if ($10 != "*" && $11 == "*")print $0}' proteinortho.poff | wc -l
Mit Hilfe des awk-Befehls wird hier überprüft, ob in der aktuellen Familie bei dpl1 mindestens ein Gen vorliegt und bei dpl3 keins, letzteres wird durch einen '*' repräsentiert. Mittels print $0 wird die gesamte Zeile weitergeleitet und alle Zeilen mit wc -l aufsummiert.
dpl3 aber dpl1 nicht
awk '{if (($10 == "*" && $11 != "*"))print $0}' proteinortho.poff | wc -l
Mit Hilfe des awk-Befehls wird hier überprüft, ob in der aktuellen Familie bei dpl1 kein Gen gefunden wurde, was durch einen '*' repräsentiert wird, und bei dpl3 mindestens ein Gen vorliegt. Mittels print $0 wird die gesamte Zeile weitergeleitet und alle Zeilen mit wc -l aufsummiert.
Wie viele Gene sind in dpl1 und dpl3 dupliziert?
awk '{if ($10 ~/,/){print $10}}' proteinortho.poff | wc -l
awk '{if ($10 ~/,/){print $11}}' proteinortho.poff | wc -l
Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 bzw. dpl3 ein Komma zu finden ist, die Gene also dupliziert vorliegen, und diese anschließend mit wc -l aufsummiert.
Dupliziert in dpl1 und in dpl3 nicht und umgekehrt?
dpl1 aber dpl3 nicht
awk '{if ($10 ~/,/ && $11 ~/[^,]/)print $0}' proteinortho.poff | wc -l
Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 ein Komma zu finden ist und in der Spalte von dpl3 keins. Ein Komma findet sich bei einer Auflistung mehrerer Gene, was einer Duplizierung entspricht.
dpl3 aber dpl1 nicht
awk '{if ($10 ~/[^,]/ && $11 ~/,/)print $0}' proteinortho.poff | wc -l
Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 kein Komma zu finden ist, jedoch in der Spalte von dpl3 eins vorkommt. Ein Komma findet sich bei einer Auflistung mehrerer Gene, was einer Duplizierung entspricht.
Welche Gene von dpl sind nur in dpl dupliziert?
awk '{found = 0;if ($10 ~/,/){for (i=4;i<10;i++){if ($i ~/,/){found=1; break}}for (i=12;i<19;i++){if ($i ~/,/){found=1; break}}if (found!=1)print $0}}' proteinortho.poff | wc -l
awk '{found = 0;if ($11 ~/,/){for (i=4;i<10;i++){if ($i ~/,/){found=1; break}}for (i=12;i<19;i++){if ($i ~/,/){found=1; break}}if (found!=1)print $0}}' proteinortho.poff | wc -l
Mit Hilfe des awk-Befehls werden hier alle Spezies auf Duplikate überprüft. Dies wird mittels einer Suche nach einem Komma realisert. Die aktuell untersuchte Zeile wird nur ausgegeben, wenn in den Spalten 4-9 und 12-18 kein Komma gefunden werden konnte, aber in Spalte 10 für dpl1 eine Duplizierung vorliegt.
Das Alignment der miRNA Familien wurde von Gruppe PRAK09 erstellt. Diese Daten wurden mit Clustalx beispielhaft an einer miRNA Familie ausgewertet. Zusätzlich wurde die Faltung mit dem Programm RNAalifold für diese Familie berechnet.
Die Genomgrößen, Anzahl Gene, Transkripte, Proteine, Chromosomen, Scaffolds und Typen der zu untersuchenden Metazoa-Spezies werden in Tabelle 1 dargestellt.
Die Anzahl der Gene wurde sowohl aus den gff3-files, als auch aus den Fasta-files ermittelt. Hierbei fällt auf, dass beide Werte in den meisten Spezies leicht voneinander abweichen.
Auch die Anzahl der Gene und Proteine, welche beide aus dem Fasta-file ermittelt wurden, weichen teilweise stark voneinenader ab.
Bei den annotierten Daten wurden entweder Chromosomen oder Scaffolds annotiert. Bei Scaffolds handelt es sich um Teile von Genomsequenzen, welche aus end-sequenced whole-genome shotgun Klonen rekonstruiert wurden. Sie bestehen aus Contigs und Gaps. Zudem werden vorschiedene Typen annotiert. Hier weicht die Anzahl und auch Art der Annotationstypen in den verschiedenen Spezies stark voneinander ab. Die Annotationstypen der verschiedenen Spezies sind in Tabelle 2 zusammengefasst. Wenn keine Daten vorhanden waren, wurde dieses Feld mit n.a. (not available) gekennzeichnet.
Spezies-Name | Genomgröße | Anzahl Gene (gff) | Anzahl Transkripte | Anzahl Gene (fa) | Anzahl Proteine | Anzahl Chromosomen (gff) | Anzahl Scaffolds (gff) | Anzahl Chromosomen/Scaffolds (Genom) | Anzahl Typen |
---|---|---|---|---|---|---|---|---|---|
Acyrthosiphon pisum | 541675471 | 36198 | 36724 | 36195 | 36195 | n.a. | 23185 | 23924 | 20 |
Anopheles gambiae | 273109044 | 12847 | 15183 | 12843 | 14697 | 8 | n.a. | 8 | 19 |
Apis mellifera | 219629612 | 15317 | 15530 | 15314 | 15314 | 16 | n.a. | 16 | 19 |
Bombyx mori | 480775871 | 14630 | 15882 | 14623 | 14623 | n.a. | 36744 | 43622 | 17 |
Danaus plexippus 1 | 272853388 | 16265 | 16962 | 16254 | 16254 | n.a. | 13242 | 13318 | 18 |
Danaus plexippus 3 | 248564116 | 15130 | n.a. | n.a. | n.a. | n.a. | 867 | 5397 | 4 |
Dendroctonus ponderosae | 252847629 | 13091 | 13689 | 13088 | 13457 | n.a. | 7276 | 8133 | 19 |
Drosophila melanogaster | 168736537 | 14176 | 28196 | 13937 | 26950 | 7 | n.a. | 7 | 18 |
Heliconius melpomene | 273786188 | 12669 | 16170 | 12669 | 12829 | n.a. | 4249 | 4309 | 14 |
Locusta migratoria | 5759798599 | n.a. | n.a. | 798 | 2646 | n.a. | n.a. | 1397429 | n.a. |
Manduca sexta | 399655158 | 15542 | 172 | 27403 | 27403 | n.a. | 2451 | Contigs: 38380 | 7 |
Melitaea cinxia | 389907520 | 16723 | 16745 | 16674 | 16674 | n.a. | 8260 | 8261 | 12 |
Plutella xylostella | 336850047 | n.a. | 18071 | n.a. | 18071 | n.a. | 1383 | 1793 | 2 |
Nasonia vitripennis | 356728377 | 17282 | 18112 | 17083 | 17174 | 5 | n.a. | 5 | 20 |
Rhodnius prolixus | 702642977 | 15443 | 16702 | 15429 | 15441 | n.a. | 27483 | 27870 | 19 |
Tribolium castaneum | 210566138 | 16533 | 16953 | 16524 | 16526 | 10 | n.a. | 10 | 20 |
Bei den zu untersuchenden Metazoa-Spezies wurden verschiedene Typen annotiert. Eine Auflistung dieser zeigt Tabelle 2.
Typen | Acyrthosiphon pisum | Anopheles gambiae | Apis mellifera | Bombyx mori | Danaus plexippus 1 | Danaus plexippus 3 | Dendroctonus ponderosae | Drosophila melanogaster | Heliconius melpomene | Manduca sexta | Melitaea cinxia | Nasonia vitripennis | Plutella xylostella | Rhodnius prolixus | Tribolium castaneum |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
gene | 36198 | 12847 | 15317 | 14630 | 16265 | 15130 | 13091 | 14176 | 12669 | 15542 | 16723 | 17282 | 0 | 15443 | 16533 |
pseudogene | 1488 | 10 | 0 | 0 | 12 | 0 | 0 | 366 | 0 | 0 | 0 | 3142 | 0 | 100 | 24 |
transcript | 36724 | 15183 | 15530 | 15882 | 16962 | 0 | 13689 | 28196 | 16170 | 127 | 16745 | 18112 | 0 | 16702 | 16953 |
mRNA | 0 | 0 | 0 | 0 | 0 | 15130 | 0 | 0 | 0 | 27403 | 0 | 0 | 18071 | 0 | 0 |
CDS | 164431 | 62408 | 81526 | 79783 | 95713 | 101578 | 79897 | 141885 | 84599 | 206965 | 96860 | 91321 | 116956 | 89097 | 71744 |
exon | 184739 | 66485 | 85044 | 86288 | 96836 | 101578 | 80217 | 162331 | 95271 | 219222 | 102157 | 104404 | 0 | 92864 | 72366 |
five_prime_UTR | 32115 | 7706 | 5944 | 0 | 0 | 0 | 5268 | 25528 | 9160 | 0 | 7709 | 1504 | 0 | 3360 | 60 |
three_prime_UTR | 33840 | 7381 | 6767 | 0 | 0 | 0 | 5912 | 25772 | 8996 | 0 | 5438 | 9048 | 0 | 4014 | 63 |
non_canonical_5'_splice_site | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 8 | 0 | 0 | 0 | 0 | 0 |
non_canonical_3'_splice_site | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 0 | 0 | 0 | 0 | 0 |
RNA | 15 | 10 | 4 | 2 | 2 | 0 | 3 | 0 | 0 | 0 | 0 | 15 | 0 | 17 | 3 |
rRNA | 126 | 53 | 60 | 108 | 74 | 0 | 16 | 160 | 87 | 0 | 5 | 41 | 0 | 85 | 8 |
rRNA_gene | 126 | 53 | 60 | 108 | 74 | 0 | 16 | 160 | 87 | 0 | 5 | 41 | 0 | 85 | 8 |
miRNA | 143 | 187 | 88 | 4547 | 208 | 0 | 32 | 307 | 106 | 0 | 0 | 146 | 0 | 75 | 69 |
miRNA_gene | 143 | 187 | 88 | 4547 | 208 | 0 | 32 | 0 | 106 | 0 | 0 | 146 | 0 | 75 | 69 |
snoRNA | 67 | 12 | 16 | 21 | 26 | 0 | 11 | 288 | 0 | 0 | 0 | 27 | 0 | 11 | 13 |
snoRNA_gene | 67 | 12 | 16 | 21 | 26 | 0 | 11 | 288 | 0 | 0 | 0 | 27 | 0 | 11 | 13 |
snRNA | 61 | 38 | 26 | 570 | 101 | 0 | 28 | 31 | 0 | 0 | 40 | 44 | 0 | 333 | 25 |
snRNA_gene | 61 | 38 | 26 | 570 | 101 | 0 | 28 | 31 | 0 | 0 | 40 | 44 | 0 | 333 | 25 |
tRNA_gene | 0 | 0 | 0 | 0 | 0 | 0 | 214 | 314 | 2373 | 0 | 22 | 344 | 0 | 220 | 215 |
pseudogenic_tRNA | 136 | 9 | 6 | 741 | 57 | 0 | 12 | 0 | 968 | 0 | 0 | 380 | 0 | 1010 | 200 |
ncRNA_gene | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 538 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
biological_region | 36669 | 0 | 11181 | 45210 | 5583 | 0 | 51395 | 16791 | 3560 | 0 | 0 | 19386 | 0 | 0 | 4697 |
repeat_region | 1761695 | 574635 | 939698 | 1223669 | 628904 | 0 | 210119 | 370070 | 888787 | 0 | 2219011 | 562776 | 0 | 1628171 | 301628 |
Die Tabelle zeigt zum einen Gene, Pseudogene, Transkripte und mRNA. mRNA wurde nur bei drei Spezies annotiert, wobei da keine oder nur wenige Transkripte annotiert wurden. Die Anzahl der Transkripte/mRNAs ist dabei stehts größer als die der Gene. Zum anderen wurden codierende Sequenzen (CDS), Exon, sowie 3' und 5' UTR annotiert. Dabei beinhalten Exons die CDS sowie die 3' und 5' UTRs. Die UTRs wurden jedoch in 5 Spezies garnicht annotiert und sind in den anderen Spezies zahlenmäßig unterrepräsentiert. In Manduca sexta wurden zudem noncanonical 5' und 3' splice sites annotiert. Noncanonical Splicing ist ein Prozess bei dem mit Hilfe des Minor Spliceosoms untypische Introns (U12-Typ) entfernt werden können. Im Gegensatz dazu ist das cannonical Splicen U2-abhängig. Des Weiteren werden verschiedene RNAs annotiert. Es treten rRNA(Gene), miRNA(Gene), snoRNA(Gene), snRNA(Gene),tRNA (Pseudo-)Gene und ncRNA Gene auf. Zudem wurde in einigen Spezies RNA annotiert. Es fällt auf, dass *RNA und *RNA Gene jeweils den gleichen Wert ergibt. Außerdem gibt es Sequenzabschnitte, die als Biologische Regionen bezeichnet werden. Zudem sind Repeat Regionen annotiert, die in großer Häufigkeit auftreten.
Die erstellten Histogramme des Langenvergleichs der Gene und Proteine sind dem Link 'Längenvergleich' zu entnehmen. Dabei wurden die Proteine und Gene aus den gff3- und fasta-files nach ihrer Länge in 50nt Gruppen aufgeteilt und deren Häufigkeit gegen die Länge aufgetragen. Dabei sind die Gene in orange dargestellt und die Proteine in blau. Die Länge der Proteine wurde mit drei multipliziert um sie mit den Genen vergleichen zu können (Triplettcode). Bei allen Spezies zeigt sich sowohl bei den Genen als auch bei den Proteinen ein typischer Kurvenverlauf. Es gibt viele kurze Gene/Proteine und die Häufigkeit nimmt ab, je größer die Gene/Proteine werden.
Mit hilfe des Outputs von Proteinortho wurden folgende Fragen beantwortet.
Wieviele dpl Gene kommen nicht im proteinortho-output vor?
Für dpl1 wurde mit dem unter 2) Vorgehensweise angegebenen Befehl 13446 Gene gefunden (Header wurde manuell abgezogen). Diese Zahl wurde von der in der Übersichtstabelle angegebenen Anzahl Gene (gff), 16254, subtrahiert. Somit ergibt sich für Danaus plexipus_1 ein Wert von 2808 Gene.
Mit den Daten von Danaus plexipus_3 wurde ebenso verfahren. Somit ergab sich in diesem Fall ein Wert von 15130-13344= 1786 Genen, die nicht im proteinortho-output vorkommen.
Wie unterscheiden sich die Spalten dpl1 und dpl3?
In dpl1 wurden im proteinortho-output nur die Genbezeichnung EHJ… angegeben.
Bei dpl3 hingegen wurden die Gene mit der Bezeichnung DPOGS…-PA versehen, was auf Protein hindeuted.
Um diese Frage detailierter zu beantworten wurden folgene Unterfagen erstellt:
Wie viele Familien gibt es, in denen Gene in dpl1 vorkommen und in dpl3 nicht; und umgekehrt?
Es wurden 2130 Familien gefunden in denen in dpl1 Gene vorkommen, in dpl3 aber nicht.
Zudem wurden 1992 Gen-Familien in dpl3 gefunden, in denen keine Gene von dpl1 vorkommen.
Wie viele Gene sind in dpl1 und dpl3 dupliziert?
Es wurden insgesamt 125 Gene ermittelt, die in dpl1 dupliziert sind.
Außerdem kamen 160 Gene vor, die in dpl3 dupliziert vorlagen
Wie viele Gene sind in dpl1 dupliziert und in dpl3 nicht; und umgekehrt?
Es wurden 125 Gene ermittelt, die in dpl1 dupliziert sind, aber nicht in dpl3.
Außerdem kamen 160 Gene vor, die in dpl3 aber dpl1 nicht dupliziert vorlagen.
Vergleicht man diese Ergebnisse mit denen aus 2b. kommt man zu dem Schluss, dass kein Gen sowohl in dpl1 als auch in dpl3 dupliziert vorliegt.
Welche Gene von dpl sind nur in dpl dupliziert?
In Danaus plexipus_1 und _3 wurden je 75 Gene gefunden, die dupliziert vorlagen, in allen anderen Spezien aber nicht dupliziert wurden. Es handelt sich dabei um verschiedene Gene, da kein Gen sowohl in dpl1 als auch in dpl3 dupliziert vorliegt. (siehe 2c.)
Für den Vergleich der Sequenz, sowie der Struktur der miRNA Familien wurde exemplarisch die Familie MIPF0000029_mir-133 ausgewählt. In dieser wurden 14 miRNAs gefunden und paarweise aligned. Es wurden die Scores verglichen und alle Scores unter 30 speziell betrachted. Dabei wiesen zwei der Alignments einen Score unter 30 auf. Es handelt sich um das Alignment von aga-mir-133 mit dpl3-mir-133 sowie dme-mir-133 mit dpl3-mir-133. Abbildung 3 zeigt dieses Sequenzalignment eingefärbt nach Basen-Identität und der Struktur in der Klammer-Punkt-Schreibweise der 14 miRNAs.
Es zeigt sich eine hohe Übereinstimmung Struktur. Die Klammern zeigen Basenpaare und die Punkte Loops. Bei der Struktur handelt es sich also um Hairpins. Auch die Basenidentität ist v. a. in den Stem-Regionen des Hairpins sehr gut. Am höhsten ist diese Übereinstimmung auf der rechten Seite, was darauf schließen läßt, das es sich dabei um die miRNA handelt.
Es treten zwei Auffälligkeiten auf. Zum einen ist die Sequenz der aga-mir-133 sehr kurz. Somit kann die linke Seite nicht mit den anderen miRNAs verglichen werden. Dies hat außerdem zur Folge, dass die ermittelte Struktur sehr stark von der der anderen Sequenzen abweicht. Zum andern fällt die miRNA dpl3-mir-133 auf. Hier sind vor allem auf der rechten Seite im konservierten Bereich einige Basen mutiert. Somit ist auch der niedrige Score bei dem Alignment zu erklären.
Das Alignment wurde zudem zur besseren Veranschaulichung noch nach den konservierten Basen eingefärbt. Dies ist in Abbildung 4 zu sehen.
Auch hier zeigt sich, dass v. a. die Stem-Regionen stark konserviert sind. Zudem wird erneut verdeutlicht, dass rechts der längere konservierte Bereich ist und die miRNA dpl3-mir-133 hier die meisten Abweichungen zeigt. Abbildung 5 stellt die konservierte Struktur der MIPF0000029_mir-133 Familie dar.
Es ist ein Hairpin zu erkennen, bei dem auf der linken Seite einige Basen eingekreist sind. Diese zeigen die Möglichkeit von untypische Basenpaarungen (z. B. G-U oder A-U) an.
Die Anzahl der Gene sowohl aus den gff3-files als auch aus den Fasta-files weichen in den meisten Spezies leicht voneinander ab. Um dies zu erklären müssten die abweichenden Gene im einzelnen betrachtet und näher untersucht werden.
Auch die Anzahl der Gene und der Proteine, welche beide aus dem Fasta-file ermittelt wurden, weichen teilweise stark voneinenader ab. Dies kann damit erklärt werden, dass ein Gen mehrere Proteine codieren kann (alternatives Splicen).
Unterschiede in der Annotation sind erklärbar, da es keine einheitlichen Vorschriften für eine Annotation gibt. Ob Chromosomen oder Scaffolds annotiert wurden liegt an den bereits vorhandenen Informationen zu den Spezies, die sich teilweise stark unterscheiden. Bei gut untersuchten Spezies gibt es viele Informationen zum Genom und der Verteilung der Gene auf den Chromosomen. Bei anderen Spezies sind diese Daten noch nicht erfasst worden.
Die Anzahl der Chromosomen bzw. Scaffolds unterscheiden sich zwischen den Daten aus dem gff (annotierte Daten) und dem Genom-Fastafile (Gesamtdaten) meist nur gering. D. h. es wurden auf fast allen Chromosomen/Scaffolds auch Daten annotiert. Bei Manduca sexta wurden im gff Scaffolds und im Genom-fasta Contigs angegeben. Dies erklärt hier den großen Unterschied.
Die Auflistung der verschiedenen Annotationstypen zeigt, dass zwischen den zu untersuchenden Spezies teilweise sehr große Unterschiede in der Annotation auftreten. In einigen Spezies wurden Gene und Transkripte annotiert, wobei aus den Zahlen hervorgeht, dass einige Transkripte mehr als ein Gen ergeben. Dies kann durch alternatives Splicen ermöglicht werden. In anderen Spezies sind Gene und mRNA annotiert. Transkripte und mRNA können also als Synonym bzeichnet werden. Als Pseudogene werden Gene bezeichnet, die abgeschnitten erscheinen, basierend auf Sequenzähnichkeit zu einem andern Gen im Genom oder deren GC-Gehalt. Sie sind nicht zwingend identisch zu einem anderen Gen, weil nicht funktionstüchtig sind und somit nicht unter Selektionsdruck stehen.
Zum anderen fällt bei den Exons, CDS und UTRs auf, dass es viel weniger UTRs als CDS gibt. Diese Zahlen sollten identisch sein. Möglicherweise wurden die UTRs beim Sequenziern nicht mit erfasst oder bei der Annotation nicht als solche erkannt und anders benannt. Es ist vorstellbar, dass einige UTRs unter der Kategorie 'biologische Regionen' zu finden wären. Bei dieser Einteilung handelt es sich um Sequenzabschnitte mit biologischer Funktion. Dies kann von RNAs über CDS bis hin zu repeats alles sein. Es handet sich wahrscheinlich um Sequenzabschnitte, die nicht zugeordnet werden konnten.
Um die verschiedenen RNAs zu annotieren, werden verschiedenen Methoden angewendet. miRNAs beispielsweise werden ermittelt, indem die Sequenzabschnitte mittels BLASTN gegen miRBase Sequenzen verglichen werden. Die tRNAs werden mit tRNAscan-SE ermittelt. Zu jeder annotierten miRNA gibt es je ein miRNA Gen. Dies trifft auch bei rRNAs, snRNAs und snoRNAs zu.
Die erstellten Histogramme des Längenvergleichs zeigen alle sowohl bei den Genen als auch bei den Proteinen ein typischer Kurvenverlauf. Es gibt viele kurze Gene/Proteine und die Häufigkeit nimmt ab, je größer die Gene/Proteine werden.
Die Daten von dpl1 und dpl3 weisen bei den meisten Fragen große Unterschiede auf. Das ist auf die Herkunft der Annotationsdaten zurückzuführen. Die Informationen zur Annotation von ENSEMBL (dpl1) sind wesentlich ausführlicher als diese aus der Monarchbase (dpl3). Bei Letzteren wurde das Augenmerk vor allem auf Gene, mRNA, Exons und CDS gelegt und keine weiteren Typen, wie z.B. RNA, Repeats, Pseudogene annotiert.
Mittels Proteinortho wurden in den zu untersuchenden Spezies Orthologe (Homologe in verschiedenen Spezies) ermittelt. Die meisten Gene des Danaus plexipus treten als Orthologe auch in den anderen zu untersuchenden Spezies auf. Zudem gibt es ca. 2000 Gene im Monarchfalter, die in den anderen Spezies fehlen. Dies kann mehrere Ursachen haben. Zum einen können im Danaus plexipus Genduplikationen (Paraloge) oder Mutationen aufgetreten sein. Diese Unterschiede haben evolutionsgeschichtliche Ursachen und führen zur Diversität der verschiedenen Spezies, denn mit dem selben Genpool würde es keine Aufspaltung in mehrere Spezies geben. Zum anderen könnten einige Gene dabei sein, die in den anderen Spezies nicht annotiert worden sind, wo aber eigentlich Orthologe da sind. Diese werden, wenn überhaupt, eine Minderheit bilden.
Aus den Ergebnissen des miRNA Alignments zeigt sich, dass in dieser Familie die Struktur und auch die Sequenz konserviert vorliegt. Es zeigt sich auch, dass dabei die rechte Seite des Hairpins am stärksten konserviert ist. Somit läßt sich vermuten, dass auf diese Seite die funktionelle miRNA ist. Ausnahmen dieser starken Konservierung bilden aga-mir-133 und dpl3-mir-133. Im ersten Fall wurde sich eventuell eine Verbesserung des Alignments ergeben, wenn die Sequenz v. a. auf der linken Seite verlängert werden würde. Im Fall der dpl3-mir-133 sind jedoch so viele Mutationen in wichtigen Bereichen aufgetreten, dass die Vermutung nahe liegt, dass diese miRNA nicht mehr funktionell ist.
Die in Abbildung 5 dargestellte konservierte Hairpin-Struktur zeigt durch die eingekreisten Basen auf der linken Seite, dass die Struktur stärker konserviert ist als die Sequenz. Da diese Möglichkeiten der Mutation auf der linken Seite liegen, kann auch mit Hilfe dieser Abbildung festgestellt werden, dass die miRNA auf der rechten Seite des Hairpins liegt.
http://www.bioinf.uni-leipzig.de/teaching/currentClasses/class190.html
http://monarchbase.umassmed.edu/home.html
http://metazoa.ensembl.org/index.html
http://www.ncbi.nlm.nih.gov/assembly/