Statistik

Praktikumszeitraum: 12.01. - 23.01.2015

Gruppe: PRAK10

1) Einleitung/Aufgabenstellung

Von den in Abbildung 1 abgebildeten Metazoa-Spezies sollten statistische Werte erhoben werden. Hierbei sollten Werte wie Genomgröße, Anzahl der Gene und Proteine ermittelt, sowie die annotierten Daten bezüglich der Chromosomen bzw. Scaffolds und der Typen (Gene, CDS, Exons, RNAs, …) ausgewerted werden. Besonderes Augenmerk wird dabei auf den Monarchfalter, Danaus plexipus (dpl), gelegt. Hierbei wurden zum einen Daten aus der Datenbank ENSEMBL entnommen, welche im Weiteren als Danaus plexipus_1 (dpl1) bezeichnet werden. Zum anderen wurden Daten aus der Monarchbase verwendet. Diese Daten werden unter dem Namen Danaus plexipus_3 (dpl3) aufgeführt.

Abbildung 1: Phylogenetischer Baum der zu untersuchenden Metazoa-Spezies

2) Vorgehensweise

Genomgröße

fastalength /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa> | awk 'BEGIN{len=0}{len += $1}END{print len}'

Mit dem Befehl fastalength wird die Anzahl der Aminosäuren jedes Proteins, welches im fasta-file enthalten ist, ausgegeben. Der anschließende awk-Befehl summiert diese Werte auf und gibt somit zum Abschluss die gesuchte Genomgröße aus.

Anzahl Gene und Proteine

Um die Anzahl der Gene und Proteine der zu untersuchenden Spezies zu bestimmen wurden zur Vorbereitung der nachfolgenden Vorgehensweisen die Ordner gff3/ und pep.fa/ erstellt und mit den jeweiligen Daten für alle Metazoa-Spezies befüllt.

Gene aus *.gff3

for file in *; do awk '{print $3}' $file | grep '^gene$' | wc -l >> ../genes_gff; done

Ausgeführt im Ordner gff3/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Mit dem awk-Befehl wird die dritte Spalte des aktuellen gff-files ausgewählt und mit grep nach dem Typ 'gene' durchsucht. Zum Abschluss wird die Anzahl der Treffer mit wc -l aufsummiert und an die Datei 'genes_gff' gehängt, in der, nach dem Fertigstellen der Schleife, die Anzahl der Gene für alle Spezies zu finden ist.

Transkripte aus *.gff3

for file in *; do awk '{print $3}' $file | grep '^transcript$' | wc -l >> ../transcripts; done

Ausgeführt im Ordner gff3/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Mit dem awk-Befehl wird die dritte Spalte des aktuellen gff-files ausgewählt und mit grep nach dem Typ 'transcript' durchsucht. Zum Abschluss wird die Anzahl der Treffer mit wc -l aufsummiert und an die Datei 'transcripts' gehängt, in der, nach dem Fertigstellen der Schleife, die Anzahl der Transkripte für alle Spezies zu finden ist.

Gene aus *.fa

for file in *; do awk '{if ($1 ~/^>/){print $4}}' $file | uniq | wc -l >> ../genes_fa; done

Ausgeführt im Ordner pep.fa/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Wenn die erste Spalte des fasta-files mit einem > beginnt und somit den Header eines Proteins repräsentiert, gibt der awk-Befehl die vierte Spalte aus. In dieser Spalte steht welches Gen die Information zum aktuellen Protein enthält. Anschließend wird mit uniq dafür gesorgt, dass jedes Gen nur einmal aufgezählt wird und zum Abschluss werden die verschiedenen Gene mit wc -l gezählt und in die Datei 'genes_fa' angehängt, in der, nach Fertigstellen der Schleife, die Anzahl der Gene für alle Spezies zu finden ist.

Proteine aus *.fa

for file in *; do awk '{if ($1 ~/^>/){print $1}}' $file | wc -l >> ../proteins; done

Ausgeführt im Ordner pep.fa/ wird mit Hilfe der for-Schleife für jede Spezies folgendes ausgeführt:
Wenn die erste Spalte des fasta-files mit einem > beginnt und somit den Header eines Proteins repräsentiert, gibt der awk-Befehl diese Spalte aus. Im Anschluss wird mit wc -l die Anzahl der Header und somit auch der Proteine bestimmt und an die Datei 'proteins' gehängt, in der, nach Fertigstellen der Schleife, die Anzahl der Proteine für alle Spezies zu finden ist.

Annotierte Daten

Bei den nachfolgenden Untersuchungen mussten die Daten vorher im Einzelnen näher betrachtet werden um z.B. herauszufinden ob eine Annotation auf Chromosomen oder Scaffolds basiert. Deswegen sind diese Daten für jede Spezies einzeln erhoben worden.

Anzahl Chromosome bzw. Scaffolds

Zum einen wurden Daten aus dem gff-file bezogen, um die Annotationsdaten zu analysieren.

grep -v '^#' ../gff3/<*.gff3> | awk '{print $1}' | sort | uniq | wc -l

Mit Hilfe von grep -v '^#' werden zunächst nur die Zeilen betrachtet, die nicht mit einem '#' beginnen, also keine Kommentarzeilen sind. Der anschließende awk-Befehl gibt die erste Spalte des gff-files weiter, welche danach mittels sort sortiert und mittels uniq von Duiplikaten befreit wird. Abschließend wird die Anzahl der unterschiedlichen Chromosomen bzw. Scaffolds mit wc -l bestimmt und ausgegeben.

Zum anderen wurden die Chromosome bzw. Scaffolds aus dem Genom-fasta-files bestimmt

grep -c '>' /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa>

Mit dem grep-Befehl wurden die Header der fasta-files aufsummiert.

Anzahl Typen

grep -v '^##' ../gff3/<*.gff3> | awk '{print $3}' | sort | uniq | wc -l

Mit Hilfe von grep -v '^#' werden zunächst nur die Zeilen betrachtet, die nicht mit einem '#' beginnen, also keine Kommentarzeilen sind. Der anschließende awk-Befehl gibt die dritte Spalte des gff-files weiter, welche danach mittels sort sortiert und mittels uniq von Duiplikaten befreit wird. Abschließend wird die Anzahl unterschiedlichen Typen mit wc -l bestimmt und ausgegeben.

Typenauflistung

for species in *; do grep -v '^#' $species | awk '{print $3}' | sort | uniq -c > $species.types; done

grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 2.1 - <*.gff3.types> | sed 's/ /\t/g'

grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 1.3 2.1 - <*.gff3.types> | sed 's/ /\t/g'

…

grep -v '^#' types | join -a1 -a2 -1 1 -2 2 -e "0" -o 0 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 1.15 2.1 - <*.gff3.types> | sed 's/ /\t/g'

Im ersten Schritt der Erstellung einer Auflistung aller Typen für jede Spezies sind wir wie folgt vorgegangen:
Zunächst wurde im Ordner gff3/ mittels einer for-Schleife über alle Spezies-Daten iteriert. In jeder Datei wurden mit Hilfe von grep -v '^#' nicht-Kommentarzeilen herausgefiltert und anschließend mit dem awk-Befehl die dritte Spalte weitergegeben um diese dann mittels sort zu sortieren und mittels uniq -c von Duplikaten zu befreien und zugleich die jeweilige Anzahl an Duplikaten des entsprechenden Typs in eine Datei mit dem durchsuchten Dateinamen zuzüglich der Endung '.types' abzuspeichern.

Im zweiten Schritt wurden diese Daten dann in einer Datei namens 'types' wie folgt zusammengeführt:
Mit Hilfe von grep -v '^#' wurde die erste Zeile der Datei vor dem Zusammenführen extrahiert. Anschließend wurden mittels join alle Spalten der 'types'-Datei mit der ersten Spalte der Typen einer Spezies vereinigt und mit dem sed-Befehl Leerzeichen durch Tabulatoren ersetzt. Die resultierende Ausgabe wurde nun in 'types' kopiert und die Datei abgespeichert. Anschließend wurde die Auswahl der Spalten auf die neuen Daten angepasst und der Vorgang wiederholt bis alle Spezies in einer Datei zusammengeführt waren.

Längenverteilung

Die Längenverteilung der Gene und Proteine für jede Spezies wurde mit R und dem Script comparison.R in Histogrammen pro Spezies und mit dem Script allinone.R alle Proteinlängen und alle Genlängen jeweils auf einer Seite dargestellt.

Den Daten liegen zwei Dateien pro Spezies zu Grunde, z.B. aga.pep.fastalength.lst für die Längen der Proteine und Anopheles_gambiae.AgamP4.24.count für die Längen der Gene.

Abbildung 2 wurde mit Hilfe von count_all.ods erstellt.

fastalength /scr/genomes/Metazoan-Animals/<Species>/<Source>/<*.fa> > <*.fastalength.lst>

Mit dem Befehl fastalength wird die Anzahl der Aminosäuren jedes Proteins, welches im fasta-file enthalten ist, ausgegeben.

awk '{if ($3 ~/^gene$/){print $5-$4}}' <*.gff3> > <*.count>

Mit dem awk-Befehl wird zuerst überprüft ob es sich bei der aktuellen Zeile um ein Gen handelt, anschließend wird die Differenz aus Spalte 5 (Sequenzende) und Spalte 4 (Sequenzanfang) gebildet und ausgegeben.

Proteinortho: Unterschiede zu Danaus plexipus

Die Spalten 4-18 geben die verschiedenen Spezies aus, wobei in Spalte 10 Danaus plexipus_1 und in Spalte 11 Danaus plexipus_3 dargestellt wird.

Wie viele dpl Gene kommen nicht im proteinortho-output vor?

awk '{if ($11 ~/[^*]/){col=$11; gsub(/,/,"\n",col);print col}}' proteinortho.poff | sort | uniq | wc -l

awk '{if ($10 ~/[^*]/){col=$10; gsub(/,/,"\n",col);print col}}' proteinortho.poff | sort | uniq | wc -l

Ein '*' in proteinortho.poff gibt an, dass entsprechendes Gen in dieser Spezies nicht vorhanden ist. Mit dem awk-Befehl wird die Spalte, in der sich Danaus plexipus_1 bzw. _3 befinden nur dann weitergeleitet, wenn dort ein Gen erkannt wurde. Mit gsub werden die mit Komma getrennten Gene in eigene Zeilen aufgetrennt. Anschließend werden die Gene mittels sort sortiert und mittels uniq von Duplikaten befreit. Zum Abschluss werden die unterschiedlichen Gene mit wc -l gezählt und das Ergebnis ausgegeben.
Wie unterscheiden sich die Spalten dpl1 und dpl3?
1. Wie viele Familien gibt es, in denen Gene in dpl1 vorkommen und in dpl3 nicht und umgekehrt?
  - dpl1 aber dpl3 nicht
    
    awk '{if ($10 != "*" && $11 == "*")print $0}' proteinortho.poff | wc -l
    
    Mit Hilfe des awk-Befehls wird hier überprüft, ob in der aktuellen Familie bei dpl1 mindestens ein Gen vorliegt und bei dpl3 keins, letzteres wird durch einen '*' repräsentiert. Mittels print $0 wird die gesamte Zeile weitergeleitet und alle Zeilen mit wc -l aufsummiert.
  - dpl3 aber dpl1 nicht
    
    awk '{if (($10 == "*" && $11 != "*"))print $0}' proteinortho.poff | wc -l
    
    Mit Hilfe des awk-Befehls wird hier überprüft, ob in der aktuellen Familie bei dpl1 kein Gen gefunden wurde, was durch einen '*' repräsentiert wird, und bei dpl3 mindestens ein Gen vorliegt. Mittels print $0 wird die gesamte Zeile weitergeleitet und alle Zeilen mit wc -l aufsummiert.
2. Wie viele Gene sind in dpl1 und dpl3 dupliziert?
  
  awk '{if ($10 ~/,/){print $10}}' proteinortho.poff | wc -l
  
  awk '{if ($10 ~/,/){print $11}}' proteinortho.poff | wc -l
  
  Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 bzw. dpl3 ein Komma zu finden ist, die Gene also dupliziert vorliegen, und diese anschließend mit wc -l aufsummiert.
3. Dupliziert in dpl1 und in dpl3 nicht und umgekehrt?
  - dpl1 aber dpl3 nicht
    
    awk '{if ($10 ~/,/ && $11 ~/[^,]/)print $0}' proteinortho.poff | wc -l
    
    Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 ein Komma zu finden ist und in der Spalte von dpl3 keins. Ein Komma findet sich bei einer Auflistung mehrerer Gene, was einer Duplizierung entspricht.
  - dpl3 aber dpl1 nicht
    
    awk '{if ($10 ~/[^,]/ && $11 ~/,/)print $0}' proteinortho.poff | wc -l
    
    Mit Hilfe des awk-Befehls wird hier überprüft ob in der Spalte von dpl1 kein Komma zu finden ist, jedoch in der Spalte von dpl3 eins vorkommt. Ein Komma findet sich bei einer Auflistung mehrerer Gene, was einer Duplizierung entspricht.
Welche Gene von dpl sind nur in dpl dupliziert?

awk '{found = 0;if ($10 ~/,/){for (i=4;i<10;i++){if ($i ~/,/){found=1; break}}for (i=12;i<19;i++){if ($i ~/,/){found=1; break}}if (found!=1)print $0}}' proteinortho.poff | wc -l

awk '{found = 0;if ($11 ~/,/){for (i=4;i<10;i++){if ($i ~/,/){found=1; break}}for (i=12;i<19;i++){if ($i ~/,/){found=1; break}}if (found!=1)print $0}}' proteinortho.poff | wc -l

Mit Hilfe des awk-Befehls werden hier alle Spezies auf Duplikate überprüft. Dies wird mittels einer Suche nach einem Komma realisert. Die aktuell untersuchte Zeile wird nur ausgegeben, wenn in den Spalten 4-9 und 12-18 kein Komma gefunden werden konnte, aber in Spalte 10 für dpl1 eine Duplizierung vorliegt.

Vergleich der miRNA Familien

Das Alignment der miRNA Familien wurde von Gruppe PRAK09 erstellt. Diese Daten wurden mit Clustalx beispielhaft an einer miRNA Familie ausgewertet. Zusätzlich wurde die Faltung mit dem Programm RNAalifold für diese Familie berechnet.

3) Ergebnisse

Übersichtstabelle

Die Genomgrößen, Anzahl Gene, Transkripte, Proteine, Chromosomen, Scaffolds und Typen der zu untersuchenden Metazoa-Spezies werden in Tabelle 1 dargestellt.

Die Anzahl der Gene wurde sowohl aus den gff3-files, als auch aus den Fasta-files ermittelt. Hierbei fällt auf, dass beide Werte in den meisten Spezies leicht voneinander abweichen.

Auch die Anzahl der Gene und Proteine, welche beide aus dem Fasta-file ermittelt wurden, weichen teilweise stark voneinenader ab.

Bei den annotierten Daten wurden entweder Chromosomen oder Scaffolds annotiert. Bei Scaffolds handelt es sich um Teile von Genomsequenzen, welche aus end-sequenced whole-genome shotgun Klonen rekonstruiert wurden. Sie bestehen aus Contigs und Gaps. Zudem werden vorschiedene Typen annotiert. Hier weicht die Anzahl und auch Art der Annotationstypen in den verschiedenen Spezies stark voneinander ab. Die Annotationstypen der verschiedenen Spezies sind in Tabelle 2 zusammengefasst. Wenn keine Daten vorhanden waren, wurde dieses Feld mit n.a. (not available) gekennzeichnet.

Tabelle 1: Übersicht der Genomgrößen, sowie Anzahl Gene, Transkripte, Proteine, Chromosomen, Scaffolds und Typen der zu untersuchenden Metazoa-Spezies
Spezies-Name	Genomgröße	Anzahl Gene (gff)	Anzahl Transkripte	Anzahl Gene (fa)	Anzahl Proteine	Anzahl Chromosomen (gff)	Anzahl Scaffolds (gff)	Anzahl Chromosomen/Scaffolds (Genom)	Anzahl Typen
Acyrthosiphon pisum	541675471	36198	36724	36195	36195	n.a.	23185	23924	20
Anopheles gambiae	273109044	12847	15183	12843	14697	8	n.a.	8	19
Apis mellifera	219629612	15317	15530	15314	15314	16	n.a.	16	19
Bombyx mori	480775871	14630	15882	14623	14623	n.a.	36744	43622	17
Danaus plexippus 1	272853388	16265	16962	16254	16254	n.a.	13242	13318	18
Danaus plexippus 3	248564116	15130	n.a.	n.a.	n.a.	n.a.	867	5397	4
Dendroctonus ponderosae	252847629	13091	13689	13088	13457	n.a.	7276	8133	19
Drosophila melanogaster	168736537	14176	28196	13937	26950	7	n.a.	7	18
Heliconius melpomene	273786188	12669	16170	12669	12829	n.a.	4249	4309	14
Locusta migratoria	5759798599	n.a.	n.a.	798	2646	n.a.	n.a.	1397429	n.a.
Manduca sexta	399655158	15542	172	27403	27403	n.a.	2451	Contigs: 38380	7
Melitaea cinxia	389907520	16723	16745	16674	16674	n.a.	8260	8261	12
Plutella xylostella	336850047	n.a.	18071	n.a.	18071	n.a.	1383	1793	2
Nasonia vitripennis	356728377	17282	18112	17083	17174	5	n.a.	5	20
Rhodnius prolixus	702642977	15443	16702	15429	15441	n.a.	27483	27870	19
Tribolium castaneum	210566138	16533	16953	16524	16526	10	n.a.	10	20

Rohdaten

Typentabelle

Bei den zu untersuchenden Metazoa-Spezies wurden verschiedene Typen annotiert. Eine Auflistung dieser zeigt Tabelle 2.

Tabelle 2: Auflistung der verschiedenen Annotationstypen für die zu untersuchenden Metazoa-Spezies
Typen	Acyrthosiphon pisum	Anopheles gambiae	Apis mellifera	Bombyx mori	Danaus plexippus 1	Danaus plexippus 3	Dendroctonus ponderosae	Drosophila melanogaster	Heliconius melpomene	Manduca sexta	Melitaea cinxia	Nasonia vitripennis	Plutella xylostella	Rhodnius prolixus	Tribolium castaneum
gene	36198	12847	15317	14630	16265	15130	13091	14176	12669	15542	16723	17282	0	15443	16533
pseudogene	1488	10	0	0	12	0	0	366	0	0	0	3142	0	100	24
transcript	36724	15183	15530	15882	16962	0	13689	28196	16170	127	16745	18112	0	16702	16953
mRNA	0	0	0	0	0	15130	0	0	0	27403	0	0	18071	0	0

CDS	164431	62408	81526	79783	95713	101578	79897	141885	84599	206965	96860	91321	116956	89097	71744
exon	184739	66485	85044	86288	96836	101578	80217	162331	95271	219222	102157	104404	0	92864	72366
five_prime_UTR	32115	7706	5944	0	0	0	5268	25528	9160	0	7709	1504	0	3360	60
three_prime_UTR	33840	7381	6767	0	0	0	5912	25772	8996	0	5438	9048	0	4014	63

non_canonical_5'_splice_site	0	0	0	0	0	0	0	0	0	8	0	0	0	0	0
non_canonical_3'_splice_site	0	0	0	0	0	0	0	0	0	2	0	0	0	0	0

RNA	15	10	4	2	2	0	3	0	0	0	0	15	0	17	3
rRNA	126	53	60	108	74	0	16	160	87	0	5	41	0	85	8
rRNA_gene	126	53	60	108	74	0	16	160	87	0	5	41	0	85	8
miRNA	143	187	88	4547	208	0	32	307	106	0	0	146	0	75	69
miRNA_gene	143	187	88	4547	208	0	32	0	106	0	0	146	0	75	69
snoRNA	67	12	16	21	26	0	11	288	0	0	0	27	0	11	13
snoRNA_gene	67	12	16	21	26	0	11	288	0	0	0	27	0	11	13
snRNA	61	38	26	570	101	0	28	31	0	0	40	44	0	333	25
snRNA_gene	61	38	26	570	101	0	28	31	0	0	40	44	0	333	25
tRNA_gene	0	0	0	0	0	0	214	314	2373	0	22	344	0	220	215
pseudogenic_tRNA	136	9	6	741	57	0	12	0	968	0	0	380	0	1010	200
ncRNA_gene	0	0	0	0	0	0	0	538	0	0	0	0	0	0	0

biological_region	36669	0	11181	45210	5583	0	51395	16791	3560	0	0	19386	0	0	4697

repeat_region	1761695	574635	939698	1223669	628904	0	210119	370070	888787	0	2219011	562776	0	1628171	301628

Rohdaten

Die Tabelle zeigt zum einen Gene, Pseudogene, Transkripte und mRNA. mRNA wurde nur bei drei Spezies annotiert, wobei da keine oder nur wenige Transkripte annotiert wurden. Die Anzahl der Transkripte/mRNAs ist dabei stehts größer als die der Gene. Zum anderen wurden codierende Sequenzen (CDS), Exon, sowie 3' und 5' UTR annotiert. Dabei beinhalten Exons die CDS sowie die 3' und 5' UTRs. Die UTRs wurden jedoch in 5 Spezies garnicht annotiert und sind in den anderen Spezies zahlenmäßig unterrepräsentiert. In Manduca sexta wurden zudem noncanonical 5' und 3' splice sites annotiert. Noncanonical Splicing ist ein Prozess bei dem mit Hilfe des Minor Spliceosoms untypische Introns (U12-Typ) entfernt werden können. Im Gegensatz dazu ist das cannonical Splicen U2-abhängig. Des Weiteren werden verschiedene RNAs annotiert. Es treten rRNA(Gene), miRNA(Gene), snoRNA(Gene), snRNA(Gene),tRNA (Pseudo-)Gene und ncRNA Gene auf. Zudem wurde in einigen Spezies RNA annotiert. Es fällt auf, dass *RNA und *RNA Gene jeweils den gleichen Wert ergibt. Außerdem gibt es Sequenzabschnitte, die als Biologische Regionen bezeichnet werden. Zudem sind Repeat Regionen annotiert, die in großer Häufigkeit auftreten.

Längenvergleich

Die erstellten Histogramme des Langenvergleichs der Gene und Proteine sind dem Link 'Längenvergleich' zu entnehmen. Dabei wurden die Proteine und Gene aus den gff3- und fasta-files nach ihrer Länge in 50nt Gruppen aufgeteilt und deren Häufigkeit gegen die Länge aufgetragen. Dabei sind die Gene in orange dargestellt und die Proteine in blau. Die Länge der Proteine wurde mit drei multipliziert um sie mit den Genen vergleichen zu können (Triplettcode). Bei allen Spezies zeigt sich sowohl bei den Genen als auch bei den Proteinen ein typischer Kurvenverlauf. Es gibt viele kurze Gene/Proteine und die Häufigkeit nimmt ab, je größer die Gene/Proteine werden.

comparison.pdf

allinone.pdf

: Abbildung 2: Längenverteilung der Gene aller untersuchten Spezies

Proteinortho: Unterschiede zu Danaus plexipus

Mit hilfe des Outputs von Proteinortho wurden folgende Fragen beantwortet.

Wieviele dpl Gene kommen nicht im proteinortho-output vor?

Für dpl1 wurde mit dem unter 2) Vorgehensweise angegebenen Befehl 13446 Gene gefunden (Header wurde manuell abgezogen). Diese Zahl wurde von der in der Übersichtstabelle angegebenen Anzahl Gene (gff), 16254, subtrahiert. Somit ergibt sich für Danaus plexipus_1 ein Wert von 2808 Gene.

Mit den Daten von Danaus plexipus_3 wurde ebenso verfahren. Somit ergab sich in diesem Fall ein Wert von 15130-13344= 1786 Genen, die nicht im proteinortho-output vorkommen.
Wie unterscheiden sich die Spalten dpl1 und dpl3?

In dpl1 wurden im proteinortho-output nur die Genbezeichnung EHJ… angegeben.

Bei dpl3 hingegen wurden die Gene mit der Bezeichnung DPOGS…-PA versehen, was auf Protein hindeuted.

Um diese Frage detailierter zu beantworten wurden folgene Unterfagen erstellt:
1. Wie viele Familien gibt es, in denen Gene in dpl1 vorkommen und in dpl3 nicht; und umgekehrt?
  
  Es wurden 2130 Familien gefunden in denen in dpl1 Gene vorkommen, in dpl3 aber nicht.
  
  Zudem wurden 1992 Gen-Familien in dpl3 gefunden, in denen keine Gene von dpl1 vorkommen.
2. Wie viele Gene sind in dpl1 und dpl3 dupliziert?
  
  Es wurden insgesamt 125 Gene ermittelt, die in dpl1 dupliziert sind.
  
  Außerdem kamen 160 Gene vor, die in dpl3 dupliziert vorlagen
3. Wie viele Gene sind in dpl1 dupliziert und in dpl3 nicht; und umgekehrt?
  
  Es wurden 125 Gene ermittelt, die in dpl1 dupliziert sind, aber nicht in dpl3.
  
  Außerdem kamen 160 Gene vor, die in dpl3 aber dpl1 nicht dupliziert vorlagen.
  
  Vergleicht man diese Ergebnisse mit denen aus 2b. kommt man zu dem Schluss, dass kein Gen sowohl in dpl1 als auch in dpl3 dupliziert vorliegt.
Welche Gene von dpl sind nur in dpl dupliziert?

In Danaus plexipus_1 und _3 wurden je 75 Gene gefunden, die dupliziert vorlagen, in allen anderen Spezien aber nicht dupliziert wurden. Es handelt sich dabei um verschiedene Gene, da kein Gen sowohl in dpl1 als auch in dpl3 dupliziert vorliegt. (siehe 2c.)

Vergleich der miRNA Familien

Sequenzalignment am Beispiel der MIPF0000029_mir-133 Familie

Für den Vergleich der Sequenz, sowie der Struktur der miRNA Familien wurde exemplarisch die Familie MIPF0000029_mir-133 ausgewählt. In dieser wurden 14 miRNAs gefunden und paarweise aligned. Es wurden die Scores verglichen und alle Scores unter 30 speziell betrachted. Dabei wiesen zwei der Alignments einen Score unter 30 auf. Es handelt sich um das Alignment von aga-mir-133 mit dpl3-mir-133 sowie dme-mir-133 mit dpl3-mir-133. Abbildung 3 zeigt dieses Sequenzalignment eingefärbt nach Basen-Identität und der Struktur in der Klammer-Punkt-Schreibweise der 14 miRNAs.

Abbildung 3: Alignment der miRNAs der MIPF0000029_mir-133 Familie, coloriert nach Base-Identity

Es zeigt sich eine hohe Übereinstimmung Struktur. Die Klammern zeigen Basenpaare und die Punkte Loops. Bei der Struktur handelt es sich also um Hairpins. Auch die Basenidentität ist v. a. in den Stem-Regionen des Hairpins sehr gut. Am höhsten ist diese Übereinstimmung auf der rechten Seite, was darauf schließen läßt, das es sich dabei um die miRNA handelt.

Es treten zwei Auffälligkeiten auf. Zum einen ist die Sequenz der aga-mir-133 sehr kurz. Somit kann die linke Seite nicht mit den anderen miRNAs verglichen werden. Dies hat außerdem zur Folge, dass die ermittelte Struktur sehr stark von der der anderen Sequenzen abweicht. Zum andern fällt die miRNA dpl3-mir-133 auf. Hier sind vor allem auf der rechten Seite im konservierten Bereich einige Basen mutiert. Somit ist auch der niedrige Score bei dem Alignment zu erklären.

Das Alignment wurde zudem zur besseren Veranschaulichung noch nach den konservierten Basen eingefärbt. Dies ist in Abbildung 4 zu sehen.

Abbildung 4: Alignment der miRNAs der MIPF0000029_mir-133 Familie, coloriert nach Base-Conservation

Auch hier zeigt sich, dass v. a. die Stem-Regionen stark konserviert sind. Zudem wird erneut verdeutlicht, dass rechts der längere konservierte Bereich ist und die miRNA dpl3-mir-133 hier die meisten Abweichungen zeigt. Abbildung 5 stellt die konservierte Struktur der MIPF0000029_mir-133 Familie dar.

Abbildung 5: konservierte Struktur der miRNAs der MIPF0000029_mir-133 Familie (aus RNAalifold)

Es ist ein Hairpin zu erkennen, bei dem auf der linken Seite einige Basen eingekreist sind. Diese zeigen die Möglichkeit von untypische Basenpaarungen (z. B. G-U oder A-U) an.

4) Auswertung

Übersichtstabelle

Die Anzahl der Gene sowohl aus den gff3-files als auch aus den Fasta-files weichen in den meisten Spezies leicht voneinander ab. Um dies zu erklären müssten die abweichenden Gene im einzelnen betrachtet und näher untersucht werden.

Auch die Anzahl der Gene und der Proteine, welche beide aus dem Fasta-file ermittelt wurden, weichen teilweise stark voneinenader ab. Dies kann damit erklärt werden, dass ein Gen mehrere Proteine codieren kann (alternatives Splicen).

Unterschiede in der Annotation sind erklärbar, da es keine einheitlichen Vorschriften für eine Annotation gibt. Ob Chromosomen oder Scaffolds annotiert wurden liegt an den bereits vorhandenen Informationen zu den Spezies, die sich teilweise stark unterscheiden. Bei gut untersuchten Spezies gibt es viele Informationen zum Genom und der Verteilung der Gene auf den Chromosomen. Bei anderen Spezies sind diese Daten noch nicht erfasst worden.

Die Anzahl der Chromosomen bzw. Scaffolds unterscheiden sich zwischen den Daten aus dem gff (annotierte Daten) und dem Genom-Fastafile (Gesamtdaten) meist nur gering. D. h. es wurden auf fast allen Chromosomen/Scaffolds auch Daten annotiert. Bei Manduca sexta wurden im gff Scaffolds und im Genom-fasta Contigs angegeben. Dies erklärt hier den großen Unterschied.

Typentabelle

Die Auflistung der verschiedenen Annotationstypen zeigt, dass zwischen den zu untersuchenden Spezies teilweise sehr große Unterschiede in der Annotation auftreten. In einigen Spezies wurden Gene und Transkripte annotiert, wobei aus den Zahlen hervorgeht, dass einige Transkripte mehr als ein Gen ergeben. Dies kann durch alternatives Splicen ermöglicht werden. In anderen Spezies sind Gene und mRNA annotiert. Transkripte und mRNA können also als Synonym bzeichnet werden. Als Pseudogene werden Gene bezeichnet, die abgeschnitten erscheinen, basierend auf Sequenzähnichkeit zu einem andern Gen im Genom oder deren GC-Gehalt. Sie sind nicht zwingend identisch zu einem anderen Gen, weil nicht funktionstüchtig sind und somit nicht unter Selektionsdruck stehen.

Zum anderen fällt bei den Exons, CDS und UTRs auf, dass es viel weniger UTRs als CDS gibt. Diese Zahlen sollten identisch sein. Möglicherweise wurden die UTRs beim Sequenziern nicht mit erfasst oder bei der Annotation nicht als solche erkannt und anders benannt. Es ist vorstellbar, dass einige UTRs unter der Kategorie 'biologische Regionen' zu finden wären. Bei dieser Einteilung handelt es sich um Sequenzabschnitte mit biologischer Funktion. Dies kann von RNAs über CDS bis hin zu repeats alles sein. Es handet sich wahrscheinlich um Sequenzabschnitte, die nicht zugeordnet werden konnten.

Um die verschiedenen RNAs zu annotieren, werden verschiedenen Methoden angewendet. miRNAs beispielsweise werden ermittelt, indem die Sequenzabschnitte mittels BLASTN gegen miRBase Sequenzen verglichen werden. Die tRNAs werden mit tRNAscan-SE ermittelt. Zu jeder annotierten miRNA gibt es je ein miRNA Gen. Dies trifft auch bei rRNAs, snRNAs und snoRNAs zu.

Längenvergleich

Die erstellten Histogramme des Längenvergleichs zeigen alle sowohl bei den Genen als auch bei den Proteinen ein typischer Kurvenverlauf. Es gibt viele kurze Gene/Proteine und die Häufigkeit nimmt ab, je größer die Gene/Proteine werden.

Proteinortho: Unterschiede zu Danaus plexipus

Die Daten von dpl1 und dpl3 weisen bei den meisten Fragen große Unterschiede auf. Das ist auf die Herkunft der Annotationsdaten zurückzuführen. Die Informationen zur Annotation von ENSEMBL (dpl1) sind wesentlich ausführlicher als diese aus der Monarchbase (dpl3). Bei Letzteren wurde das Augenmerk vor allem auf Gene, mRNA, Exons und CDS gelegt und keine weiteren Typen, wie z.B. RNA, Repeats, Pseudogene annotiert.

Mittels Proteinortho wurden in den zu untersuchenden Spezies Orthologe (Homologe in verschiedenen Spezies) ermittelt. Die meisten Gene des Danaus plexipus treten als Orthologe auch in den anderen zu untersuchenden Spezies auf. Zudem gibt es ca. 2000 Gene im Monarchfalter, die in den anderen Spezies fehlen. Dies kann mehrere Ursachen haben. Zum einen können im Danaus plexipus Genduplikationen (Paraloge) oder Mutationen aufgetreten sein. Diese Unterschiede haben evolutionsgeschichtliche Ursachen und führen zur Diversität der verschiedenen Spezies, denn mit dem selben Genpool würde es keine Aufspaltung in mehrere Spezies geben. Zum anderen könnten einige Gene dabei sein, die in den anderen Spezies nicht annotiert worden sind, wo aber eigentlich Orthologe da sind. Diese werden, wenn überhaupt, eine Minderheit bilden.

Vergleich der miRNA Familien

Sequenzalignment am Beispiel der MIPF0000029_mir-133 Familie

Aus den Ergebnissen des miRNA Alignments zeigt sich, dass in dieser Familie die Struktur und auch die Sequenz konserviert vorliegt. Es zeigt sich auch, dass dabei die rechte Seite des Hairpins am stärksten konserviert ist. Somit läßt sich vermuten, dass auf diese Seite die funktionelle miRNA ist. Ausnahmen dieser starken Konservierung bilden aga-mir-133 und dpl3-mir-133. Im ersten Fall wurde sich eventuell eine Verbesserung des Alignments ergeben, wenn die Sequenz v. a. auf der linken Seite verlängert werden würde. Im Fall der dpl3-mir-133 sind jedoch so viele Mutationen in wichtigen Bereichen aufgetreten, dass die Vermutung nahe liegt, dass diese miRNA nicht mehr funktionell ist.

Die in Abbildung 5 dargestellte konservierte Hairpin-Struktur zeigt durch die eingekreisten Basen auf der linken Seite, dass die Struktur stärker konserviert ist als die Sequenz. Da diese Möglichkeiten der Mutation auf der linken Seite liegen, kann auch mit Hilfe dieser Abbildung festgestellt werden, dass die miRNA auf der rechten Seite des Hairpins liegt.

Quellen

http://www.bioinf.uni-leipzig.de/teaching/currentClasses/class190.html

http://monarchbase.umassmed.edu/home.html

http://metazoa.ensembl.org/index.html

http://www.mirbase.org/

http://www.ncbi.nlm.nih.gov/assembly/

http://www.pseudogene.org/background.php

http://www.ensembl.org/info/genome/genebuild/ncrna.html