next up previous
Next: RNA Recognition Motif (RRM) Up: Bioinformatisches Praktikum Previous: Bioinformatisches Praktikum

Subsections

Material und Methoden

Proteindaten

Die Basis bildet die Superfamily Datebank in der Version vom 18.01.2009 (964.ass.tab). In der Datenbank wurde nach annotierten Family IDs (siehe Tabelle 1) der hier betrachteten Proteindomänen gesucht. Die Proteine in der SuperFamily werden durch HMM annotiert. Verwendet werden dabei mehrere Modelle für die Familie und die Superfamilie. Domänen werden annotiert wenn mindestens ein HMM einer Familie oder einer Superfamilie einen $evalue$ unter einer bestimmten Grenze haben (siehe SuperFamily Webseite für genauere Informationen). Dadurch können Proteine fälschlicherweise annotiert sein, sog. ``false positives''. Aus diesem Grund wurde für jede Proteindomäne ein Subset der gefundenen Proteine erstellt. In dem Subset sind alle Proteine welche mit einem $evalue < 1e^{-4}$ von mindestens einem Family HMM erkannt werden. Für diese signifakanten Subsets sind die Bäume und statistischen Auswertungen verfügbar aber sie werden nachfolgend nicht betrachtet.


Table 1: Proteindomänen und ihre Family ID (ScopID)
Domäne Family ID
RRM 54929
SAM 47773
PUF 63611
KH 54792



Statistiken

Um zu sehen wie weit die Proteindomänen in bestimmten Taxa verbreitet sind ist es notwendig zu berechnen wie viele Organismen eines Taxon überhaupt in der Superfam bekannt sind. Bei dieser Berechnung, der Anzahl aller Spezies pro Taxon, wurden alle in der Superfamily vorhandenen Spezies auf ihre NCBI ID gemappt. Aus dieser Liste wurden alle mehrfachen Einträge entfernt (da Superfam $\rightarrow$ NCBI ID nicht injektiv!) da diese im Baum als ein Organismus gezählt werden (bei unterschiedlichen Superfam Organismen mit gleicher NCBI ID wurde derjenige Organismus mit den meisten annotierten Domänen gewählt). Die Organismen wurden dann in dem NCBI-Baum von den Blättern (Organismus) bis zur Wurzel propagiert und in allen durchlaufenen Knoten (Taxa) die Anzahl um eins erhöht. Genauer wurde in einer Hashtabelle jeder Organismus (NCBI ID) mit dem Wert 1 initialisiert und danach für alle Organismen (= Blätter) folgende rekursion angewandt:

Solange ID $>$ 1 (da NCBI ID 1 die Wurzel ist)
1.
ID = NCBI ID des Vaterknotens(ID)
2.
falls Hasheintrag von ID existiert: Hash(ID) += 1
sonst neuer Hasheintrag: Hash(ID) = 1
3.
gehe zu 1

Die so ermittelten Werte repräsentieren also die Anzahl der zugehörigen Organismen eines Taxon.

Die Anzahl annotierter Proteine wurde aus der Datenbank Superfamily gewonnen. Erstaunlich war das die Anzahl annotierter Proteindomänen auch in nahe verwandten Organismen z.T. sehr unterschiedlich war. So wurde z.B. die RRM Domäne in Drosophila melanogaster 335 mal annotiert, in den restlichen Drosophiliden im Schnitt aber viel seltener. Weitere Unterscheide sind in Tabelle 3 zu sehen. Ursache dieser Unterschiede kann die in Abschnitt 1.2 beschriebene Methode der Annotation von Proteindomänen sein. Sind die HMM auf Grundlage dieser Spezies erstellt worden werden in diesen eventuell mehr Treffer gefunden. Aber auch unvollstaendig sequenzierte Genome können eine Rolle spielen (Tabelle 2). Vergleicht man die Annotationen aus dem Subset der signifikanten Proteine wird dieser Unterscheid noch deutlicher (Tabelle 4).


Table 2: Genomversionen im Vergleich
Spezies Assembly / Release
Homo sapiens (Ensembl) NCBI36
Pan troglodytes (Ensembl) CHIMP2.1
Pongo pygmaeus (Ensembl) PPYG2
Mus musculus (Ensembl) NCBIM37
Rattus norvgegicus (Ensembl) RGSC3.4
Drosophila melanogaster (Flybase) 5.15
Drosophila yakuba (Flybase) 1.2
Caenorhabditis elegans (Wormbase) Ce147
Caenorhabditis briggsae (Wormbase) Cb3



Table 3: Unterschiede in der Anzahl annotierter Domänen naher verwandter Spezies.
  #Domänen
Spezies RRM SAM PUF KH
Homo sapiens 825 220 13 111
Pan troglodytes 578 166 7 73
Pongo pygmaeus 409 104 5 48
Mus musculus 786 189 12 84
Rattus norvgegicus 674 163 11 80
Spermophilus tridecemlineatus 198 58 4 32
Drosophila melanogaster 510 90 7 77
Drosophila yakuba 183 41 4 24
Caenorhabditis elegans 353 46 15 58
Caenorhabditis briggsae 171 23 14 29



Table 4: Unterschiede in der Anzahl signifikant annotierter Domänen naher verwandter Spezies.
  #Domänen
Spezies RRM SAM PUF KH
Homo sapiens 85 16 8 44
Pan troglodytes 61 11 6 24
Pongo pygmaeus 44 4 3 18
Mus musculus 119 14 9 39
Rattus norvgegicus 97 9 6 29
Spermophilus tridecemlineatus 20 4 2 8
Drosophila melanogaster 51 8 5 1
Drosophila yakuba 13 3 1 -
Caenorhabditis elegans 31 - 12 7
Caenorhabditis briggsae 12 - 10 4


Dateien

Es wurden für die Domänen statistische Daten auf den phylogenetischen Baum der NCBI Taxonomie projeziert. Die entstandenen Bäume sind in den ensprechenden Abschnitten zu finden und können dort runtergeladen werden. Die PDF-Version gibt es hier. Die Datei ass_18-Jan-2009.tab.gz kann von der Superfam Webseite bezogen werden. Zum projezieren der Superfam Einträge auf die NCBI wurde diese Datei erstellt. Eine Liste von allen Knoten im Baum sowie der zugehörigen Anzahl an Organismen im Unterbaum ist in dieser Datei zu finden.

Scripte & Pipelines

In Tabelle 5 sind die Skripts, welche im Rahmen des Pratkikums entstanden sind gelistet und kurz erklärt.


Table 5: Liste von im Praktikum erstellten Perl-Skripts
Name Beschreibung
addStats.pl Fügt in einen Newick-Baum Daten der statistischen Auswertung ein. Es werden an den Blättern die Werte und an den inneren Knoten jeweils Minimum, Durchschnitt und Maximum dieser Werte des Unterbaumes und die Anzahl darin enthaltener Organismen hinzugefügt.
getNCBIname.pl Dieses Skript wurde verwendet um die Superfamily DB Organismen auf die NCBI Namen zu projezieren. Als Eingabe wird eine Liste mit den Spalten ``Bezeichner''\t``NCBI ID'' benötigt. Mit diesem Skript wurde die superfam2ncbi.tab erstellt.
HowMuch.pl Aus einer Liste von NCBI IDs wird anhand des taxonomischen NCBI Baumes eine Liste aus Knoten und zugehöriger Anzahl im Unterbaum enthaltener Organismen (nur diese aus der Eingabeliste) erstellt. Aus der Liste aller in der Superfamily bekannter Organismen wurde mit diesem Skript die Datei viechcount erstellt.
kindel.pl Zu einem vom Nutzer gewählten Taxon der NCBI (über Name oder ID) werden alle Kind-Knoten des taxonomischen NCBI Baumes und die darin enthaltene Anzahl aus der Superfamily bekannten Organismen ausgegeben. Mit der Option -a werden zusätzlich alle diese Organismen ausgegeben. So kann z.B. die Liste annotierter Organismen in den Metazoa mit den aus der Superfamily bekannten Metazoa verglichen werden.
motifpergene.pl Join von zwei Listen. Beide Listen haben in der ersten Spalte den ``scientific name'' der NCBI als Schlüssel. In der zweiten Spalte steht entweder die zugehörige Anzahl annotierter Domänen oder annotierter Gene. Diese Werte werden um die Zahl Domänen pro Gen erweitert und in eine neue Liste geschrieben. Das Skript ist Bestandteil der Pipelines.
specnames.pl Bestandteil der Pipelines. Es joint zwei Tabellen anhand der ersten Spalte.
tree2org.pl Extrahiert aus einem Newick Baum alle Blattknoten. Wurde verwendet um aus den all.tree Dateien z.B. alle gefundenen Metazoa zu extrahieren (siehe auch kindel.pl und Option -a). Dazu wurde all.tree mit dem Programm ``Dendroscope'' geöffnet, der zu untersuchende Unterbaum komplett markiert und extrahiert (in extra Datei). Diese wurde gespeichert und tree2org.pl auf dem STDIN übergeben. Die so erstellte Liste kann dann für weitere Auswertungen herangezogen werden.


Die Bäume und Dateien wurden wie folgt erstellt.
Für einzelne Domänen (Bsp PUF):

  1. grep -P ``\t63611\t'' 964.ass.tab $>$ass.tab
  2. ./SIGNI
  3. ./GETALL (braucht specnames.pl, motifpergene.pl, superfam2ncbi.tab)
  4. ./GETSIG (braucht specnames.pl, motifpergene.pl, superfam2ncbi.tab)
  5. tax -f idall.list -n $>$all.tree
  6. tax -f idsig.list -n $>$sig.tree
  7. addStats.pl statsall.list all.tree (siehe auch Quellcode)
  8. addStats.pl statssig.list sig.tree (siehe auch Quellcode)

Für kombinierte Domänen (Bsp. RRM-KH):

  1. grep -P ``\t54929\t'' 964.ass.tab $>$ass1.tab
  2. grep -P ``\t54792\t'' 964.ass.tab $>$ass2.tab
  3. ./JOINIT (braucht specnames.pl, motifpergene.pl, superfam2ncbi.tab)
  4. tax -f idall.list -n $>$all.tree
  5. addStats.pl statsall.list all.tree (siehe auch Quellcode)


next up previous
Next: RNA Recognition Motif (RRM) Up: Bioinformatisches Praktikum Previous: Bioinformatisches Praktikum
root 2009-03-18