28.6.-9.7.2010; Sequenzanalyse und Genomik (eigentlich Biologische Netzwerke und Graphen)
Interessengebiet: C2H2 Finger beim Menschen
Erhalten der Homo_sapiens.fasta aus der SUPERFAMILY
database
und entsprechende hmmer model library von ebenda.
Verwenden von hmmsearch
auf den zur C2H2 gehoerenden
Modellen (Superfamily 57667) auf Homo_sapiens.fasta
Extrahieren von fasta-Dateien aus den Vorschlaegen der HMM-Modelle mittels eines selbstgeschriebenen Tools, dabei Beschraenkung auf kurze FASTA-IDs.
Berechnen von Alignments mit clustalw
auf allen
fasta-Dateien (also getrennt pro Modell). Sehr zeitintensiv, daher
Durchfuehrung auch auf k1#
-Maschinen.
Anmerkungen:
Problem, die Alignments alle unter einen Hut zu bekommen. Alle in eine Datei lassen sich nicht alignieren (wird mit jeder zusaetzlichen Sequenz aufwendiger).
nrdb
kann exakt gleichlautende Sequenzen in
fasta-Dateien unter einem Eintrag zusammenfassen und wurde des oefteren
benutzt um diese zu gruppieren.
SplitsTree ist leider auch mit dem aktuellen Endergebnis noch ueberfordert, obwohl der Speicher schon auf 3,1 GB erhoeht wurde (das Maximum fuer 32bit-Java.)
Manuelles Clustern der Ergebnisse von HMM-Modell 0034826, um das Alignment zu verbessern. Dazu wurde Dendroscope verwendet. Die Ergebnisse sind besser und unterstuetzen die Machbarkeit dieser Methode.
Offenes Problem an dieser Stelle ist ist die Bearbeitung aller Ergebnisse (noch zu umfangreich.)
Untersuchung der PDB-Eintraege betreffend Zink-Fingern (aller mit SCOP Superfamily Classic C2H2).
Plan: Vorhersage der 3D-Struktur von den Ergebnissen aus (2.)
Analyse der in der PDB abgelegten Loesungen fuer Zink-Finger und ihr Auftreten im Vergleich zu den Ergebnissen aus (2.)
Erstellen einer Datenbank aus (1.) mittels
formatdb
fuer blastp.
Extrahieren der Sequenzen aus den PDB-Eintraegen mit einem dazu erstellten Tool.
Vergleichen von (.2.) mit den Sequenzen im Menschen.
Zusammenlegen der Ergebnisse der verschiedenen Modelle aus (3.)
Dies ist noetig, da sich viele Modelle mit ihren Ergebnissen fuer die Zink-Finger ueberschneiden, aber nicht gleichen. Dazu:
Erstellen eines Scripts, welches die Ueberlappung der einzelnen Ergebnisse berechnet und hinreichend grosse Uebereinstimmungen zusammenlegt.
(Verschiedene Werte und Strategien wurden probiert, kann sicher noch verfeinert werden.)
Fuer (.1.), Erstellen einer grafischen Ansicht fuer die Zusammenfassungen.
Filtern der Vorschläge aus (4.) nach eindeutig interessanten.
Denn es sollen nur solche Sequenzabschnitte betrachtet werden, bei denen es sich erkennbar um ein C2H2 handelt.
Aus den Alignments (4.a.) werden die Spalten fuer C2H2 ersichtlich.
Ein interaktiver Dialog erlaubt die Auswahl der C2H2-Spalten im Alignment (eines Modells bzw. einer Fasta-Datei). Nur die passenden Sequenzen werden ausgeschnitten.
Die Ergebnisse aus (.b.) dienen als weiterer Vorfilter fuer (6.c.), wodurch eine Zusammenfassung ungewollter Ueberlappungen weiter reduziert wird.
Erstellen einer neuen Fasta-Datei mit den Ergebnissen aus (6.c.)
Alignment-Berechnung — diese ist durch die Reduktionsschritte jetzt auf allen verbliebenen Sequenzen gemeinsam moeglich.
Im Folgenden weitere Anmerkungen und Zwischenresultate zum Vorgehen.
hmmsearch
-ResultateDie von hmmsearch
gefundenen Sequenzen waren ein zentraler
Betrachtungsgegenstand im Praktikum. Insgesamt standen 83
Modelle bezueglich C2H2-Fingern zur Verfuegung. Die gefundenen Sequenzen pro
Modell lagen meist um 12 500. Die Sequenzlaenge im
Allgemeinen um 35, bei einigen Modellen aber durchweg
laenger.
Das Tool zur Extraktion der Sequenzen aus den hmmsearch-Ergebnissen teilte diese in eine Fasta-Datei mit durchnummerierten IDs und entsprechenden Definitionen-Dateien zur Referenzierung der Modelle, Genome, usw.
Auszug aus der Definitionen-Datei fuer ein Modell, Sequenz-ID, Start- und Endposition sind notiert.
Modell: 0034826.hmm_search wv ID: 1 >> ENSP00000380272 pep:novel chromosome:NCBI36:19:23332341:23349748:-1 gene:ENSG00000167232 transcript:ENST00000397082 |
||
1 | S:207 | E:233 |
2 | S:235 | E:258 |
3 | S:263 | E:289 |
4 | S:291 | E:317 |
Auszug aus der entsprechenden Fasta-Datei (wv identifiziert das Modell, die ID das Transkript)
>wv0001001 EKSCKCKECEKTFHWSSTLTNHKEIHT |
>wv0001002 DKPYKCEECGKAFKQLSTLTTHKI |
>wv0001003 EKIYKCEECGKAFLWSSTLTRHKRIHT |
>wv0001004 EKPYKCEECGKAFSHSSTLAKHKRIHT |
Exakt gleiche Sequenzen wurden im naechsten Schritt zusammengefasst um die Ergebnisse zu verkleinern. Dies reduzierte die Sequenzen auf um 7 500 pro Modell!
clustalw
-ResultateDie einzelnen Modelle wurden entsprechend aligniert, die Datenmenge jedoch zu gross um das alles per Hand verarbeiten zu koennen.
Auszug aus dem Alignment von Modell 0034826:
wv0715009+wv0737009 |
-EKPYPCDV-----CG----QRFRFS---NMLK----AHKE---- |
wv0716006+wv0731006+wv0732006 |
-DHPYECEF-----CG----SCFRDE---STLK----SHKRIHT- |
wv0337008+wv0338008+wv0741001 |
-EKPYVCIH-----CQ----RQFADP---GALQ----RHVRIHT- |
wv0601009+wv0602009 |
-ERPYCCDQ-----CG----KQFTQL---NALQ----RHRRIHT- |
wv0851003+wv0852003 |
-ERPYTCDV-----CQ----KQFTQK---SYLK----CHKRSHT- |
wv0867003 |
-ERPYTCDI-----CQ----KQFTQK---SYLK----CHKRSHT- |
wv0786003 |
-ERPYMCDV-----CQ----KRFAHE---STLQ----GHKRIHT- |
wv0799005+wv0801005+wv0806005+ |
-ERPYYCTE---PGCG----RAFASA---TNYK----NHVRIHT- |
wv0805005+wv0809005+wv0811005 |
-ERPYTCPE---PHCG----RGFTSA---TNYK----NHVRIHT- |
Durch das Clustering konnten entsprechende Verbesserungen im Alignment erzielt werden:
EKPYACKE--CGKAF-ISHTSVLTHMITH- |
EKLYHCKQ--CGKAF-ISLTSVDRHMVTHT |
EKPHECKQ--CGKAF-ISFTNFQSHMIRHT |
EKPYACKQ--CGKAY-ISYTSFQYHQLNHT |
EKPYACPE--CGKAFISLP-SVRRHMIKHT |
Anfang von Cluster A
EKPYMCKGC--GKAFRV-SSSLINHQMVHT |
EKPYIGNEC--GKAFRV-SSSLINHQMIHT |
EKPYGCNEH--GKVFRV-SSSLTNRQVIH- |
EKPYECNEH--SKVFRV-SSSLTKHQVIHT |
-KPYECNEQ--GKVFRV-SSSLPNHQVIHT |
Anfang von Cluster B, nicht alle sehen wie C2H2-Finger aus
(und noch 4 weitere Cluster.)
Beispiel
Der Nutzer kann die Entscheidung treffen an welchen Stellen die C2H2 ausgefiltert werden. Die oberen 2 Zeilen geben eine Kurzzusammenfassung der haeufigsten Elemente, darunter folgt eine detaillierte Übersicht mit jeweils der Anzahl in dieser Spalte des Alignments.
Entsprechende fasta-Dateien werden dann neu berechnet (enthalten nur die zutreffenden Sequenzen). Damit wurde die Anzahl der Sequenzen pro Modell meistens auf unter 5 000 reduziert. Das Gesamtvolumen wurde ca. halbiert.
Die gefundenen C2H2-Sequenzen aller Modelle wurden nun pro Gen zusammengelegt. Dazu wurde ein Ueberlappungsparameter definiert.
Beispiel
Beispiel von langen Sequenzen mit Überlappung.
Die Sequenzdaten bezueglich der klassischen C2H2 Zink-Finger wurden aufbereitet und zusammengefasst. Eine weitere Bearbeitung sollte jetzt leichter fallen.
Alle gefundenen Sequenzen — konzentriert auf solche mit C2H2 und
Ueberlappungen zusammengefasst — koennen von clustalw
auf einmal
verarbeitet werden. Ihre Anzahl wurde auf 11 802 reduziert.
Dadurch, dass alle Modelle ausgewertet wurden ist aber keine Sequenz "verloren
gegangen" wie bei der Beschraenkung auf die Ergebnisse eines Modelles
wahrscheinlich waere.
Im Ergebnis sind entsprechend viele Gaps.
Clustal Tree in Dendroscope
Legende zur Tabelle
(x)
...
!
beim e-value:Hier die angefallenen Daten zum Abruf.
Waehrend des Praktikums wurde einige Scripte zur einfacheren Verarbeitung erstellt.
Ausserdem gibt es einige Zwischenergebnisse der einzelnen Abschnitte.
Die an clustalw zum Alignieren uebergebenen Fasta-Dateien (*.fasta; entspricht denen in hmmsearches/Fasta mit nrdb angewendet.)
Weiterhin die clustalw Ergebnisse in den *.aln und *.dnd Dateien (Abschnitt 2.2, Vorgehen Schritt 4.)