Praktikumsprotokoll

28.6.-9.7.2010; Sequenzanalyse und Genomik (eigentlich Biologische Netzwerke und Graphen)

Interessengebiet: C2H2 Finger beim Menschen

1. Vorgehen

Erhalten der Homo_sapiens.fasta aus der SUPERFAMILY database
und entsprechende hmmer model library von ebenda.
Verwenden von hmmsearch auf den zur C2H2 gehoerenden Modellen (Superfamily 57667) auf Homo_sapiens.fasta
Extrahieren von fasta-Dateien aus den Vorschlaegen der HMM-Modelle mittels eines selbstgeschriebenen Tools, dabei Beschraenkung auf kurze FASTA-IDs.
Berechnen von Alignments mit clustalw auf allen fasta-Dateien (also getrennt pro Modell). Sehr zeitintensiv, daher Durchfuehrung auch auf k1#-Maschinen.

Anmerkungen:
1. Problem, die Alignments alle unter einen Hut zu bekommen. Alle in eine Datei lassen sich nicht alignieren (wird mit jeder zusaetzlichen Sequenz aufwendiger).
2. nrdb kann exakt gleichlautende Sequenzen in fasta-Dateien unter einem Eintrag zusammenfassen und wurde des oefteren benutzt um diese zu gruppieren.
3. SplitsTree ist leider auch mit dem aktuellen Endergebnis noch ueberfordert, obwohl der Speicher schon auf 3,1 GB erhoeht wurde (das Maximum fuer 32bit-Java.)
Manuelles Clustern der Ergebnisse von HMM-Modell 0034826, um das Alignment zu verbessern. Dazu wurde Dendroscope verwendet. Die Ergebnisse sind besser und unterstuetzen die Machbarkeit dieser Methode.

Offenes Problem an dieser Stelle ist ist die Bearbeitung aller Ergebnisse (noch zu umfangreich.)
Untersuchung der PDB-Eintraege betreffend Zink-Fingern (aller mit SCOP Superfamily Classic C2H2).
1. Plan: Vorhersage der 3D-Struktur von den Ergebnissen aus (2.)
2. Analyse der in der PDB abgelegten Loesungen fuer Zink-Finger und ihr Auftreten im Vergleich zu den Ergebnissen aus (2.)
  1. Erstellen einer Datenbank aus (1.) mittels formatdb fuer blastp.
  2. Extrahieren der Sequenzen aus den PDB-Eintraegen mit einem dazu erstellten Tool.
  3. Vergleichen von (.2.) mit den Sequenzen im Menschen.
3. Zusammenlegen der Ergebnisse der verschiedenen Modelle aus (3.)
  
  Dies ist noetig, da sich viele Modelle mit ihren Ergebnissen fuer die Zink-Finger ueberschneiden, aber nicht gleichen. Dazu:
  1. Erstellen eines Scripts, welches die Ueberlappung der einzelnen Ergebnisse berechnet und hinreichend grosse Uebereinstimmungen zusammenlegt.
    
    (Verschiedene Werte und Strategien wurden probiert, kann sicher noch verfeinert werden.)
  2. Fuer (.1.), Erstellen einer grafischen Ansicht fuer die Zusammenfassungen.
Filtern der Vorschläge aus (4.) nach eindeutig interessanten.

Denn es sollen nur solche Sequenzabschnitte betrachtet werden, bei denen es sich erkennbar um ein C2H2 handelt.
1. Aus den Alignments (4.a.) werden die Spalten fuer C2H2 ersichtlich.
2. Ein interaktiver Dialog erlaubt die Auswahl der C2H2-Spalten im Alignment (eines Modells bzw. einer Fasta-Datei). Nur die passenden Sequenzen werden ausgeschnitten.
3. Die Ergebnisse aus (.b.) dienen als weiterer Vorfilter fuer (6.c.), wodurch eine Zusammenfassung ungewollter Ueberlappungen weiter reduziert wird.
Erstellen einer neuen Fasta-Datei mit den Ergebnissen aus (6.c.)
Alignment-Berechnung — diese ist durch die Reduktionsschritte jetzt auf allen verbliebenen Sequenzen gemeinsam moeglich.

1.1. Weitere Schritte
Clustern des finalen Alignments z.B. mit Dendroscope
Realigning der Cluster und Weiterverarbeitung mit SplitsTree
Vorhersagen von Bindungen und Identifikation mit Klassen von C2H2-Fingern

2. Details

Im Folgenden weitere Anmerkungen und Zwischenresultate zum Vorgehen.

2.1. `hmmsearch`-Resultate

Die von hmmsearch gefundenen Sequenzen waren ein zentraler Betrachtungsgegenstand im Praktikum. Insgesamt standen 83 Modelle bezueglich C2H2-Fingern zur Verfuegung. Die gefundenen Sequenzen pro Modell lagen meist um 12 500. Die Sequenzlaenge im Allgemeinen um 35, bei einigen Modellen aber durchweg laenger.

Das Tool zur Extraktion der Sequenzen aus den hmmsearch-Ergebnissen teilte diese in eine Fasta-Datei mit durchnummerierten IDs und entsprechenden Definitionen-Dateien zur Referenzierung der Modelle, Genome, usw.

Auszug aus der Definitionen-Datei fuer ein Modell, Sequenz-ID, Start- und Endposition sind notiert.

Modell: 0034826.hmm_search wv ID: 1 >> ENSP00000380272 pep:novel chromosome:NCBI36:19:23332341:23349748:-1 gene:ENSG00000167232 transcript:ENST00000397082
1	S:207	E:233
2	S:235	E:258
3	S:263	E:289
4	S:291	E:317

Auszug aus der entsprechenden Fasta-Datei (wv identifiziert das Modell, die ID das Transkript)

>wv0001001

EKSCKCKECEKTFHWSSTLTNHKEIHT

>wv0001002

DKPYKCEECGKAFKQLSTLTTHKI

>wv0001003

EKIYKCEECGKAFLWSSTLTRHKRIHT

>wv0001004

EKPYKCEECGKAFSHSSTLAKHKRIHT

Exakt gleiche Sequenzen wurden im naechsten Schritt zusammengefasst um die Ergebnisse zu verkleinern. Dies reduzierte die Sequenzen auf um 7 500 pro Modell!

2.2. `clustalw`-Resultate

Die einzelnen Modelle wurden entsprechend aligniert, die Datenmenge jedoch zu gross um das alles per Hand verarbeiten zu koennen.

Auszug aus dem Alignment von Modell 0034826:

wv0715009+wv0737009	-EKPYPCDV-----CG----QRFRFS---NMLK----AHKE----
wv0716006+wv0731006+wv0732006	-DHPYECEF-----CG----SCFRDE---STLK----SHKRIHT-
wv0337008+wv0338008+wv0741001	-EKPYVCIH-----CQ----RQFADP---GALQ----RHVRIHT-
wv0601009+wv0602009	-ERPYCCDQ-----CG----KQFTQL---NALQ----RHRRIHT-
wv0851003+wv0852003	-ERPYTCDV-----CQ----KQFTQK---SYLK----CHKRSHT-
wv0867003	-ERPYTCDI-----CQ----KQFTQK---SYLK----CHKRSHT-
wv0786003	-ERPYMCDV-----CQ----KRFAHE---STLQ----GHKRIHT-
wv0799005+wv0801005+wv0806005+	-ERPYYCTE---PGCG----RAFASA---TNYK----NHVRIHT-
wv0805005+wv0809005+wv0811005	-ERPYTCPE---PHCG----RGFTSA---TNYK----NHVRIHT-

Durch das Clustering konnten entsprechende Verbesserungen im Alignment erzielt werden:

EKPYACKE--CGKAF-ISHTSVLTHMITH-

EKLYHCKQ--CGKAF-ISLTSVDRHMVTHT

EKPHECKQ--CGKAF-ISFTNFQSHMIRHT

EKPYACKQ--CGKAY-ISYTSFQYHQLNHT

EKPYACPE--CGKAFISLP-SVRRHMIKHT

Anfang von Cluster A

EKPYMCKGC--GKAFRV-SSSLINHQMVHT

EKPYIGNEC--GKAFRV-SSSLINHQMIHT

EKPYGCNEH--GKVFRV-SSSLTNRQVIH-

EKPYECNEH--SKVFRV-SSSLTKHQVIHT

-KPYECNEQ--GKVFRV-SSSLPNHQVIHT

Anfang von Cluster B, nicht alle sehen wie C2H2-Finger aus

(und noch 4 weitere Cluster.)

2.3. Filtern von C2H2

Beispiel

(Screenshot)

Der Nutzer kann die Entscheidung treffen an welchen Stellen die C2H2 ausgefiltert werden. Die oberen 2 Zeilen geben eine Kurzzusammenfassung der haeufigsten Elemente, darunter folgt eine detaillierte Übersicht mit jeweils der Anzahl in dieser Spalte des Alignments.

Entsprechende fasta-Dateien werden dann neu berechnet (enthalten nur die zutreffenden Sequenzen). Damit wurde die Anzahl der Sequenzen pro Modell meistens auf unter 5 000 reduziert. Das Gesamtvolumen wurde ca. halbiert.

2.4. Zusammenlegen der Sequenzen der einzelnen Modelle

Die gefundenen C2H2-Sequenzen aller Modelle wurden nun pro Gen zusammengelegt. Dazu wurde ein Ueberlappungsparameter definiert.

Beispiel

(Screenshot)

Beispiel von langen Sequenzen mit Überlappung.

3. Ergebnis

Die Sequenzdaten bezueglich der klassischen C2H2 Zink-Finger wurden aufbereitet und zusammengefasst. Eine weitere Bearbeitung sollte jetzt leichter fallen.

Alle gefundenen Sequenzen — konzentriert auf solche mit C2H2 und Ueberlappungen zusammengefasst — koennen von clustalw auf einmal verarbeitet werden. Ihre Anzahl wurde auf 11 802 reduziert. Dadurch, dass alle Modelle ausgewertet wurden ist aber keine Sequenz "verloren gegangen" wie bei der Beschraenkung auf die Ergebnisse eines Modelles wahrscheinlich waere.

Im Ergebnis sind entsprechend viele Gaps.

Clustal Tree in Dendroscope

4. PDB-Datenbankeintraege

Legende zur Tabelle

(x): wurde in den "ausgeschnittenen" Sequenzen nicht (mehr) gefunden (wenn mit Positionen, wurde es von einem Modell gefunden)
...: Sequenz "passt nicht" (ist nicht das gesuchte Start/Ende)
! beim e-value:: war ein 100% match

5. Daten

Hier die angefallenen Daten zum Abruf.

Scripte

Waehrend des Praktikums wurde einige Scripte zur einfacheren Verarbeitung erstellt.

hmm_to_fasta.pl: Erstellt fasta und "Definitionen" Dateien aus den hmm_search Ergebnissen (Format wie in Abschnitt 2.1 vorgestellt)
pdbseq.zsh: Extrahiert die Sequenzen aus PDB-Eintraegen.
aln_c2h2.pl: Schneidet die Sequenzen mit C2H2 in vorgegebenen Spalten aus den von clustalw erzeugten aln-Dateien aus.
overlaps2.pl: Berechnet die Ueberlappungen aus den Definitionen-Dateien. Nur die in der Fasta-Datei all.Yc2h2.nrdb.fasta aufgefuehrten Sequenzen werden beruecksichtigt (diese enthalten C2H2 an den vorgegebenen Positionen.)

Rohdaten

Ausserdem gibt es einige Zwischenergebnisse der einzelnen Abschnitte.

hmmsearches

Die Ergebnisse der hmm_search auf den jeweiligen Modellen

Definitionen: Der Definitionen-Teil zu den erzeugten Fasta-Dateien
Fasta: Die aus dem hmmsearches extrahierten Fasta-Dateien (Abschnitt 2.1, Vorgehen Schritt 3.)

clustalw

Hier finden sich zu jedem Modell 3 Dateien:

Die an clustalw zum Alignieren uebergebenen Fasta-Dateien (*.fasta; entspricht denen in hmmsearches/Fasta mit nrdb angewendet.)
Weiterhin die clustalw Ergebnisse in den *.aln und *.dnd Dateien (Abschnitt 2.2, Vorgehen Schritt 4.)

manuclust

Die mit Dendroscope erstellten Cluster der Ergebnisse von Modell 0034826

clustalw: Fasta-Dateien der Cluster sowie die dazugehoerigen clustalw-Ergebnisse sind hier zu finden (Abschnitt 2.2, Vorgehen Schritt 5.)

aln_c2h2

Die Alignments wurden nach "alle angegebenen Spalten enthalten C2H2" getrennt (Abschnitt 2.3, Vorgehen Schritt 7.)

Hier sind die Ergebnisse und die dazugehoerigen Fasta-Dateien dargestellt (Achtung: bei den *.aln Dateien handelt es sich um keine syntaktisch korrekten aln-Dateien mehr, wenn die Sequenz laenger als 50 war).

Die Buchstaben am Ende geben an, welche Spalten als C2H2-Spalten ausgewaehlt wurden (siehe Beispiel in Abschnitt 2.3)

Yc2h2 Dateien enthalten C2H2 in den richtigen Spalten, Nc2h2 Dateien nicht.

overlaps

Hier schliesslich die berechneten Ueberlappungen, der letzte Stand ist overlaps4-short-no-xb+9: alle Modelle mit "langen" Sequenzen wurden dabei ausgeschlossen (die gewaehlten Spalten haben keine Buchstaben mehr, d.h. der Dateiname enthaelt am Ende mindestens ein -) sowie das Modell xb (0041311). Ausserdem wurde der Overlap-Parameter von ((common length of sequence1)²+(common length of sequence2)²)^¹/_1.7 auf ≥ ⁹/₁₀ gesetzt statt den zuvorigen ⁷/₁₀.

In overlaps2 gab es noch zu viele Ueberlappungen die sich zu sehr langen Sequenzen ausgewachsen haben.

overlaps3 ist das erste brauchbare Ergebnis, laesst aber einige Sequenzen vermissen.

Die verschiedenen Schritte von overlaps4 haben wieder das Problem mit zu langen Sequenzen.

filter: Im filter-Ordner finden sich noch einige Fasta-Dateien die zur Auswahl der gewuenschten C2H2-Sequenzen beim Berechnen der Überlappungen in overlaps4 gedient haben.

combined

Aus den Ueberlappungen wurde wiederum die in Abschnitt 3. beschriebene Fasta-Datei erzeugt und mit clustalw aligniert. Die Fasta-Datei und das clustalw-Resultat finden sich hier.