Bioinformatisches Praktikum:
Modul Proteinstrukturen
Einleitung
Die 3-dimensionale (oder Tertiär-) Struktur von Proteinen enthält die wesentlichen Informationen, um deren biologische Funktionen zu erkennen. Weiterhin ist sie der Schlüssel zu biotechnologischem Arbeiten mit Proteinen und Arzneimitteldesign.
Unser Ziel ist es, bisher unbekannte Strukturen einiger Proteine mit Hilfe des Homology Modelling vorherzusagen.
Das CASP Projekt (critical assessment of techniques for protein structure prediction) beschäftigt sich mit den Methoden und Effizienz der verschiedenen Vorhersagetechniken. Auf den Projektseiten gibt es eine Liste mit Zielsequenzen verschiedener Proteine. Davon wählten wir 6 Targets aus, um deren Struktur zu modellieren.
Protein Sequence

CASP Targets

T0133HIP1R312X-ray10 Jun26 AugHIP1R N-terminal domain, rat
T0143V8prot216X-ray26 Jun27 AugV8 protease, S. aureus
T0158AES319X-ray17 Jul29 AugAcetyl esterase, E. coli
T0160VAP-A128X-ray22 Jul29 AugVAP-A protein, rat
T0164C20166X-raycanceledcanceledC20, chicken
T0192SSAT171X-ray16 Aug10 SepSpermidime/Spermine Acetyltransferase (SSAT), human

Sequence Tests

Sind unsere Targetproteine Transmembranproteine, bzw. enthalten sie möglicherweise transmembrane Segmente?
Um diese vorherzusagen, benutzen wir die beiden Programme TMHMM (TMHMM Server v. 2.0. Prediction of transmembrane helices in proteins) und DAS (Dense Alignment Surface method; transmembran prediction server).

Target ID TMHMM
no. of predicted TMHs
DAS
potential transmembran segments
T0133 0 0
T0143 0 0
T0158 0 2
T0160 0 1
T0164 0 0
T0192 0 0

Bei keinem unserer Proteine haben beide Server transmembrane Regionen hinreichend nachweisen können.

Database Searching
Um homologe Proteine zu unseren Targets zu finden haben wir eine BLAST-Suche (Sequenzalignment) in der NCBI Datenbank durchgeführt. Mit Hilfe der Ergebnisse dieser Suche lassen sich unsere Targetproteine in 2 Gruppen aufteilen:
  1. Targets zu denen homologe Proteine gefunden wurden
    • T0143 → 1DT2 (E-value:4e-19); 1QTF (E-value:2e-18)
    • T0158 → 1JJI (E-value:3e-24); 1EVQ (E-value:5e-16)
    • T0164 → 1IO0 (E-value:2e-76 !); 1PGV (E-value:8e-23)
  2. Targets zu denen vorerst keine homologen Proteine gefunden wurden

    • T0133, T0160 und T0192
Das Protein 1IO0 hat dieselbe Sequenz wie unser Target (→ sehr niedriger E-value) aus diesem Grund wird im Folgenden nur noch der zweitbeste Treffer 1PGV betrachtet.
Der nächste Schritt für Gruppe I ist ein Sequence against Sructure Alignment mit FUGUE.
Für Gruppe II wird als nächstes die Fold Recognition durchgeführt.

Fold Recognition
Mit den Target-Sequenzen von unseren Proteinen für die keine homologen in der DB gefunden wurden haben wir die Protein fold recognition mit Hilfe von 3DPSSM und 123D durchgeführt.
Wir erhielten die folgenden Proteine mit ähnlicher Struktur:

T0133 T0160 T0192
3dpssm.html
1hg5
1hx8
1eyh
123D.html
1hf8
1eyh
3dpssm.html
1msp
1m1s
123D.html
1msp
3dpssm.html
1qsm
123D.html
1msp

Nach diesen Proteinen haben wir dann in der PDB-DB gesucht um die zugehörige Strukturdatei zu erhalten. Mit dieser und unserer Target-Sequenz haben wir dann mit FUGUE ein Sequence against Sructure Alignment durchgeführt.

Secondary Structure Prediction
Mit Hilfe des Predict Protein server's haben wir versucht die Sekundärstruktur unserer Proteine vorhersagen zu lassen. Der Server hat unsere Targetsequenzen an die folgenden Services weitergeschickt: nnpredict, predpro, prof, psipred, scratch und sam-t99.
Für die Sequenz des Proteins T0133 haben wir aus den einzelnen Ergebnissen eine Consensus-Sequenz abgeleitet:



Die Ergebnisse sind sich bei allen Programmen einigermaßen ähnlich. Es ließ sich folgendes ableiten:

Target-ID Class
T0133 All alpha proteins
T0160 All beta proteins
T0192 Alpha und Beta


Die Klassen unserer Targets entsprechen auch den Klassen der Proteine, die 123D und 3DPSSM gefunden haben.

Sequence against Sructure Alignment
Die .pdb-Dateien der homologen bzw. in der Struktur ähnlichen Proteine und die zugehörigen Target-Sequenzen haben wir mit Hilfe von FUGUE aligned.

T0133 → 1eyh | 1hf8 | 1hg5 | 1hx8
T0143 → 1dt2 | 1qtf
T0158 → 1evq | 1jji
T0160 → 1m1s | 1msp
T0164 → 1pgv
T0192 → 1qs0 | 1qsm
Diese Alignments haben wir im .pir-Format gespeichert und als Eingabe für den MODELLER verwendet, um das Homology Modelling durchzuführen.

Homology Modelling
Mit den .pir Dateien, die wir durch Threading mit FUGUE erhalten haben, und den Strukturdateien führten wir das Homology Modelling durch, um 3D Modelle unserer Proteine zu erhalten. Dazu verwendeten wir das Programm MODELLER.

Sequenzhomologe aus der PDB

T0143

a: Protein 1dt2 allein b: Target T0143 auf 1dt2 gelegt c: T0143 anhand von 1dt2 allein
a: Protein 1qtf allein b: Target T0143 auf 1qtf gelegt c: T0143 anhand von 1qtf allein

T0158

a: Protein 1evq allein b: Target T0158 auf 1evq gelegt c: T0158 anhand von 1evq allein
a: Protein 1jji allein b: Target T0158 auf 1jji gelegt c: T0158 anhand von 1jji allein

T0164

Target anhand des Proteins 1io0
a: Protein 1pgv allein b: Target T0164 auf 1pgv gelegt c: T0164 anhand von 1pgv allein

Proteine der Fold Recognition

T0133

a: Protein 1eyh allein b: Target T0133 auf 1eyh gelegt c: T0133 anhand von 1eyh allein
a: Protein 1hg5 allein b: Target T0133 auf 1hg5 gelegt c: T0133 anhand von 1hg5 allein
a: Protein 1hg5 allein b: Target T0133 auf 1hg5 gelegt c: T0133 anhand von 1hg5 allein
a: Protein 1pgv allein b: Target T0133 auf 1pgv gelegt c: T0133 anhand von 1pgv allein

T0160

a: Protein 1m1s allein b: Target T0160 auf 1m1s gelegt c: T0160 anhand von 1m1s allein
a: Protein 1msp allein b: Target T0160 auf 1msp gelegt c: T0160 anhand von 1msp allein

T0192

a: Protein 1qs0 allein b: Target T0192 auf 1qs0 gelegt c: T0192 anhand von 1qs0 allein
a: Protein 1qsm allein b: Target T0192 auf 1qsm gelegt c: T0192 anhand von 1qsm allein
Modelltests

Prosa

Prosa berechnet für eine gegebene Protein Struktur einen Energy Graphen, die blaue Linie entspricht der PDB Vorlage und die grüne Linie unserem Modell. Je geringer der Energy Wert ist, desto stabiler ist die Struktur an dieser Stelle. Man erkennt daran in welchem Abschnitt das Modell stabil ist und wo nicht.

T0133 → 1eyh | 1hf8 | 1hg5 | 1hx8
T0143 → 1dt2 | 1qtf
T0158 → 1evq | 1jji
T0160 → 1m1s | 1msp
T0164 → 1pgv
T0192 → 1qs0 | 1qsm

ProFit

ProFit berechnet den mittleren Abstand aller Residuen für zwei gegebene Protein Strukturen. Je kleiner der Abstand ist, desto besser passt das Modell an die Vorlage.

ModellReferenceZONE(Mod:Ref)SCORE
T01431DT21-216:15-23011.816
 1QTF1-216:15-23011.262
T01641PGV1-166:222-3875.354
T0164(1PGV)1IO01-166:179-3442.068
T01601M1S19-223:98-20617.182
 1MSP1-125:3-1265.506
T01581EVQ1-298:9-31020.159
 1JJI1-311:1-31111.093

Ein guter mittlerer Abstand liegt bei ca 2Å. Unsere Werte sind so hoch, weil wir dem ProFit nur die beiden Struktur Dateien und nicht zusätzlich das Alignment der Aminosäuren eingegeben haben. Die in der Tabelle angegeben Werte sind deshalb nicht aussagekräftig.

Vergleich/Analyse
Man kann erkennen, dass die Tertiärstrukturen unserer Modelle sehr gut auf die jeweiligen homologen bzw. durch Fold Recognition erhaltenen Proteine passen. Bei der Analyse mit ProSA, erkennt man jedoch, dass die Modelle der Proteine, die mittels Fold Recognition gebaut wurden, nicht ganz so stabil sind, wie die Vorlagen. Auffällig ist, dass die Strukturen der Targets von verschiedenen Vorlage Proteinen sich nicht sehr ähnlich sind. Nun ist die Frage, welches entspricht nun dem wirklichen Aussehen unseres Proteins....?