Martin Wannagat, Mathias Lesche
Aufgabenstellung
Im zweiten Modul des Bioinformatikpraktikum ging es um die Vorhersage der
Tertiärstrukturen von Proteinen anhand von vorgegebenen Aminosäuresequenzen.
Das CASP6 (Critical Assessment of Techniques for Protein Structure Prediction)
Projekt beschäftigt sich mit Methoden der Proteinstrukturvorhersage.
Auf der Projektseite gibt es eine Liste von Aminosäauresequenzen. Von dieser
Liste nahmen wir 3 targets.
Durchführung
Auf der CASP6 Seite ist eine Liste mit den
zu untersuchenden Targets. Von dieser Liste wählten wir 3.
Sequenzen
Tar-id |
Nres |
Method |
Entry-date |
Expiry-date |
Description |
T0233 |
362 |
X-ray |
8 Jul |
10 Aug |
Anthranilate phosphoribosyltransferase 2, Nostoc sp. pcc 7120 |
T0253 |
194 |
X-ray |
28 Jul |
22 Aug |
Xanthine phosphoribosyltransferase, B.subtilis |
T0264 |
294 |
X-ray |
05 Aug |
27 Aug |
Probable diphtine synthase APE0931, A. pernix |
Bei den einzelnen Schritten des Praktikums richteten wir uns nach folgender Vorlage:
Als erstes wird mittels einer Datenbanksuche auf der NCBI-homepage nach homologen
Proteinen gesucht. Die jeweilige Aminosäuresequenz wird dabei mit den Sequenzen
aus der Datenbank alignt. Proteine mit einem hohen score bzw einem niedrigen
e-value( <0,1) werden als ausreichend homolog angesehen.
Falls homologe Proteine gefunden wurden, wird auch der eindeutige Code (4
stellige PDB-ID) angegeben. Mittels dieser PDB-ID kann man in der PDB-Database
das homologe Protein finden, ebenso die *.pdb Datei,
welche die Sequenz enthält.
Wenn kein homologes Protein gefunden wurde oder der e-value wert zu hoch ist,
dann wird eine Secondary Structure Prediction und/oder eine Protein Fold
Recognition durchgeführt.
Das Ziel der Sekundärstrukturvorhersage ist die Vorhersage der Alphahelixes,
Beta-Faltblattstrukturen und der Loops.
Bei der Fold Recognition, mittels Fugue,
wird versucht eine passende Struktur zu finden. Dabei wird die Eingabesequenz mit vorhandenen 3D-Strukturen
verglichen.
Dadurch erhählt man ein
homologes Protein und die dazugehörigen Daten (pdb.Datei, PDB-ID) oder kein Protein. Wir haben aber
nicht diese pdb-Datei genommen, sondern nur die jeweilige pdb-Datei von der
PDB-Database, da die pdb Datei, in unseren speziellen F"allen, meist fehlerhaft
war.
Wurde zu der Aminosäuresequenz ein homologes Protein gefunden werden diese beiden Komponenten alignt. Dies
kann man ebenfalls mit dem Tool Fugue machen (Align Sequence with
Structure). Dabei erhät man eine *.pir Datei, die später gebraucht wird.
Beim nächsten Schritt wird mittels des Tools "Modeller" ein 3d-Modell der Aminosäuresuquenz erzeugt.
Modeller benötigt dafür 3 Dateien. Die pdb-Datei des homologen Proteins. In dieser Datei ist die
Tertiärstruktur des Proteins enthalten. Des weiteren wird die pir-Datei benötigt, denn diese
enthält enthält sowohl die Aminosäuresequenz, als auch die Sequenz des Protein. Die dritte Datei ist
ein kleines Startscript.
Dadurch erhät man die vermutete Tertiärstruktur des Targets. Diese ist ebenfalls in einer *.pdb Datei
enthalten.
Profit und Prosa dienen der Überprüfung des Ergebenisses vom "Modeller".
Das Tool Profit benötigt 2 pdb-Dateien, jeweils die des homologen Protein und die enstandene pdb-Datei vom
"Modeller". Die Tertiärstrukturen werden miteinander verglichen und der mittlere quadratische Fehler
berechnet. Es gilt: Je höher desto schlechter. Ab einem RMS-Wert von 10 ist das Modell der gegebenen
Aminosäuresequenz nicht mehr glaubhaft. Profit sollte wie folgt aufgerufen werden:
REFERENCE `pdb- Datei vom Template`
MOBILE `pdb- Datei des Modellers`
READALIGNMENT `pir- Datei von FUGUE`
IGNOREMISSING
FIT
Prosa berechnet die Energiestruktur der eingegebenen Strukturen. Dadurch kann verglichen werden, wie stabil die
Targetsequenz ist. Das homologe Protein wird als Vorlage genommen und die Aminosäuresequenz mit diesem
verglichen. Prosa sollte mit folgenden Befehlen aufgerufen werden:
read pdb Target.pdb
read pdb Template.B99990001.pdb
analyse energy *
color * Target blue
color * Template green
color back white
color axis black
color title black
winsize * 25
pscolor = 1
plot
export plot prosa.ps
target |
homologe Protein |
RMS-Wert |
t0233 |
2tpt |
6,021 |
|
1brw |
9,867 |
|
1v8g |
8,882 |
|
1khd |
11,909 |
t0253 |
1o57 |
1,295 |
|
1p4a |
7,302 |
|
1qb7 |
1,529 |
|
1g2q |
1,063 |
t0264 |
1cbf |
1,756 |
|
1vhv |
3,219 |
Bemerkung:
Zu jedem target wurden Grafiken mittels des Modeller erstellt. Die ersten beiden Grafiken zeigen jeweils das homologe Protein an, während
die nächsten beiden die mögliche Tertiärstruktur des target anzeigen. In einigen Fällen existiert eine weitere Grafik. In dieser wurden
die beiden Modelle übereinander gelegt.
Bei dem Energiegraf ist die grüne Linie das target und die blaue das homologe Protein.
Für dieses Target wurde kein gutes Strukturmodell gefunden.
Bei allen gefundenen Templates wurde ein schlechter RMS- Wert ermittelt.
Auch die Energiekurven von prosa sind nicht zufriedenstellend.
Bei diesem target hat die Suche 4 verschiedene Templates ergeben. 2 ermittelte blast und
2 weitere fugue.
2tpt
Strukturmodell von 2tpt:
Strukturmodell von t0233:
Energiegraf:
Selbst der beste Wert mit 6,021 Angström (Template 2tpt) ist nicht zufriedenstellend.
Auch die von Prosa ermittelte Energiekurve, zeigt das es sich nicht um ein gutes
Modell handelt. Es gibt besonders im zweiten Teil starke Abweichungen, die dann
auch noch meist größer als null sind, d.h. das Modell ist nicht stabil.
1brw
Strukturmodell von 1brw:
Strukturmodell von t0233:
Energiegraf:
Bei der erstellten Energiekurve lassen sich besonders in der Mitte starke
Unterschiede erkennen. Dort befindet sich die Kurve unseren Modelles im positiven
Bereich, d. h. unser Modell ist in diesem Bereich nicht stabil.
Der RMS- wert von 9,867 bestätigt das es sich nicht um ein vertrauenswürdiges
Modell handelt.
1v8g
Strukturmodell von 1v8g:
Strukturmodell von t0233:
Energiegraf:
Der RMS- Wert liegt bei 8,882.
Es lassen sich im gesamten Bereich der Sequenz Abweichungen zw. Modell und
Template erkennen.
1khd
Strukturmodell von 1khd:
Strukturmodell von t0233:
Energiegraf:
Der RMS- Wert liegt bei 11,909.
Auch die Energiekurve bestätigt, das es sich hier um das schlechteste Modell
handelt, da hier in keinem Bereich Übereinstimmungen zu finden sind.
2 homologe Proteine ermittelte blast und
2 weitere fugue.
Mit der Ausnahme von 1p4a hatten alle Modelle einen guten RMS- Wert.
1o57
Strukturmodell von 1o57:
Strukturmodell von t0253:
Energiegraf:
Der RMS- Wert von 1,295 ist sehr gut.
Die Energiekurve bestätigt dieses aber nicht. Im ersten Drittel gibt es nur
Überschneidungen. Ab ca. Residue 75 weicht die Kurve des Modelles von der des
Templates stark voneinander ab und ist sogar im positiven Bereich.
1p4a
Strukturmodell von 1p4a:
Strukturmodell von t0253:
Energiegraf:
Der RMS- Wert beträgt 7,302.
Die Energiekurve verdeutlicht diesen relativ schlechten Wert. Nur in dem kleinen
Bereich von Residue 25 bis 40 gibt es eine Übereinstimmung beider Kurven.
Im restlichen Verlauf divergieren beide sehr stark.
1qb7
Strukturmodell von 1qb7:
Strukturmodell von t0253:
Energiegraf:
Der RMS- Wert von 1,529 ist sehr gut.
Überlagerungen beider Kurven ist aber nur im Bereich 40 bis 55 erkennbar. In den
sonstien Bereichen gibt es starke Abweichungen.
1g2q
Strukturmodell von 1g2q:
Strukturmodell von t0253:
Energiegraf:
Hierzu wurde der beste RMS- Wert mit 1, 063 ermittelt.
Die Energiekurve macht das Modell für den Bereich 110 bis 165 sehr glaubwürdig.
Davor gibt es aber wieder Abweichungen beider Kurven. Die Kurve des Modelles
liegt dann auch teilwise im positiven Bereich. Dennoch kann man sagen,
dass es sich hierbei um unser bestes Modell handelt.
Hier noch als Vergleich beide Strukturen übereinander gelegt:
1 homologes Protein ermittelte blast.
1cbf
Strukturmodell von 1cbf:
Strukturmodell von t0264:
Energiegraf:
Hier noch als Vergleich beide Strukturen übereinander gelegt:
Der RMS-Wert beträgt 1,756.
Die Energiekurve bestätigt den guten Wert zumindest im Bereich 75 bis 120.
Dort überlagern sich beide Kurven fast. Danach divergieren aber beide Kurven
zunehmend stärker. Die Kurve des Modelles liegt dabei deutlich im Positiven.
1vhv
Strukturmodell von 1vhv:
Strukturmodell von t0264:
Energiegraf:
Der RMS- Wert beträgt 3,219.
Nur im Beriech von 125 bis 150 überlagern sich die von ProsaII erstellten Kurven
teilweise. Ansonsten gibt es wieder starke Abweichungen.
Links