Bioinformatikpraktikum II

Martin Wannagat, Mathias Lesche


Aufgabenstellung

Im zweiten Modul des Bioinformatikpraktikum ging es um die Vorhersage der Tertiärstrukturen von Proteinen anhand von vorgegebenen Aminosäuresequenzen.
Das CASP6 (Critical Assessment of Techniques for Protein Structure Prediction) Projekt beschäftigt sich mit Methoden der Proteinstrukturvorhersage. Auf der Projektseite gibt es eine Liste von Aminosäauresequenzen. Von dieser Liste nahmen wir 3 targets.
nach oben

Durchführung

Auf der CASP6 Seite ist eine Liste mit den zu untersuchenden Targets. Von dieser Liste wählten wir 3.

Sequenzen

Tar-id Nres Method Entry-date Expiry-date Description
T0233 362 X-ray 8 Jul 10 Aug Anthranilate phosphoribosyltransferase 2, Nostoc sp. pcc 7120
T0253 194 X-ray 28 Jul 22 Aug Xanthine phosphoribosyltransferase, B.subtilis
T0264 294 X-ray 05 Aug 27 Aug Probable diphtine synthase APE0931, A. pernix

Bei den einzelnen Schritten des Praktikums richteten wir uns nach folgender Vorlage:

nach oben

Database Searching

Als erstes wird mittels einer Datenbanksuche auf der NCBI-homepage nach homologen Proteinen gesucht. Die jeweilige Aminosäuresequenz wird dabei mit den Sequenzen aus der Datenbank alignt. Proteine mit einem hohen score bzw einem niedrigen e-value( <0,1) werden als ausreichend homolog angesehen.

Homologue in PDB?

Falls homologe Proteine gefunden wurden, wird auch der eindeutige Code (4 stellige PDB-ID) angegeben. Mittels dieser PDB-ID kann man in der PDB-Database das homologe Protein finden, ebenso die *.pdb Datei, welche die Sequenz enthält.

Wenn kein homologes Protein gefunden wurde oder der e-value wert zu hoch ist, dann wird eine Secondary Structure Prediction und/oder eine Protein Fold Recognition durchgeführt.
Das Ziel der Sekundärstrukturvorhersage ist die Vorhersage der Alphahelixes, Beta-Faltblattstrukturen und der Loops.
Bei der Fold Recognition, mittels Fugue, wird versucht eine passende Struktur zu finden. Dabei wird die Eingabesequenz mit vorhandenen 3D-Strukturen verglichen.
Dadurch erhählt man ein homologes Protein und die dazugehörigen Daten (pdb.Datei, PDB-ID) oder kein Protein. Wir haben aber nicht diese pdb-Datei genommen, sondern nur die jeweilige pdb-Datei von der PDB-Database, da die pdb Datei, in unseren speziellen F"allen, meist fehlerhaft war.

nach oben

Sequenz vs. homologes Protein

Wurde zu der Aminosäuresequenz ein homologes Protein gefunden werden diese beiden Komponenten alignt. Dies kann man ebenfalls mit dem Tool Fugue machen (Align Sequence with Structure). Dabei erhät man eine *.pir Datei, die später gebraucht wird.

3D Modell

Beim nächsten Schritt wird mittels des Tools "Modeller" ein 3d-Modell der Aminosäuresuquenz erzeugt. Modeller benötigt dafür 3 Dateien. Die pdb-Datei des homologen Proteins. In dieser Datei ist die Tertiärstruktur des Proteins enthalten. Des weiteren wird die pir-Datei benötigt, denn diese enthält enthält sowohl die Aminosäuresequenz, als auch die Sequenz des Protein. Die dritte Datei ist ein kleines Startscript.
Dadurch erhät man die vermutete Tertiärstruktur des Targets. Diese ist ebenfalls in einer *.pdb Datei enthalten.

nach oben

Profit und Prosa


Profit und Prosa dienen der Überprüfung des Ergebenisses vom "Modeller".

Das Tool Profit benötigt 2 pdb-Dateien, jeweils die des homologen Protein und die enstandene pdb-Datei vom "Modeller". Die Tertiärstrukturen werden miteinander verglichen und der mittlere quadratische Fehler berechnet. Es gilt: Je höher desto schlechter. Ab einem RMS-Wert von 10 ist das Modell der gegebenen Aminosäuresequenz nicht mehr glaubhaft. Profit sollte wie folgt aufgerufen werden:

  • REFERENCE `pdb- Datei vom Template`
  • MOBILE `pdb- Datei des Modellers`
  • READALIGNMENT `pir- Datei von FUGUE`
  • IGNOREMISSING
  • FIT
  • Prosa berechnet die Energiestruktur der eingegebenen Strukturen. Dadurch kann verglichen werden, wie stabil die Targetsequenz ist. Das homologe Protein wird als Vorlage genommen und die Aminosäuresequenz mit diesem verglichen. Prosa sollte mit folgenden Befehlen aufgerufen werden:

  • read pdb Target.pdb
  • read pdb Template.B99990001.pdb
  • analyse energy *
  • color * Target blue
  • color * Template green
  • color back white
  • color axis black
  • color title black
  • winsize * 25
  • pscolor = 1
  • plot
  • export plot prosa.ps
  • nach oben

    Auswertung

    target homologe Protein RMS-Wert
    t0233 2tpt 6,021
    1brw 9,867
    1v8g 8,882
    1khd 11,909
    t0253 1o57 1,295
    1p4a 7,302
    1qb7 1,529
    1g2q 1,063
    t0264 1cbf 1,756
    1vhv 3,219

    Bemerkung:
    Zu jedem target wurden Grafiken mittels des Modeller erstellt. Die ersten beiden Grafiken zeigen jeweils das homologe Protein an, während die nächsten beiden die mögliche Tertiärstruktur des target anzeigen. In einigen Fällen existiert eine weitere Grafik. In dieser wurden die beiden Modelle übereinander gelegt.
    Bei dem Energiegraf ist die grüne Linie das target und die blaue das homologe Protein.

    T0233

    Für dieses Target wurde kein gutes Strukturmodell gefunden. Bei allen gefundenen Templates wurde ein schlechter RMS- Wert ermittelt. Auch die Energiekurven von prosa sind nicht zufriedenstellend.

    Bei diesem target hat die Suche 4 verschiedene Templates ergeben. 2 ermittelte blast und 2 weitere fugue.
  • 2tpt
  • Strukturmodell von 2tpt:

    Strukturmodell von t0233:

    Energiegraf:


    Selbst der beste Wert mit 6,021 Angström (Template 2tpt) ist nicht zufriedenstellend. Auch die von Prosa ermittelte Energiekurve, zeigt das es sich nicht um ein gutes Modell handelt. Es gibt besonders im zweiten Teil starke Abweichungen, die dann auch noch meist größer als null sind, d.h. das Modell ist nicht stabil.
    nach oben
  • 1brw
  • Strukturmodell von 1brw:

    Strukturmodell von t0233:

    Energiegraf:


    Bei der erstellten Energiekurve lassen sich besonders in der Mitte starke Unterschiede erkennen. Dort befindet sich die Kurve unseren Modelles im positiven Bereich, d. h. unser Modell ist in diesem Bereich nicht stabil. Der RMS- wert von 9,867 bestätigt das es sich nicht um ein vertrauenswürdiges Modell handelt.
    nach oben
  • 1v8g
  • Strukturmodell von 1v8g:

    Strukturmodell von t0233:

    Energiegraf:


    Der RMS- Wert liegt bei 8,882. Es lassen sich im gesamten Bereich der Sequenz Abweichungen zw. Modell und Template erkennen.
    nach oben
  • 1khd
  • Strukturmodell von 1khd:

    Strukturmodell von t0233:

    Energiegraf:


    Der RMS- Wert liegt bei 11,909. Auch die Energiekurve bestätigt, das es sich hier um das schlechteste Modell handelt, da hier in keinem Bereich Übereinstimmungen zu finden sind.
    nach oben

    T0253

    2 homologe Proteine ermittelte blast und 2 weitere fugue.
    Mit der Ausnahme von 1p4a hatten alle Modelle einen guten RMS- Wert.

  • 1o57
  • Strukturmodell von 1o57:

    Strukturmodell von t0253:

    Energiegraf:


    Der RMS- Wert von 1,295 ist sehr gut. Die Energiekurve bestätigt dieses aber nicht. Im ersten Drittel gibt es nur Überschneidungen. Ab ca. Residue 75 weicht die Kurve des Modelles von der des Templates stark voneinander ab und ist sogar im positiven Bereich.
  • 1p4a
  • Strukturmodell von 1p4a:

    Strukturmodell von t0253:

    Energiegraf:

    Der RMS- Wert beträgt 7,302. Die Energiekurve verdeutlicht diesen relativ schlechten Wert. Nur in dem kleinen Bereich von Residue 25 bis 40 gibt es eine Übereinstimmung beider Kurven. Im restlichen Verlauf divergieren beide sehr stark.

    nach oben
  • 1qb7
  • Strukturmodell von 1qb7:

    Strukturmodell von t0253:

    Energiegraf:

    Der RMS- Wert von 1,529 ist sehr gut. Überlagerungen beider Kurven ist aber nur im Bereich 40 bis 55 erkennbar. In den sonstien Bereichen gibt es starke Abweichungen.
    nach oben
  • 1g2q
  • Strukturmodell von 1g2q:

    Strukturmodell von t0253:

    Energiegraf:

    Hierzu wurde der beste RMS- Wert mit 1, 063 ermittelt. Die Energiekurve macht das Modell für den Bereich 110 bis 165 sehr glaubwürdig. Davor gibt es aber wieder Abweichungen beider Kurven. Die Kurve des Modelles liegt dann auch teilwise im positiven Bereich. Dennoch kann man sagen, dass es sich hierbei um unser bestes Modell handelt.
    Hier noch als Vergleich beide Strukturen übereinander gelegt:

    nach oben

    T0264

    1 homologes Protein ermittelte blast.

  • 1cbf
  • Strukturmodell von 1cbf:

    Strukturmodell von t0264:

    Energiegraf:

    Hier noch als Vergleich beide Strukturen übereinander gelegt:

    Der RMS-Wert beträgt 1,756.
    Die Energiekurve bestätigt den guten Wert zumindest im Bereich 75 bis 120. Dort überlagern sich beide Kurven fast. Danach divergieren aber beide Kurven zunehmend stärker. Die Kurve des Modelles liegt dabei deutlich im Positiven.
    nach oben
  • 1vhv
  • Strukturmodell von 1vhv:

    Strukturmodell von t0264:

    Energiegraf:

    Der RMS- Wert beträgt 3,219.
    Nur im Beriech von 125 bis 150 überlagern sich die von ProsaII erstellten Kurven teilweise. Ansonsten gibt es wieder starke Abweichungen.
    nach oben
    Links
    nach oben