Bioinformatisches Praktikum:
Modul Proteinstrukturen
Alexander Groß, >Gunnar Boldhaus
Schnellnavigation
  1. Einleitung
  2. Proteinsequenz
  3. Datenbanksuche
  4. Fold Recognition
  5. Secondary Structure Prediction
  6. Sequence against Structure Alignment
  7. Homology Modeling
  8. Modellverifikation
  9. Proteinfunktion
  10. Weitere Informationsquellen
Einleitung

Ziel des Praktikums ist es, durch die Anwendung bioinformatischer Methoden Aussagen über die Struktur und Funktion von bislang nicht erforschten Proteinen zu erstellen. Dazu wurden im Rahmen des diesjährigen CASP6 Projekts (Critical Assessment of Techniques for Protein Structure Prediction) drei Proteine ausgewählt.

Die Ergebnisse der Untersuchung sind nachfolgend dargestellt.

Proteinsequenz

CASP6-Targets

Folgende Proteinsequenzen mit bisher unbekannter Struktur werden untersucht.

Target ID Name Beschreibung
T0219 yxaQ yxaQ, B. subtilis
T0237 PvAMA1 Apical merozoite antigen 1, P. vivax
T0270 1vdh Polyketide synthase curD, T. thermophilus

Einführende Tests

Zunächst werden die Sequenzen mit dem Tool DAS auf Transmembranregionen untersucht. Die anschließende Untersuchung auf Coiled coils unter Verwendung des COILS-Servers ermöglicht die Identifikation von superspiralisierten Regionen.

Target ID potenzielle Transmembranregionen potenzielle Coiled coils
T0219 0 1
T0237 0 1
T0270 0 1

Bei keinem der untersuchten Proteine können Transmembranregionen nachgewiesen werden. Jedoch enthält jedes Protein wahrscheinlich eine superspiralisierte Struktur. Weitere Informationen zur Schlüsselfunktion von Coiled coils finden Sie hier.

Datenbanksuche
Suche nach homologen Proteinen

Comparative protein structure modeling (oder Homology modeling) kann die 3D-Struktur eines gegebenen Proteins (Targets) voraussagen. Hierfür wird jedoch die bekannte Struktur eines Template-Proteins benötigt. Templates sind im Allgemeinen sog. homologe Proteine mit einer gewissen Ähnlichkeit zum Target. Mit Hilfe eines Sequenzalignments lassen sich derartige Proteine finden. Wir nutzen hierfür die Dienste BLAST und PSI-BLAST, die beide vom NCBI angeboten werden.

Target ID # homologe Proteine
(BLAST, PSI-BLAST)
Beschreibung
T0219 0, 0 E-Wert zu schlecht, keine Homologen gefunden
T0237 1, 1 ein homologes Protein (1HN6) gefunden
Aufgrund des sehr kurzen homologen Bereichs (114 AS) im Vergleich zur Gesamtlänge des Proteins (445 AS) ist keine genaue Voraussage der Sekundärstruktur zu erwarten.
T0270 1* ein homologes Protein (1T0T) gefunden
* PSIBLAST wird infolge guter Ergebnisse von BLAST nicht durchgeführt

Aufgrund der Ergebnisse lassen sich die Target-Proteine wie folgt einteilen:

  1. Targets ohne homologe Proteine
      T0219
  2. Targets zu denen homologe Proteine gefunden wurden
      T0237
      T0270

Um nähere Aussagen zur Struktur zu ermöglichen wird mit dem Protein der ersten Gruppe nachfolgend eine Fold Recognition durchgeführt. Bei Target-Proteinen mit Homologen wird dagegen das Verfahren Sequence against Structure Alignment mit FUGUE angewendet.

Da BLAST für T0237 ein mit 114 AS jedoch relativ kurzes homologes Protein findet, wird die Sequenz ebenfalls der Fold Recognition unterzogen.

Fold Recognition

Die Tools 3DPSSM und 123D+ werden mit der Bearbeitung der Target-Sequenz T0219 (ohne Homologe) und T0237 (kurzes Homologes) beauftragt. Folgendene Ergebnisse entstehen durch die Berechnung:

Target ID 3DPSSM 123D+ Beschreibung
T0219 Link Link 123D+ liefert keine guten (hohen, von anderen abgehobenen) Scores. 3DPSSM gibt mit 1MZF ein relativ gutes Ergebnis aus.
T0237 Link Link 123D+ gibt ebenfalls keine guten Ergebnisse aus. 3DPSSM hingegen bestätigt 1HN6 als homologes Protein.

1MZF und 1HN6 sind Gegenstand der weiteren Betrachtungen. Nach dem Herunterladen der Strukturdateien (1MZF.pdb, 1HN6.PDB) kann das Sequence against Structure Alignment mit FUGUE durchgeführt werden.

Secondary Structure Prediction

Die Beauftragung Server JPRED und PSIPRED mit der Bearbeitung der Targets ergab folgende Ergebnisse.

Target ID Ergebnis
T0219 JPRED PSIPRED
T0237 JPRED PSIPRED

Beide JPRED-Consensus-Sequenzen (Zeile "jpred") zeigen, dass sich sowohl alpha-Helices als auf beta-Faltblätter ausbilden werden. Die Ergebnisse von Lupas (Zeilen "Lupas *") ergeben, dass die Strukturen keine Coiled coils enthalten. Das steht im Widerspruch zu den o.g. Ergebnissen des COILS-Servers.

Sequence against Structure Alignment

Das Alignment der PDB-Dateien der homologen bzw. in der Struktur ähnlichen Proteine und der zugehörigen Target-Sequenzen wird mit Hilfe von FUGUE berechnet.

Target ID Template FUGUE-Ergebnis
T0219 1MZF HTML PIR
T0237 1HN6 HTML PIR
T0270 1T0T HTML PIR

Die Alignments im PIR-Format sind als Input für das Programm MODELLER geeignet welches das Homology Modeling durchzuführt.

Homology Modeling

Das Homology Modeling kann mit verschiedenen Tools durchgeführt werden. Hier wurden MODELLER und SWISS-MODEL verwendet, um die nachfolgend abgebildeten Modelle zu berechnen. Das Tool VMD ermöglicht die visuelle Darstellung der resultierenden PDB-Dateien.

T0219


MODELLER (PDB )
(kein Ergebnis) SWISS-MODEL gibt einen Fehler bei der Berechnung des Modells aus:
Length of target sequence: 330 residues
[...]
Sequence identity of templates with target: 1MZF.pdb: 42.1 % identity
[...]
AlignMaster found 1 regions to model separately:
1: Using template(s) 1MZF.pdb
1MZF.pdb has been rejected, too short projected model length (19 aa.)

T0237


MODELLER (PDB, PDF)
Aufgrund der kurzen Template-Sequenz können offensichtlich nicht alle Bereiche des Targets sinnvoll modelliert werden.

SWISS-MODEL (PDB, PDF)
VMD ist leider nicht in der Lage, das von SWISS-MODEL berechnete Modell im Cartoon-Modus zu rendern (Anzeige bleibt leer).

T0270

(kein Ergebnis) MODELLER bricht mit einem Fehler ab:
Number of residues in the alignment and pdb files are different: 1215 243
Trotz Änderungen an der PDB-Datei von 1T0T ist es nicht gelungen, MODELLER zur Verarbeitung des Alignments zu bewegen.

SWISS-MODEL (PDB)
VMD ist leider nicht in der Lage, das von SWISS-MODEL berechnete Modell im Cartoon-Modus zu rendern (VMD stürzt ab).

Die berechneten Modelle werden anschließend auf Ihre Qualität hin untersucht.

Modellverifikation

Prosa

Die Nutzung des Tools Prosa erlaubt die Bestimmung der Stabilität von Proteinen. Prosa erstellt eine Ansicht der intramolekularen Kräfte eines Proteins in Form eines Energiegraphen, wobei geringe Energiewerte stabile Strukture charakterisieren. Der grüne Graph stellt das Template-Protein dar, der blaue Graph zeigt den Energiewert des berechneten Modells.

Target ID Template Modell Energiegraph
T0219 1MZF MODELLER
T0237 1HN6 MODELLER
T0237 1HN6 SWISS-MODEL
T0270 1T0T SWISS-MODEL

ProFit

ProFit berechnet den mittleren Abstand aller Residuen zweier Proteine. Ein kleiner Abstand zeigt dabei, dass das Modell geeignet aus der Vorlage erstellt wurde.

Target ID Template Modell Zone ProFit-Score (RMS)
T0219 1MZF MODELLER 13-349:1-325 24,579
T0237 1HN6 MODELLER 436-545:336:445 7,201
T0237 1HN6 SWISS-MODEL 436-545:A436-A545 0*
T0270 1T0T SWISS-MODEL V6-V248:V6-V248 0*
* Hier ist fraglich, ob ein Fehler vorliegt oder das Modell extakt passt.

Fazit

Es ist erkennbar, dass nicht alle Modelle gut zu den Templates passen. Die RMS-Werte der zwei letzten Tabelleneinträge weisen entweder auf fehlerhafte Berechnungen hin, oder die Targets passen sehr gut zu den Templates.

Proteinfunktion

Abschließende Nachforschungen zu den Funktionen der Targets ergaben folgende Ergebnisse:

Target ID Ergebisse von Websites Funktion
T0219 Prosite PROTONET Prosite findet einige Bindungsstellen. PROTONET kategorisiert dieses Protein als speziell in Baktieren vorkommend.
T0237 Prosite PROTONET Prosite findet einige Bindungsstellen. PROTONET kategorisiert dieses Protein als speziell in Baktieren vorkommend.
T0270 Prosite PROTONET PROTONET verdeutlicht das Vorkommen des Proteins in Archaebaktierien. Diese Baktieren sind widerstandsfähig gegen chemisch-physikalische Einflüsse und können in extremen Regionen überleben.
Weiterführende Links: 1 2 3
Weitere Informationsquellen

Bei der Recherche nach Informationen im Rahmen des Praktikums sind einige zusätzliche Informationsquellen akquiriert worden.

Robetta Server

Der Robetta-Server fasst die oben beschriebenen, manuell durchzuführenden Schritte in einem einzigen Tool zusammen. Die vollautomatische Verarbeitung ermöglicht das zeitsparende Verarbeiten von Proteinen. Die ausgewählten Targets wurden bereits durch das Projekt bearbeitet.

Ergebnisse: T0219, T0237 und T0270

BOINC/Predictor@home

Im Rahmen des BOINC-Projektes (Berkeley Open Infrastructure for Network Computing) wurde das Predictor@home-Projekt ins Leben gerufen. Das Vorhaben hat sich zum Ziel gesetzt, die Struktur von CASP-Proteine durch den Einsatz verteilter und unabhängiger Rechner aufzulösen.

Gegenwärtig liegen bereits Ergebnisse zum Target T0219 vor. Ein Klick auf die Thumbnails öffnet das im VRML-Format gespeicherte Modell.