TCTP steht für "translationally controlled tumor protein" und wurde erstmals in Tumorzellen entdeckt. Heute ist bekannt, dass TCTP nicht nur in Tumorzellen zu finden ist, sondern interspezifisch auch in Einzellern, Pflanzen, Hefen und Eukaryoten zu finden ist. Demnach konnte TCTP (p23) in einer Reihe von Spezies nachgewiesen werden, wie z.B. Caenorhabditis elegans (Bini et al. 1997), oder den Pflanzen Alfalfa (Pay et al. 1992) und Pharbitis (Sage-Ono et al. 1998).
Diesbezüglich reicht die Funktion dieses, auf trankriptioneller oder translationeller Ebene regulierten, Proteins von Regulation des Zellwachstums über Histaminfreisetzung beim Menschen und Beeinflussung einer Reihe von Signalwegen, die bisweilen noch nicht vollständig erfasst sind.
Unter Verwendung von Immunfluoreszenzmikroskopie konnte man feststellen, dass TCTP in der Lage ist mit dem Zytoskelett zu interagieren. Dabei tritt TCTP mit α-Tubulin und
β-Tubulin in Kontakt (Gachet et al. 1999).
Da Mikrotubuli zusammen mit Aktin und Intermediärfilamenten zu den strukturgebenden Zytuskelettfilamenten gehört, scheint auch TCTP Einfluss auf die Ausbildung und Interaktion der Tubulinuntereinheiten zu nehmen. Im weiteren ist bekannt, dass TCTP in der Ana/Metaphase mit der Mitosespindel in Verbindung steht und so bestimmend für spezifische Signalwege ist. Auch ist es ein wichtiges Antiapoptotisches Protein in Zellen.
Im weiteren konnte experimentell festgestellt werden, dass die mRNA von TCTP durch PKR kontrolliert wird bzw. deren Translation inhibiert wird. Dies Bindung konnte beim Menschen (Bommer et al. 2002) und bei der Maus (Diraison et al. 2011) belegt werden. Die genaue Position der Bindungsstelle konnte aber nicht bestimmt werden. Es wurde nur bewiesen das der codierende Teil der mRNA alleine keine Bindung mit PKR eingeht. Somit wird die Bindungsstelle auf der 5'UTR oder dem 3'UTR vermutet. Die doppelsträngige RNA-abhängige Proteinkinase PKR spielt eine wichtige Rolle bei der Apoptose. Sie ist in der Lage elF2 zu phosphorylieren und dadurch die Proteinsynthese zu inhibieren.
Abb. 1 :Modell der Signalkaskade zur Regulation der Apoptose. Dargestellt ist hier die Interaktion zwischen TCTP und PKR. TCTP besitzt vorwiegend eine Schütende Rolle und verhindert den Zelltod. Verlust dieses Proteins scheint einen proapoptotischen Effekt zu haben und führt zur Aktivierung von p53 und PKR (Bommer et al. 2010).
Das Ziel dieses Projektes ist mit Hilfe von bio-informatischen Tools mögliche Bindungsstellen von PKR auf den untranslatierenden Regionen der TCTP-mRNA zu finden. Dazu wurden nach konservierten Bereichen in den 5' und 3'UTRs gesucht.
Bekannte PKR-Bindungsstellen und damit RNA-Sekundärstrukturen an den PKR bindet, werden bei Interferon-γ (Cohen-Chalamish et al. 2009) und TNF-α (Osman et al. 1999) beschrieben. Diese beinhalten sowohl einen Kink-Turn also auch einen Pseudo-Knoten.
Zu Beginn wurden folgende Fragen aufgestellt:
Gibt es alternative Namen zum Protein?
Wie weit ist das Protein phylogentisch konserviert?
Proteine von distancen species herunterladen.
Wie weit ist das Protein phylogentisch konserviert?
Proteine von distancen species herunterladen.
Wir haben die mRNA und Protein Strukturen aus der NCBI-Datenbank entnommen.
Eine vollständige Liste der benutzten Sequenzen:
Die Liste der verwendeten Programme:
Analyse von Sequenzdaten
Um Aussagen über die Verbreitung und Funktion bestimmter Poteine zu erhalten, ist es notwendig konservierte Muster in der Nukleotid-und auch Proteinsequenz zu identifizieren. Weiterhin ist es von besonderer Bedeutung evolutionäre Beziehungen zu erschliessen, um mögliche Funktionen erörtern zu können. Dadurch kann man Aussagen über konservierte Sequenzbereiche und die Konservierung treffen.
Der Vergleich von Nukleotid-oder Proteinsequenzen kann paarweise oder gruppiert als sogenannte multiple Alignments erfolgen. Für die Durchführung dieser Sequenzvergleiche wurden eine Reihe von Alignment-Algorithmen erstellt.
paarweisen Alignments können global oder lokal aligniert werden. Global bedeutet in diesem Fall alle Symbole werden berücksichtigt und die Sequenzen sollten in ihrer Länge vergleichbar sein. Auch sollten beide Sequenzen eine starke Sequenzhomologie besitzen. Bei lokale Alignments geht es darum, dass zwei Teilsequenzen gefunden werden müssen, deren Alignmentscore maximal ist.
Der Vergleich mehrerer Sequenzen, den so genannten multiplen Alignments, liefert genauere Informationen über die Verteilung der Aminosäuren an bestimmten Positionen. Die daraus resultierenden Ergebnisse geben Aufschluss über konservierte Bereiche und dienen zur phylogenetischen Analyse.Hierbei werden sogenannte Heuristika verwendet, bei denen zuerst alle paarweisen Alignments berechnet und unter Verwendung der Clusteranalyse in einen Guide-Tree eingetragen werden.
Anhand dieses phylogenetischen Baumes wird dann progressiv ein multiples Alignment erstellt.
Es gibt eine Vielzahl von Programmen, die sich zur Analyse anbieten. Das am meisten verwendete Programm zur vergleichenden Analyse von Sequenzen stellt BLAST (Basic Local Alignment Search Tool) dar.
Es wurde von Stephen Altschul, Warren Gish, David J. Lipman, Webb Miller und Eugene Myers an den National Institutes of Health entwickelt.
BLAST vergleicht Nukleotid-oder Aminosäuresequenzen mit einer bereits vorhandenen Datenbank. Dabei teilt das Programm die Sequenz in mehrere Teilstücke und sucht nach dem besten Score. Der BLAST-Algorithmus basiert darauf, dass ein Alignment zweier Sequenzen aus vielen kurzen, identischen Abschnitten mit einem hohen Score besteht.
Als Ergebniss erhält man damit eine Liste von HSPs (high scoring segment pairs).
Das Blastpaket enthält aber noch weitere Programme, die für verschiedene Anwendungsbereiche geeignet sind. Das Programm tblastn nutzt als Querysequenz eine Proteinsequenz und sucht in einer Datenbank von Nukleotidsequenzen, welche jeweils umgesetzt werden. Dieses Programm ist besonders geeignet für die Suche nicht annotierten kodierenden Bereichen in Datenbanksequenzen (Bioinformatik, Sequenz-Struktur-Funktion, Reinhard Rauhut , WILEY-VCH).
IM Weiteren bietet sich die Möglichkeit der Verwendung von clustalW und dialign an. Beide benötigen die Eingabedaten als FASTA-Format, wofür die zuvor in der NCBI-Datenbank gefundenen mRNA-Sequenzen im FASTA-Format abgespeichert wurden.
ClusalW gibt als Ausgabe eine aln. Datei mit dem entsprechenden multiplen Alignment und jeweiligen Ähnlichkeitsscores. Zuerst erstellt ClustalW ein globales Alignment aller möglichen Basenpaare und erstellt anhand der Distanzen einen „Guide-Tree“. Im Anschluss wird anhand dessen ein multiples Alignment erstellt.
Dialign vergleicht im Gegensatz nicht einzelne Basen, sondern größere Segmente von Sequenzen. Da hier keine Gaps eingefügt bzw. bestraft werden, wird es auch als Segment-basierender Ansatz bezeichnet. Homologe Diagonalen werden in einem Dotplot dargestellt und entsprechend ihres P-Value gewichtet und sortiert. Diese dienen anschliessend zur Erstellung eines multiplen Alignments.
Das Sequenz-Alignment-Programm MAFFT (Katoh et al. 2002) nutzt die Fast-Fourier-Transformation. In den Alignment-Schritten werden die Segmente nach FFT aligniert. Die Grundlage der FFT-Analyse bilden bestimmte physiochemischen Eigenschaften. Diese sind im Falle von Proteinen Volumen und Polarität und bei Nukleotiden die Häufigkeit des Vorkommens in dem Genom. Aus den entstehenden Peaks werden homologe Blöcke konstruiert, die in einer Homologie-Matrix dargestellt werden und aus denen eine optimale Anordnung extrahiert wird.Zum Alignieren vieler RNA-Sequenzen ist insbesonders LocARNA geeignet. Es verwendet paarweises alignieren unter Verwendung der dynamischen Programmierung. Multiple Alignments werden aus paarweisen Alignierungen unter Verwendung der progressiven Strategie erstellt.
R-Coffee ist ebenfalls ein Tool für multiple RNA-Alignments und ist im T-Coffee-Paket enthalten. Für das Scoringschema nutzt R-Coffe zusätzlich Informationen aus der Sekundärstruktur (Wilm et al. 2008).
Sekundärstruktur-Vorhersage
Die Struktur der RNA ist bestimmt durch die Interaktion komplementärer Basenpaare . Die Anordnung dieser Basenpaare bestimmt damit die möglichen Faltungsmuster der RNA. Diese räumliche Anordnung ist entscheident für die Funktion und Wechselwirkungsmöglichkeiten der RNA. Damit ist es von entscheidender Bedeutung für die Erschliessung der Funktionsweise, die Struktur vorher zusagen.Die Basenpaarunge tragen zur Stabiliesierung der Struktur bei. Dabei gehen die Basen zum einen Wasserstoffbrückenbindungen mit komplementären Basen ein und zum anderen treten sie mit benachbarten Basen in Wechselwirkung. Sequenzabschnitte ungepaarter Basen bilden sogenannte Loops aus und wirken sich destabilisierend auf die Struktur aus.
Für die Vorhersage der potentiell wahrscheinlichsten Sekundärstruktur bietet sich das Programm RNAfold an. Dieses ist im ViennaRNA Package enthalten und basiert auf dem Prinzip der Energieminimierung, um die thermodynamisch optimale Sekundärstruktur zu finden. Um eine Aussage über eine evolutionär konservierte RNA-Struktur zu treffen, eignet sich das Programm RNAalifold. Dieses nutzt zusätzlich die Informationen des Alignments der Sequenzen. Daraus wird eine Konsensussequenz erstellt und für dieses ein Faltungsmuster berechnet.
Ein weiteres Programm zur Alignierung von RNA-Stukturen stellt Dynalign dar. Dieses beruht auf dem Sankoff-Algorithmus (Sankoff 1985). Dabei wird zuerst ein Allignment erstellt und die gemeinsame MFE-Struktur (Minimum-Free-Energie) vorhergesagt.
Die Konstruktion der Sekundärstruktur wird anhand von thermodynamischen Regeln erstellt. Die freie Energie der Struktur ergibt sich aus folgender Formel:
G0 total = G0 Sequenz 1 + G0 Sequenz 2 + (G0 Gap)
Da jedes Gap bestraft wird, findet Dynalign die opimale Lösung. Die Vorhersage von Pseudoknoten ist allerdings nicht möglich.
Das berechnete Faltungsmuster enthält schließlich hairpins, loops, stems, bulgs, internal loops, multiloops.
Abb. 2 : Darstellung von möglichen Sekundärstrukturen der RNA. (A) Helikale Struktur (B) Hairpin-Loop, (C) Ausbuchtung (Bulge), (D) Interne Schleife. Es gilt stets i < j. Quelle
Pseudoknoten
Pseudoknoten entstehen durch Basenpaarung nicht-benachbarter Segmente.
Eine Reihe von Programmen bieten die Möglichkeit basierend auf verschiedenen Algorithmen diese vorher zubestimmen :
- ILM
- pKnotsRG
- HotKnots
- vsfold5
ILM (Iterated Loop Matching ) basiert auf einen dynamic progamming-Algorithmus und kann RNA-Strukturen mit Pseudoknoten vorher sagen. Dieser Logarithmus nutzt sowohl thermodynamische , als auch vergleichende Informationen aus. Der Initialschritt basiert hier auf der Vorhersage nicht-pseudogeknoteter Strukturen und bestimmen der wahrscheinlichsten Helice. Diese wird entfernt und der LM-Algorithmus wird auf die verkuerzte Sequenz erneut angewandt bis keine Base mehr uebrig ist.
Kink-turns
Ein weiteres sehr komplexes RNA-Motiv sind sogenannte Kink-turns. Sie dienen als Erkennungsseiten für bestimmte Signalmolekuele und weisen eine spezifische 3D-Struktur auf.
Kennzeichnend sind Doppel-und Einzelstangelemente, welche um zwei nicht-kanonische Basenpaare organisiert sind. Dieses Basenpaar ist typischerweise von einem gescherten G-A Typ und bildet den nicht-kanonishen NC-Stamm.
Dieser Stamm ist verbunden mit einem typischen Watson-Cick Basenpaar des G-C Typs und wird als kanonischer C-Stamm bezeichnet. Die entstehende 3D-Struktur ermöglicht Interaktionen mit Proteinen und nimmt dadurch Einfluss auf unterschiedliche Signalwege. Weitere Informationen ueber K-turns kann dem folgenden Link entnommen werden :
Quelle
Das Programm Kink-Turn in RNA sucht nach bisher bekannten KT-Motiven in einer gegebenen Sequenz und markiert diese Struktur abschliessend.
Ergebnisse
Datensammlung
Der erste Schritt zur Lokalisation möicher Bindungstellen für PKR , ist eine Ansammlung an mRNA-und Proteinsequenzdaten, auf die später zurück gegriffen werden, kann anzulegen.
Zu diesem Zweck wurde nach alternativen Namen des Proteins gesucht. Wie bei verschiedenen anderen Proteinen, werden diese hinsichtlich ihrere Entdeckung und Funktion bezeichnet.Dabei kann es durchaus vorkommen, dass das gleiche Protein in verschiedenen Organismen vorkommt und durch unterschiedliche Funktionen auch unterschiedliche Bezeichnungen erhält.So ist es in der Literatur nicht nur als TCTP oder P23 beschrieben,sondern weitere Bezeichnungen sind: fortilin, histamine-releasing factor (HRF), TPT1, p02, p21 oder Q23.
Nun kann anhand dieser weiteren Bezeichnungen nach dem Protein bzw. mRNA in der NCBI Datenbank gesucht werden. Dabei konnte festgestellt weden,dass dieses Protein sehr stark konserviert ist und nicht nur in den erwarteten Eukaryoten, sondern bis zu den Pflanzen und Pilzen zu finden ist. Dies ist weiter als die bekannte Konservierung von PKR in den Euteleostomi. Somit ist der begrenzende Faktor hier das Vorhandensein von PKR in den Euteleostomi. Somit sind weitere Betrachtungen nur auf mRNAs dieses und naher Verwandter Taxons begrenzt.
Nun kann eine Reihe von mRNAs mit den dazugehörigen Aminosäure-Sequenzen geladen werden. Eine genaue Liste der mRNAs findet man unter Material. Dabei ist darauf zu achten, dass die mRNA sehr unterschiedlichen Ursprung sein kann und damit einmal mit UTRs am 5' und 3'-Ende, mit 5'Cap und Poly-A-Schwanz oder einfach nur die kodierende Sequenz sequenziert wurde. Damit musste beachtet werden wie vollständig die mRNAs sind.
Die Struktur der mRNA auf dem Genom lässt sich sehr gut mit Hilfe der "Genom browser", Ensemble und UCSC bestimmen. Dazu werden die ermittelten Protein-Sequenzen gegen die Genome von den zu betrachtenden Spezies verglichen. Dabei kommen intern "Blat" oder "Blast" zum Einsatz. Die Suche auf den Genomen ergab, dass es mehr als eine Kopie der mRNA auf den Genomen gibt.
Zum Beispiel werden bei dem Kaninchen zwei mRNAs vom TCTP-Gen generiert.Dabei scheint es auch eine Kopie ohne Introns zu geben. Im weieteren Vorgehen wurden nur die längeren mRNAs betrachtet.
Die zweite Auffälligkeit ist, dass sich die gefundenen kodierenden Sequenzen auf vier Exons aufteilen. Das steht im Widerspruch zur Literatur, in welcher sechs Exons beschrieben werden. Bei näherer Betrachtung ist erkennbar, dass fast nur vier der Exons kodieren Sequenzen beinhalten und die anderen beiden am 5' und am 3' Ende der mRNA liegen wobei sie fast komplett aus UTR Bereichen bestehen. Da die Suche über die Protein-Sequenz ,den kodierenden Teil lief konnten diese Exons nicht gefunden werden.
Somit ergibt sich eine Struktur der Form:

Abb.2.1 : Struktur der TCTP-mRNA. Exon 1 (140-157 bp) und Exon 6 (~500bp) liegen außerhalb der kodierenden Sequenz und damit in der 5'und 3'UTR. Exon2 hat eine Länge von 70-77 bp, Exon 3 191 bp, Exon 4 106 bp und Exon 5 116 bp. Die Intronlängen variieren zwischen den Spezies sehr stark und für weitere Betrachtungen unrelevant.
Die Suche über Protein-Sequenzen ist nötig da die mRNA's nicht sehr stark konserviert sind und es somit schwierig ist diese in anderen Spezies wieder zufinden. Diese Tatsache wird durch die extrem variablen Introns sogar noch verstärkt.
Suche in neuen Genomen
Um noch weitere Grundlagen für die Erörterung der Konservierung und Strukturbestimmung zu schaffen, haben wir versucht die Proteine in weiteren Genomen zu finden. Dazu wurden die Protein-Sequenzen aus der NCBI mit eine Sammlung von Metazoa-Genomen verglichen. Diese Genome wurden aus NCBI, USCE und Ensemble zusammengestellt und von den Betreuern bereitgestellt.
Für diese Analyse wurde tBLastn verwendet(genauere Informationen siehe Methoden).
Die Ergebnisse weisen eine Vielzahl von Treffern auf dem selben Genom auf. Dafür gibt es drei Gründe: Zum einen wurde das Genom mit mehreren Protein-Sequenzen verglichen, wobei mehrere Treffer an einer Stelle entstehen, die auf der selben Ähnlichkeit beruhen. Zweitens gibt es mehrere Kopien der mRNA und somit viele Treffer auf dem ganzen Genom, welche unabhängig von einander sind. Drittens gibt es Introns, die nicht getroffen werden können und somit kann sich ein Treffer aus mehreren einzelnen Introns zusammensetzen.
Für die weiter Auswertung wurden zwei gut konservierte Exons benötig. Dafür wurden die beiden Exons 3 und 5, welche in einer Vielzahl von Spezies vorkommen, verwendet.
Diese Annäherung ist notwendig, da die benötigten UTRs am 5' und 3' nicht genau getroffen werden können.
Die Variabilität der Intronlänge zwischen den Exons, lässt viel Spielraum für Veränderung in den Abständen. Dies ist besonders bei der 5'UTR sehr problematisch, da 2 Introns zwischen dem Exon von Interesse und dem Gefundenen liegen. Somit könnte der Bereich von Interesse zwischen 200- 2000 Nukleotide entfernt sein.
Außerdem erzeugten wir nicht in allen Genomen Treffer,da die NCBI-Genombank nicht vollständig ist bzw. die Exongröße sich im Laufe der Evolution verändert hat.
Dementsprechend wird die Anzahl an Treffern verringert und es blieben sehr große Bereiche übrig.
Der Versuch ,mit den gefundenen mRNA-Sequenzen unter Verwendung von Splign(genauere Informationen in Methoden ) weitere Treffer, auf nahen verwandten Spezies, zu generieren, brachte keine neuen Ergebnisse. Dies beruht darauf, dass diese mRNA-Suche nur bei sehr verwandten Spezies gut funktioniert. Die Verwendung der gefundenen mRNA-Sequezen in der NCBI-Datenbank brachte daher nur eine Bestätigung der bereits vorhandenen Daten.
Weitere Maßnahmen zur Auswertung wurden nicht verfolgt. Es könnte aber durchaus ein Erster Ansatz sein um Mögliche Ergebnisse zu überprüfen.
Alignment von mRNA-Sequenzen
Das Ziel dieses Ansatzes ist die Vorhandenen und die durch NCBI abgesicherten Daten weiter zu verarbeiten. Dabei sollten auf den mRNAs konservierte Sequenzen gesucht und aligniert werden.
Dabei bietet sich die Verwendung einer Reihe von Programmen an. Die Vorgehensweise kann man in zwei Kategorien teilen: 1) Unterscheidung auf Grund der Sequenzähnlichkeit (Mafft, t-coffe, clustalw und dialign) und
2) Unterscheidung anhand der Strukturähnlichkeit ( R-coffee, foldalign, dynalign und locARNA).
Da die Faltungsalignemnts sehr zeitaufwendig sind, um sie auf die kommpleten mRNAs anzuwenden, wurde zuerst versucht anhand von Sequenz-Alignemnts die UTRs zu ermitteln, die dann wiederum mit den Sequenz Alignments neu aligniert werden konnten.
Allerdings war dies schwierig, da, wie bereits erwähnt, die mRNAs sehr unterschiedliche Sequenzbereiche besitzen. Dies liegt an der Degeneriertheit des Genetischen-Codes, aber auch daran das die UTRs sehr variabel in ihrer Länge sind. Die Tools für Multi-Alignments produzierten sehr verschiedene Ergebnisse. Diese Unterschiede sind mit den abweichenden mRNA-Längen zu erklären.
Zur Veranschaulichung der Unterschiede der Ergebnisse zwischen den verschiedenen Alignmentprogrammen, sind hier drei Bespiele dargestellt. Deutlich wird hier die unterschiedliche Länge der mRNA :dialign :3100 bp,T-Coffee nur 2115 bp und Mafft sogar nur 1728 bp. Damit ergebenkleine Unterschiede in der Länge der kodierenden Sequenzen und größe bei den UTRs.
Profilalignment
Die durch die Sequenz-Alignment-Programme entstehende Variabilität, macht es sehr schwer eine Mölichkeit als realistisch zu betrachten. Aus diesem Grund erzeugten wir ein weiteres Multi-Sequenz-Alinment. Dieses erhielten wir über Clustalw und Profilalinments (vsfold, rmdetekt). Bei Profilalignments werden zuerst zwei verwandte Spezies paarweise aligniert. Danach wird sSuml;ck für Stück eine weitere etwas weniger verwandte Spezies hinzugefügt. So können Fehler, die das Programm macht per Hand korröiegiert werden. Dabei wurde ein Alignment in dieser Reihenfolge aufgebaut: Mensch, Maus, Hase, Hund, Rind, Spitzmausbeutelratte und Hühnchen. Zwischen den einzelnen Schritten wurde am 5' Ende die Sequenzen, unter Verwendung der Genom-Datenbank UCSC, verlängert. Die Sequenzlänge wurde dabei an die mRNA vom Menschen angepasst. Außerdem wurde am 3' Ende die Sequenzen gekürzt, sodass alle Sequenzen bündig zum Anfang des Poly-A-Schwanzes der Maus sind.
Dadurch erhielten wir ein ALignment von 7 Spezies:
Das Alignment als STOCKHOLM-Format
Das Alignment läst erkennen, dass das Huhn, welches zu den Aves gehört, abweichende Sequenzabschnitte aufweist. Das Alignment von Mensch,Maus,Hase,Hund,Rind und Spitzmausbeutelratte dagegen zeigen eine starke Übereinstimmung
Clustalx produzierte weiterhin ein Guide-Tree aus den Sequenzähnlichkeiten :

Der nächste Schritt war die 5' UTR und die 3' UTR einzeln zu betrachtet . Dazu wurde sich an den CDS ("coding-sequence")-Positionen der menschlichen mRNA orientiert. Aus diesen Informationen haben wir zwei Teile des Alignments erzeugt.
Das 5'-UTR-Alignment:
Das Alignment als Clustal-Format
Das 3'-UTR-Alignment:
Das Alignment als Clustal-Format
Diese Alignments war die Grundlage für die Strukturberechnungen.
Strukturvorhersage
Zu Bestimmung der Sekundnärstruktur wurden die Alignments unter Verwendung von Faltungsprogrammen (RNAfold, vsfold, RNAalifold,rmdetekt) weiter verarbeitet. RNAalifold bestimmte aus den gegebenen 5'UTRs eine Konsensussequenz und faltete diese.
Alifold erzeugte für die 5'UTR die Faltung:

Alifold erzeugt für die 3'UTR die Faltung:

Beide Strukturen beinhalten mehre Stams und somit künte an beiden UTRs die Bindungstelle liegen. Somit müssen beide Nach möglichkeiten unterscuht werden.
Zunächst Betrachten wir die 5'UTR.
Mit RMdetect konnten zwei "kink-turns" ermittelt werden. Diese befanden sich zum einen im Rind ("Bos taurus") und zum anderen im Hund("Canis lupus familaris")
#
|
sequence
|
model
|
score
|
bpp
|
pos
|
cols
|
motif
|
1
|
Hase
|
CL
|
5.21
|
0.86
|
199-212
|
226-239
|
GCUC.CGGGC-GCC.A..AGC
|
2
|
Huhn
|
CL
|
13.53
|
0.00
|
93-3
|
93-3
|
GCGG.AGGAA-UUC.C..CGC
|
3
|
Huhn
|
CL
|
11.72
|
0.98
|
85-184
|
85-205
|
GAGG.AGAGG-CCU.C.GCUC
|
4
|
Hund
|
KT
|
8.09
|
0.01
|
210-79
|
240-85
|
CCAAGC-GCGAUGACGU
|
5
|
Hund
|
CL
|
6.92
|
0.05
|
85-157
|
91-187
|
ACGU.AGGGG-CCC.C..CGA
|
6
|
Hund
|
CL
|
6.72
|
0.00
|
11 Rind KT 13.65 0.01 210-79 240-85 CUAAGC-GCGAUGA.CG
196-209
|
226-239
|
GCUC.CCGGC-GCC.A..AGC
|
7
|
Mensch
|
CL
|
10.10
|
0.00
|
210-230
|
219-239
|
GCUC.CGAGU-GCU.A..AGC
|
8
|
Spitzmausbeutelratte
|
TGA
|
13.25
|
0.61
|
83-93
|
89-99
|
UGAC-GGAA
|
9
|
Spitzmausbeutelratte
|
TGA
|
11.40
|
0.00
|
119-127
|
125-133
|
GGAG-UGAC
|
10
|
Rind
|
KT
|
14.95
|
0.00
|
192-79
|
222-85
|
CUGAGC-GCGAUGA.CG
|
11
|
Rind
|
KT
|
13.65
|
0.01
|
210-79
|
240-85
|
CUAAGC-GCGAUGA.CG
|
12
|
Rind
|
CL
|
10.53
|
0.01
|
111-149
|
118-177
|
AGGU.CGGGG-CCC.C..CCU
|
13
|
Rind
|
CL
|
9.66
|
0.02
|
168-214
|
198-244
|
CGCU.CUGGC-GCC.A..GCG
|
14
|
Rind
|
CL
|
7.18
|
0.06
|
233-113
|
266-120
|
CCCU.CCAGU-GUC.G..GGG
|
|
|
Rind
Mit Kink-Turn(rot).
|
Hund
Mit Kink-Turn(rot).
|
Die Strukturen, die sich um die Kink-Turns bilden sind aber sehr unterschiedlich. Das Programm gibt allerdings für die anderen Spezies (Mensch, Maus, Spitzmausbeutelratte,Hase, Huhn) keine weiteren Treffer aus, was aber nocheinmal überprüft werden sollte.
Zur Überprüfung, ob solche Strukturen in den anderen Sequenzen wieder zufinden sind, kann RNAfold mit constrains benutzt werden. So ergab sich eine Faltung des menschlichen 5'UTR-Bereichs mit dem Constrain des Kink-Turns eine dritte Struktur.
Somit scheint es keine einheitliche Struktur um die möglichen Kink-Turns herum zu geben. Zu beachten ist jedoch, dass RNAfold nur die wahrscheinlichste bzw. energetisch günstigste Struktur angibt.
Alginment über die Struktur
Auf Grund dessen, dass die Strukturvorhersage unter Verwendung des Alignments der verschiedenen SPezies, nicht erfolgreich war, wurde ein weiterer Ansatz verwendet.
Mit Hilfe von R-Coffee, Foldalign und LocARNA wurden aus den Strukturinformationen ein Alignment gebaut. Dabei Läuft mLocARNA so lange, dass wir die Ergebnisse nicht einbringen konnten. TODO
Das Alginment von R-Coffee:
Das Alignment als Clustal-Format
Die Faltung nach Alifold:
Das Alginment von Foldalig:
Das Alignment als Clustal-Format
Die Faltung nach Alifold:
Die Unterschiede zwischen den beiden Alignments werden, sowohl in der Faltung, als auch in der Struktur deutlich. Dabei ist die Faltung von R-Coffee recht nahe an den Faltungen die für die einzelnen Sequenzen, wie bereits gezeigt wurde, kommen. Somit scheint in der 5'UTR ein besonders langer C-G haltiger Stamm konserviert zu sein.
Die so neu geschaffenen Alignments und das Ursprungsalignment werden mit RNAz auf Strukturen durchsucht.
Die ersten 120 Nukleotide des Ursprungs Alignments.
Die ersten 120 Nukleotide des Foldalign Alignments.
Die ersten 120 Nukleotide des R-Coffee Alignments.
Pseudoknotevorhersage
Für die Vorhersage von Pseudoknoten kommen mehrere Tools zum Einsatz, die aber nur auf Sequenzebene, nicht aber auf Alignments arbeiten. Diese Tools sind: VSfold5, HotKnots und gfold.
Die Sequenz die Beispielhaft für alle Sequenzen genommen wurde, ist die menschliche Sequnenz. Da, wie breites erwähnt ,mit RMdetekt auf der Sequenz des Hundes komplexere Strukturen beobachtet werden konnten, wurde dieser als zweites Beispiel verwendet.
VSfold5 wird als Webserver benutzt und ist auf sehr einfache Pseudoknoten ausgelegt.Bei Menschen wurden mit diesem Programm drei potentielle Pseudoknoten gefunden un beim Hund nur einer. Zur Bestätigung der Ergebnisse und zur Überprüfung nutzten wir im Anschluß gfold. gfold ist allerdings ein sehr umfangreiches und aufwendiges Programm, wonach nur Teilstücke einer Sequenz untersucht werden können.
Die Ergebnisse aller drei Programme sind somit sehr unterschiedlich.Die von vsfold ermittelten Pseudoknoten beim Mensch und Hund befanden sich an unterschiedlichen Sequenzbereichen und ergaben damit keine eindeutige Strukturvorhersage.

Die von VSfold ermittelte Faltung des Hundes.

Die von VSfold ermittelte Faltung des Menschen.
Im Gegensatz dazu, sind die Ergebnisse von HotKnots, sowohl für Mensch als auch für den Hund ohne Pseudoknoten.
Mit gfold wurde versucht die Ergebnisse von VSfold zu bestätigen. Dazu wurde nur der Teil der Sequenz benutzt, der den vorhergesagten Pseudoknoten beinhaltet. So wird vom Menschen der erste Teil in gfold noch mal überprüft.
ACGUCACCGCCUGCGUCGCUUCCGGAGGCGCAGCGGGCGAUGAACGUCACCGCCUGCGUCGCUUCCGGAGGCGCAGCGGG
[[[[..(((...(((((....[[[[.))))).(((((((....]]]]...)))))))..(((((]]]])))))...))).
:(((:::::[[[[[::[[[[[[[[[[[[[[::[[[[[[[:[[[)))]]]:]]]]]]]::]]]]]]]]]]]]]]::]]]]]
Die erste Zeile ist eine Teilsequenz vom Menschen.
Die Zweite durch VSfold vorhergesagt Struktur.
Die Dritte von gfold vorhergesagt Struktur.
Diskussion
Das Matchen der humanen mRNA-Sequenz gegen verschiede Spezies zeigte, dass TCTP ein sehr konservietes Protein in verschiedenen Spezies ist und bis zu Pflanzen, Pilzen und sogar Einzellern zu finden ist. Weiterhin ergab die Such in der Genom-Datenbank von NCBI, dass nicht nur eine mRNA generiert wird. Zum Beispiel werden bei dem Kaninchen zwie mRNA-Varianten generiert. Diese Unterscheiden sich nur in der Länge der untranslatierten Region im 3'Ende. Zurückführen lässt sich das entweder auf alternatives Spleißen oder auf Nutzung verschiedener Polyadenylierungssignalen 9Sureau et. a 1994). Weiterhin konnte festgestellt werden, dass sowohl die Protein, als auch die Nukleotidsequenz hochkonserviert ist. auch wies die untranslatierte Region am 5'Ende und 3' Ende eine gut konservierte Struktur auf.
Durch die Verwendung spezifischer Faltungsprogramme konnte weiterhin gezeigt werden, dass das 5' Ende komplexe Sekundärstrukturen ausbilden kann. Dabei wurden im Hund (Canis lupus familaris) und Rind (Bos Taurus) zwei Pseudoknoten und ein Kink-turn an der gleichen Position gefunden. In wie weit diese Struktur bei anderen Spezies vorkommt oder , ob die Ausbildung in vivo vorhanden ist, gibt es allerding noch zu analysieren. Wieterhin sollte beachtet werde, dass die Faltungsprogramme mit verschiedenen Algorithmen rechnen und daher es durchaus zu abweichenden Ergebnissen kommt. Dementsprechend ist es notwendig mehr Informationen über die Phylogenie und Struktur herbei zu ziehen.
Unter Verwendung von vsfold5 und rmdetect konnte beim Rind (Bos taurus) und Hund (Canis lupus familaris) kink-turn in der 5'UTR ermittelt werden. Bei den Strukturanalysen der 5'UTR von Mensch, Maus, Huhn, Spitzmausbeutelratte konnten diese nicht wiedergefunden werden. Demnach scheint es nicht die bevorzugte Faltung zu sein oder es besteht die Möglichkeit, dass auch die anderen 5'UTRs sich so falten können , dies aber von den Programmen nicht als günstig angesehen wird. Zu beachten ist zudem, dass mögliche Modifikationen an den Nukleotiden nicht mit in die Berechnungen mit einbezogen werden.
Auffällig ist aber, dass es zumindest zwei stark konservierte "stems" zugeben scheint. Zumindst kann dies als glaubhaft eingeschätzt werden.
Vorangegangene Experimente haben gezeigt,dass PKR in der Lage ist TCTP mRNA zu binden. Dabei konnten man als Bindungsstelle die kodierenden Sequenz ausschließen. Demnach war es Ziel gemeinsame bzw. konservierte Regionen in der 5'UTR und 3'UTR zu finden. Aufgrund zeitlicher Begrenzung beschränkt sich die Untersuchung auf die 5'UTR.
Die Sequenzalignment zeigten zwar stark konservierte Bereiche in der 5'UTR, aber die Strukturvorhersagen wichen stark voneinander ab. Dies steht wohl damit im Zusammenhang, dass jedes Programm mit anderen Parametern arbeitet und unterschiedliche Bewertungsschemas besitzt.Die konservierten Regionen können dem Alignment entnommen werden und als funktionell wichtige Regionen angesehen werden. Da genauere Bindungsmotive von PKR nicht bekannt sind, sind hier noch weitere Experimente notwendig. Zudem ist empfehlenswert die Alignmentuntersuchungen auf die 3'UTR zu übertragen, um genauere Aussagen treffen zu können.
Literaturverzeichnis:
Montag 16.1.:
- Einführung in Linux - Umgang mit commandline-Befehlen
- Protein kennenlernen:
- ensembl genome browser,
- ucsc genome browser,
- ncbi
- Fragen:
- Gibt es alternative Namen zum Protein?
- Wie weit ist das Protein phylogentisch konserviert?
Proteine von distancen species herunterladen.
- Wie weit ist das Protein phylogentisch konserviert?
Proteine von distancen species herunterladen.
- mRNAs runterladen auf denen später die RNAmotive gesucht werden.
wichtig dabei ist vollständige 5' und 3' UTR! (complete cDNA)
- wie ist die genomische Struktur ds Proteins?
Sizze der Genstruktur mit anzahl und Länge der Exons und Introns.
Dienstag 17.1.:
- tblastn der Proteine gegen alle Genome der Deuterostomen
- fasta format
- tblastn und fastacmd als commandline tool
- einloggen und rechnen auf anderen Rechnern
- blastSkript.pl
- shell program (sh FILE)
- Prozessierung der Blastergebnisse, Zusammenfassen der Ergebnisse,
Identifizierung des besten Hits pro Genom
- Kenntnisse erlangen über die Lage der PKR-Aktivatorsequenz relativ zu
codierenden exons/blast hits
Mittwoch 18.1.:
- Wurden Hits für Homo sapiens erhalten?
- Automatisches Ausschneiden des Bereiches um den potentiellen PKR Aktivator
- überprüfen, dass *.mot files genau eine fasta formatierte Sequenz enthalten
- umformatieren des Fasta-Headers, sodass der Speziesname enthalten ist
- eteRNA spielen - spielerisch Faltungseigenschaften erlernen
Donnerstag 19.1.:
- alignen der PKR-Aktivator-Sequenzen
- clustalw
- clustalx
- Mafft
- t-coffe
- dialign
- stockholm format
- emacs ralee mode
- RNAstrukturen berechnen, betrachten und editieren im ralee mode
Freitag 20.1.:
- Berechnung der Sekundärstruktur und Detektierung bekannter RNAmotive
http://en.wikipedia.org/wiki/List_of_RNA_structure_prediction_software
- secondary structure:
ViennaRNA Package Documentation: http://www.tbi.univie.ac.at/RNA/
- RNAfold
- RNAalifold
- R-coffee
- Kink-turns e.o.
- what is a kink-turn?
http://www.dundee.ac.uk/biocentre/nasg/kturn/index.php
- RMdetect ~tobias/Downloads/rmdetect_0.0.3/rmdetect.py
- Pseudoknoten:
- ILM http://cic.cs.wustl.edu/RNA/index2.htm
- pKnotsRG http://bibiserv.techfak.uni-bielefeld.de/pknotsrg/
- HotKnots http://www.rnasoft.ca/cgi-bin/RNAsoft/HotKnots/hotknots.pl
- vsfold5 http://www.rna.it-chiba.ac.jp/~vsfold/vsfold5/
- others...
- folding with constraints
Montag 23.1.:
- RNA-Struktur-Alignment
- R-coffee (RNA-Struktur als Zusatzinformation beim Alignen)
- foldalign (gleichzeitiges Alignen von Sequenz und Struktur)
http://foldalign.ku.dk/
- dynalign
http://rna.urmc.rochester.edu/dynalign.html
- locARNA (arbeitet mit Basenpaarungswahrscheinlichkeiten)
http://www.bioinf.uni-freiburg.de/Software/LocARNA/
- Pseudoknotenvorhersagetool
- Verwendung von Information über Paarung aus Chemical Probing
- assisted folding: RNApbfold
https://github.com/wash/probing/downloads
|