Next: Ergebnisse Up: Bioinformatisches Praktikum: Modul 'Transkriptionsregulation' Previous: Zielsetzung Contents

Durchführung

In der unteren Abbildung sieht man einen schematischen Ablauf unserer Durchführung:

$\includegraphics[scale=0.5]{gfx/uebersicht.eps}$

Im schematischen Ablauf unseres Praktikums sieht man sehr gut, welche Wege und Möglichkeiten wir ausprobiert haben um Daten über konservierte Genregulation der CD97 Gen-Familie zu bekommen. In den eckigen Kästchen sind verwendete/erzeugte Daten notiert, die oval angelegten Grafikelemente benennen Programme oder Skripte mit denen die Daten (Ursprungsbox des Pfeils) in die 'neuen' Daten (Zielbox des Pfeils) überführt wurden. Die dritte und letzte Art von Grafikelementen bilden die rot umrahmten Boxen, in denen Ergebnisse der Analysen vermerkt sind. Beispiele für die hier angegebenen Ergebnisse findet man auch im hier $\Rightarrow$ 3.

Stichpunktartiger Ablauf:

*.fa Dateien (Sequenzen im FASTA Format) und *.exons (Dateien in denen die Angabe zur Position der Exons stehen) in lokalen Ordner kopiert
da in den *.exons Dateien die jeweilige Codingregion für ein Gen (bestehend aus Exons und Introns) stand, haben wir 500 Nukleotide (vermutete Promotorregion) vor dieser Region geschnitten (siehe Figure 2) und neue *.fa Dateien erstellt
$\rightarrow$ verwendete Programme: cutter1_3.pl

Figure 2: Sequenz mit Codingregion

$\includegraphics[scale=0.5]{gfx/abb1.ps}$
mit formatdb eine Datenbank erstellt um dann jede *.fa Datei gegen jede *.fa zu blasten
als Ergebnis *.blast Dateien
$\rightarrow$ verwendete Skripte: blast.sh
für alle Blast-Hits haben wir nach der Formel

$\displaystyle score = \frac{\sum_i q_i (l_i^1 + l_i^2)}{l^1 + l^2}$

$\displaystyle score = \frac{\sum_i q_i (l_i^1 + l_i^2)}{1000}$

$\displaystyle l_i^j \textnormal{ L''ange des Blastalignments i in Sequenz}$

$\displaystyle q_i \textnormal{ Konservierung}$

$\displaystyle l^1 + l^2 \textnormal{ L''ange der Inputsequenz}$

den Score berechnet
$\rightarrow$ dieser Wert sollte uns die Fälle angeben bei denen wir im späteren Verlauf Motive finden
um ein übersichtliches Format der Blast Ergebnisse zu erhalten haben wir eine Tabelle im html-Format erzeugt
mit dem Befehl 'cat *.fa alle.fa' alle einzelnen FASTA-Dateien in eine zusammengeführt
mit dem Programm censor haben wir noch störende Repeats in den Sequenzen der alle.fa entfernt

**Figure 2:** Sequenz mit Codingregion
$\includegraphics[scale=0.5]{gfx/abb1.ps}$

die alle.fa ans WebInterface von MEME übergeben
mit maximaler Länge der Motive von 10, 12, 50 und einer maximalen Anzahl an Motiven von 10
$\rightarrow$ drei Dateien mit den unterschiedlichen maximalen Motivelängen

**Figure 3:** Übersicht die den MEME Output eines gefundenen Motivs wiedergibt. Erste Spalte die betrachteden Individuen, die Zweite gibt die Orientierung an, die Dritte an welcher Position das Motive beginnt, dann folgt der p-Value und in der letzten Spalte ist das Motive und die flankierenden Sequenzen dargestellt.
$\includegraphics[width=1.5\textwidth]{gfx/meme_out.eps}$

aus dem MEME-Output (html-Format) die letzte Tabelle extrahiert und mit einem Skript des Lehrstuhls *.ps Files erzeugt, um einen optischen Eindruck der Reihenfolge der Motive zu erhalten (siehe Ergebnisse)

Programme getestet:

Programme	Input	Output	Anmerkungen	Skript für matCompare	Skripte für Grafiken (*.data)
rVista	fasta	keiner	Error-Message erhalten, da Sequenzen zu kurz	leer	leer
MEME	fasta	meme		meme2pwm.pl	meme2data_html.pl
AlignACE	fasta	aa		ace2pwm.pl	ace2data.pl
consensus	multifasta	cons	für uns nicht weiter relevant	consensus2pwm.pl	consensus2data.pl
bioprospector	fasta	biop		bio2mat.pl	bio2data.pl
YMF				ymfdata2mat.pl	ymf2data.pl;skoda2normal.pl
nestedMICA			email geschickt	leer	leer
TFSearch				leer	tfsearch2data.pl
pwmatch				transfacpwmatch.pl	transfacpwmatch_data.pl

anschließend an MatCompare geschickt und Motivnummern erhalten (M.MEME_result10_censor_motif_5 M00678 1)
$\rightarrow$ verwendete Skripte: pwmpost.pl; pwmpost_jaspar.pl
eine Grafik zum weiteren Vorgehen mit den matCompare Daten

Figure 4: weiteres Vorgehen

$\includegraphics[scale=0.5]{gfx/abb2.eps}$
die Ergebnisse von MatCompare mit einem MatCompareScore 0.9 behalten
in der TRANSFAC_M2name.txt nach Gennamen für Motiv gesucht
im WebInterface von iHOP herausgefunden, was das Gen überhaupt ist bzw. macht
aus den TransFac, Jaspar (*.res) und den *.data Dateien Bäume erstellt
$\rightarrow$ verwendete Skripte: merger.pl; data2binary.pl; binary2nex.pl
aus den *.data Dateien mit dem Skript score2xmgrace.pl *.ps Dateien erstellt die Kurven der Ergebnisse enthalten
aus den *.data Dateien mit dem Skript motivplot.pl *.ps Dateien erstellt die die Ergebnisse als Motivlängen enthalten
mit dem Skript score_grace_fusion.pl eine Grafik erstellt die die Kurven im Vergleich mit den Motivlängen enthält

**Figure 4:** weiteres Vorgehen
$\includegraphics[scale=0.5]{gfx/abb2.eps}$

Next: Ergebnisse Up: Bioinformatisches Praktikum: Modul 'Transkriptionsregulation' Previous: Zielsetzung Contents

Sven Findeiss 2007-02-06

	$\displaystyle score = \frac{\sum_i q_i (l_i^1 + l_i^2)}{l^1 + l^2}$
	$\displaystyle score = \frac{\sum_i q_i (l_i^1 + l_i^2)}{1000}$
	$\displaystyle l_i^j \textnormal{ L''ange des Blastalignments i in Sequenz}$
	$\displaystyle q_i \textnormal{ Konservierung}$
	$\displaystyle l^1 + l^2 \textnormal{ L''ange der Inputsequenz}$