next up previous contents
Nächste Seite: Auflösen (Mergen) der Motive Aufwärts: Durchführung Vorherige Seite: Motivsuche   Inhalt

Erzeugen von .data Format und PWM

Das .data Format dient dazu die Sequenzinformation aller Tools in eine einheitliche Form zur Weiterverarbeitung zu bringen. Dazu werden aus den Motiv-Daten alle in den Motiven vorkommenen DNA Sequenzen extrahiert und mit zusätzlicher Information in eine tabelarische Form geschrieben. Jeder Promoter besitzt einen Datensatz. Das Format ist

start end score motif DNA Seq tool fw/rev hox


Wobei 'start' und 'stop' die Grenzen der DNA Sequenz im Hox – Promoterbereich angeben. Die 'score' bezieht sich auf das Motiv, das mittels 'tool' gefunden wurde. Wir erstellen für jedes Motivgenerierende Tool einen seperaten Datensatz. Diese Skripte gibt es hier.

meme2data.pl <.meme>
consensus2data.pl <.con_10>
bioprospector2data.pl <.biop_10>
ace2data.pl <.aa_10>
tfsearch2data.pl <.fasta>
pwmatch2data.pl <.fasta>

Das Skript tfsearch2data.pl schickt eine .fasta Dateien an die Adresse http://www.cbrc.jphttp://www.cbrc.jp. Aus dem Ergebnis (Motiv aus DB) werden dann die .data Dateien erzeugt. Das Skript pwmatch2data.pl sucht in einer lokalen TRANSFAC Datenbank nach Motiven.

Die PWM (Position Weigth Matrix) werden zu jedem Motiv erstellt. Die Resultate der Programme die unter eingesetzt wurden benötigen jeweils ein spezielles Programm um eine PWM zu generieren, bzw. herauszuextrahieren. Die PWM's werden schliesslich mit den Skripten pwmpost_transfac.pl und pwmpost_jaspar.pl an die TRANSFAC und JASPAR Datenbank von MatCompare (http://rulai.cshl.edu/cgi-bin/MatCompare/home.cgi?process=home) geschickt. Das Resultat sind bekannte Motive aus den Datenbanken, die Rezeptoren darstellen.


next up previous contents
Nächste Seite: Auflösen (Mergen) der Motive Aufwärts: Durchführung Vorherige Seite: Motivsuche   Inhalt
Praktikum 2005-11-17