Bioinformatisches
Praktikum SS05
-
Transkriptionsregulation -
Thema
Viele Gene eukaryotischer Genome werden sowohl zeitlich als auch
raeumlich differentiell reguliert. Besonders Gene die fuer die
Entwicklung des Organismus entscheidend sind, scheinen einer strengen
Kontrolle zu unterliegen, welche sich ueber lange evolutionaere
Zeitraeume erhalten hat. Schon geringe Aenderungen koennen drastische
Auswirkungen auf den Phaenotyp des Organismus haben.
Wir wollen uns diese Information zu nutzte machen um regulatorische
Regionen in Hox Gene Clustern zu finden und ihre Veraenderungen
waehrend der Evolution der Wirbeltiere zu studieren. Dazu stehen uns
sehr unterschiedliche Tools zur Verfuegung.
Methoden

Homologiebasierenden Methoden:
Ueberrepresentierte Motive finden:
Bekannte Transkriptionsfaktorbindungsstellen
Protokoll
01.08.2005
Wir bekommen als Organismen Mm (Mus musculus) und Rn (Rattus
norvegicus) zugewiesen.
Sequenzen sind zu finden unter: ~sonja/HOX/orifasta/*.fa
Positionen der HOX-Gene: ~sonja/HOX/exons/exons*.txt
1. Aus Exon-Dateien die Positionen der HOX Gene extrahiert.
2. Ausschneiden der 500 Bp vor HOX-Gen Anfang aus den Fasta Dateien. Es
entstehen die Dateien Mm*.fa und Rn*.fa. Fuer jedes Cluster eine. Z.B.
MmA.fa
3. Fasta-Dateien mit formatdb formatiert. formatdb -i MmA.fa -p F -o T
4. blastall -d Mm*.fa -i Mm*.fa -m 8
-e 10e-5 -p blastn, genau so fuer Rn*.fa
5. Scores errechnen mit sum over i(q_i * (l1_i+l2_i)/(l1+l2)). Die
Score-Tabellen fuer die Maus
und fuer die Ratte.
6. Finden von Motiven mit verschiedenen Motiffinder-Tools. (MEME und AlignACE)
02.08.2005
1. Auswerten der MEME und AligneACE Ergebnisse. (Sonja gezeigt)
2. Blasten von Clustern untereinander und miteinander.
3. Aufstellen einer HTML Tabelle mit allen Scorepunkten zwischen den
Mus musculus und Rattus norvegicus Clustern.
4. Herausfinden von repeats mit Hilfe von "Censor".
5. Finden von Motiven mit MEME. Datenbasis sind die von Censor
korrigierten Cluster FASTA Dateien.
6. Vergleichen der Matrizen von MEME mit den Matrizen der Datenbank
TRANSFAC (v. 7.2) mit "MatCompare"
Dazu mussten die Matrizen von MEME mit Hilfe eines
Programms in ein kompatibles Format fuer MatCompare gebracht werden.
Programm (meme2mat.pl):
03.08.2005
1. Analysieren des In- und Outputs folgender Programme: rVista, BEST (MEME,
AlignAce, Consensus, BioProspector), YMF,
NestedMICA,
Tfsearch.
fasta2PWM
|
Programm
(Motiffinder)
|
INPUT
|
OUTPUT
|
Programmnamen
|
Bemerkung
|
rVista |
--
|
--
|
--
|
fuer unsere kurzen Sequenzen
nutzlos |
MEME
|
fastaProgrammnamen |
.meme
|
meme2pwm.pl
|
|
AlignACE
|
fasta
|
.aa
|
ACE2PWM.pl
|
|
Consensus
|
Sequenzvektor
|
.cons
|
consensus2pwm.pl
|
keine Ergebnisse, da Ns in
Dateien
|
BioProspector
|
fasta
|
.biop
|
bio2mat.pl
|
|
YMF
|
fasta
|
.ymf
|
|
|
NestedMICA
|
-- |
-- |
-- |
|
Tfsearch
|
fasta
|
.tf
|
|
|
2. Fuer die jeweiligen Outputs wurde jeweils in Gruppenarbeit ein
Programm erstellt, welches die Outputs in PositionWeightMatrizen (PWM)
umwandelt. Die PWM haben ein zu MatCompare kompatibles Format.
3. Die PWM werden, jeweils fuer das betreffende Tool, mit Hilfe des
Programms pwmpost.pl ins MatCompare gegeben und dort mit einem
MatCompare-Score von 0,9 (Aehnlichkeit von 90%) verglichen.
Pro proximalen Promotor und Methode erhaelt man eine Liste von Motiven,
die nun miteinander verglichen werden muessen. Dieser Prozess wird von
uns am Abend gestartet und laeuft ueber die Nacht.
04.08.2005
1. Erneuter Durchlauf des pwmpost.pl Skripts, diesmal aber mit dem
Chi-Quadrat Test anstatt mit des Fisher-Irwin Testes.
2. Erstellen von Programmen die aus Output der unterschiedlichen
Verfahren Dateien im selben Format erstellen. (siehe auch Tabelle
03.08.2005)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
fuer meme:
meme2pwm.pl
-> pwmpost.pl ok
fuer
acealign:
ACE2PWM.pl
-> pwmpost_ace.sh ok
fuer
biopospector: bio2mat.pl
-> pwmpost_biop.sh ok
fuer
consensus:
consensus2pwm.pl ->
nicht erfolgreich, da unsere Sequenzen Ns enthalten.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
05.08.2005
1. Alle Skripte auf jeweiligen Daten der verschiedenen Methoden
angewendet, die Output erzeugen, die xmgrace als Input
benoetigt.
2. Erzeugen der Dateien *2data.pl ( fuer YMF .fas in
ymf2data.pl, fuer tfsearch .fas in tfsearch2data.pl, ........)
3.
dialign2-2 -n -cw
/u/praktikum/gruppe04/fasta/cut/cluster/censor/MmA_censor.fas
-> .ali und .cw in ../censor
/u/praktikum/gruppe04/tools/dialign2clustal.pl
MmA_censor.fas.cw
-> .aln in ../censor
clustalx MmA_censor.fas.aln
/u/praktikum/gruppe04/tools/dialign2grafik.pl
MmA_censor.fas.cw
-> .ps datei
ggv MmA_censor.fas.cw.ps
-> in
ordner xmgrace
---------------------------------------------------
2.November
Daten fuer xmgrace noch fuer bioprospector
fasta2DATA (Fuer xmgrace)
|
Programm
(Motiffinder)
|
INPUT
|
Programmname
|
Bemerkung
|
MEME
|
fasta
|
meme2data.html.pl
|
|
AlignACE
|
fasta
|
ace2data.pl
|
|
Consensus
|
Sequenzvektor
|
--
|
nicht moeglich, da Ns in
Sequenzen
|
BioProspector
|
fasta
|
bio2data.pl
|
|
YMF
|
fasta
|
ymf2specialout.pl
|
|
NestedMICA
|
|
|
Funktioniert nicht, warum?
|
Tfsearch
|
fasta
|
tfsearch2data.pl
|
|
Auswertung
- Vergleich der Motive -
Presentation (Open Office)
in data
format fuer grafische auswertung
|
MEME
|
meme2data_html.pl; meme2data.pl |
ok
|
ACE
|
ace2data |
ok
|
BIOPROSPECTOR
|
|
|
Consens
|
--
|
|
|
|
|
in
MatComp
|
MEME
|
meme2mat.pl
|
ok
|
ACE
|
ACEPWM.pl
|
ok
|
BIO
|
biop2mat.pl
|
ok
|
Cons
|
--
|
--
|
|
|
|
|
PWMATCH
|
pwmatch.pl
|
ok
|
TFSEARCH
|
tfsearch2data.pl
|
ok
|
|
|
|
|
YMF
|
ymf2data.pl ->
skoda2normal.pl (um richtige Spaltenreihenfolge hinzubekommen) ->
split_ymf.pl
|
ok
|
|
|
|