Bioinformatisches Praktikum SS05

- Transkriptionsregulation -



Thema

Viele Gene eukaryotischer Genome werden sowohl zeitlich als auch raeumlich differentiell reguliert. Besonders Gene die fuer die Entwicklung des Organismus entscheidend sind, scheinen einer strengen Kontrolle zu unterliegen, welche sich ueber lange evolutionaere Zeitraeume erhalten hat. Schon geringe Aenderungen koennen drastische Auswirkungen auf den Phaenotyp des Organismus haben. Wir wollen uns diese Information zu nutzte machen um regulatorische Regionen in Hox Gene Clustern zu finden und ihre Veraenderungen waehrend der Evolution der Wirbeltiere zu studieren. Dazu stehen uns sehr unterschiedliche Tools zur Verfuegung.



Methoden

Homologiebasierenden Methoden:

Ueberrepresentierte Motive finden:

Bekannte Transkriptionsfaktorbindungsstellen


Protokoll

01.08.2005
Wir bekommen als Organismen Mm (Mus musculus) und Rn (Rattus norvegicus) zugewiesen.

Sequenzen sind zu finden unter: ~sonja/HOX/orifasta/*.fa
Positionen der HOX-Gene: ~sonja/HOX/exons/exons*.txt

1. Aus Exon-Dateien die Positionen der HOX Gene extrahiert.
2. Ausschneiden der 500 Bp vor HOX-Gen Anfang aus den Fasta Dateien. Es entstehen die Dateien Mm*.fa und Rn*.fa. Fuer jedes Cluster eine. Z.B. MmA.fa
3. Fasta-Dateien mit formatdb formatiert. formatdb -i MmA.fa -p F -o T
4. blastall -d Mm*.fa -i Mm*.fa -m 8 -e 10e-5 -p blastn, genau so fuer Rn*.fa
5. Scores errechnen mit sum over i(q_i * (l1_i+l2_i)/(l1+l2)). Die Score-Tabellen fuer die Maus und fuer die Ratte.
6. Finden von Motiven mit verschiedenen Motiffinder-Tools. (MEME und AlignACE)



02.08.2005
1. Auswerten der MEME und AligneACE Ergebnisse. (Sonja gezeigt)
2. Blasten von Clustern untereinander und miteinander.
3. Aufstellen einer HTML Tabelle mit allen Scorepunkten zwischen den Mus musculus und Rattus norvegicus Clustern.
4. Herausfinden von repeats mit Hilfe von "Censor".
5. Finden von Motiven mit MEME. Datenbasis sind die von Censor korrigierten Cluster FASTA Dateien.
6. Vergleichen der Matrizen von MEME mit den Matrizen der Datenbank TRANSFAC (v. 7.2) mit "MatCompare"
    Dazu mussten die Matrizen von MEME mit Hilfe eines Programms in ein kompatibles Format fuer MatCompare gebracht werden.
    Programm (meme2mat.pl):



03.08.2005

1. Analysieren des In- und Outputs folgender Programme: rVista, BEST (MEME, AlignAce, Consensus, BioProspector), YMF, NestedMICA, Tfsearch.

fasta2PWM
Programm (Motiffinder)
INPUT
OUTPUT
Programmnamen
Bemerkung
rVista --
--
--
fuer unsere kurzen Sequenzen nutzlos
MEME
fastaProgrammnamen .meme
meme2pwm.pl

AlignACE
fasta
.aa
ACE2PWM.pl

Consensus
Sequenzvektor
.cons
consensus2pwm.pl
keine Ergebnisse, da Ns in Dateien
BioProspector
fasta
.biop
bio2mat.pl

YMF
fasta
.ymf


NestedMICA
-- -- --
Tfsearch
fasta
.tf




2. Fuer die jeweiligen Outputs wurde jeweils in Gruppenarbeit ein Programm erstellt, welches die Outputs in PositionWeightMatrizen (PWM) umwandelt. Die PWM haben ein zu MatCompare kompatibles Format.
3. Die PWM werden, jeweils fuer das betreffende Tool, mit Hilfe des Programms pwmpost.pl ins MatCompare gegeben und dort mit einem MatCompare-Score von 0,9 (Aehnlichkeit von 90%) verglichen.
Pro proximalen Promotor und Methode erhaelt man eine Liste von Motiven, die nun miteinander verglichen werden muessen. Dieser Prozess wird von uns am Abend gestartet und laeuft ueber die Nacht.



04.08.2005

1. Erneuter Durchlauf des pwmpost.pl Skripts, diesmal aber mit dem Chi-Quadrat Test anstatt mit des Fisher-Irwin Testes.
2. Erstellen von Programmen die aus Output der unterschiedlichen Verfahren Dateien im selben Format erstellen. (siehe auch Tabelle 03.08.2005)

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  fuer meme:                meme2pwm.pl                -> pwmpost.pl   ok
  fuer acealign:            ACE2PWM.pl                -> pwmpost_ace.sh ok
  fuer biopospector:     bio2mat.pl                       -> pwmpost_biop.sh ok
  fuer consensus:         consensus2pwm.pl           -> nicht erfolgreich, da unsere Sequenzen Ns enthalten.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~



05.08.2005

1.   Alle Skripte auf jeweiligen Daten der verschiedenen Methoden angewendet, die Output erzeugen, die xmgrace als Input benoetigt.
2.  Erzeugen der Dateien *2data.pl ( fuer YMF .fas in ymf2data.pl,  fuer tfsearch .fas in tfsearch2data.pl, ........)
3.

dialign2-2 -n -cw /u/praktikum/gruppe04/fasta/cut/cluster/censor/MmA_censor.fas                 -> .ali und .cw in ../censor
/u/praktikum/gruppe04/tools/dialign2clustal.pl MmA_censor.fas.cw                                         -> .aln in ../censor
clustalx MmA_censor.fas.aln
/u/praktikum/gruppe04/tools/dialign2grafik.pl MmA_censor.fas.cw                                          -> .ps datei
ggv MmA_censor.fas.cw.ps                                                                                                       -> in ordner xmgrace

---------------------------------------------------
2.November

Daten fuer xmgrace noch fuer bioprospector


fasta2DATA (Fuer xmgrace)
Programm (Motiffinder)
INPUT
Programmname
Bemerkung
MEME
fasta
meme2data.html.pl

AlignACE
fasta
ace2data.pl

Consensus
Sequenzvektor
--
nicht moeglich, da Ns in Sequenzen
BioProspector
fasta
bio2data.pl

YMF
fasta
ymf2specialout.pl

NestedMICA


Funktioniert nicht, warum?
Tfsearch
fasta
tfsearch2data.pl




Auswertung
- Vergleich der Motive -


Presentation (Open Office)






in data format fuer grafische auswertung
MEME
meme2data_html.pl; meme2data.pl ok
ACE
ace2data ok
BIOPROSPECTOR


Consens
--




in MatComp
MEME
meme2mat.pl
ok
ACE
ACEPWM.pl
ok
BIO
biop2mat.pl
ok
Cons
--
--




PWMATCH
pwmatch.pl
ok
TFSEARCH
tfsearch2data.pl
ok




YMF
ymf2data.pl -> skoda2normal.pl (um richtige Spaltenreihenfolge hinzubekommen) -> split_ymf.pl
ok