Transkriptionsregulation SS05

Bioinformatisches Praktikum SS05

- Transkriptionsregulation -

Thema

Viele Gene eukaryotischer Genome werden sowohl zeitlich als auch raeumlich differentiell reguliert. Besonders Gene die fuer die Entwicklung des Organismus entscheidend sind, scheinen einer strengen Kontrolle zu unterliegen, welche sich ueber lange evolutionaere Zeitraeume erhalten hat. Schon geringe Aenderungen koennen drastische Auswirkungen auf den Phaenotyp des Organismus haben. Wir wollen uns diese Information zu nutzte machen um regulatorische Regionen in Hox Gene Clustern zu finden und ihre Veraenderungen waehrend der Evolution der Wirbeltiere zu studieren. Dazu stehen uns sehr unterschiedliche Tools zur Verfuegung.

Methoden

Homologiebasierenden Methoden:

blast (local)
dialign2 (local)
tracker (local)
Footprinter
rVISTA

Ueberrepresentierte Motive finden:

Bekannte Transkriptionsfaktorbindungsstellen

Protokoll

01.08.2005
Wir bekommen als Organismen Mm (Mus musculus) und Rn (Rattus norvegicus) zugewiesen.

Sequenzen sind zu finden unter: ~sonja/HOX/orifasta/*.fa
Positionen der HOX-Gene: ~sonja/HOX/exons/exons*.txt

1. Aus Exon-Dateien die Positionen der HOX Gene extrahiert.
2. Ausschneiden der 500 Bp vor HOX-Gen Anfang aus den Fasta Dateien. Es entstehen die Dateien Mm*.fa und Rn*.fa. Fuer jedes Cluster eine. Z.B. MmA.fa
3. Fasta-Dateien mit formatdb formatiert. formatdb -i MmA.fa -p F -o T
4. blastall -d Mm*.fa -i Mm*.fa -m 8 -e 10e-5 -p blastn, genau so fuer Rn*.fa
5. Scores errechnen mit sum over i(q_i * (l1_i+l2_i)/(l1+l2)). Die Score-Tabellen fuer die Maus und fuer die Ratte.
6. Finden von Motiven mit verschiedenen Motiffinder-Tools. (MEME und AlignACE)

02.08.2005
1. Auswerten der MEME und AligneACE Ergebnisse. (Sonja gezeigt)
2. Blasten von Clustern untereinander und miteinander.
3. Aufstellen einer HTML Tabelle mit allen Scorepunkten zwischen den Mus musculus und Rattus norvegicus Clustern.
4. Herausfinden von repeats mit Hilfe von "Censor".
5. Finden von Motiven mit MEME. Datenbasis sind die von Censor korrigierten Cluster FASTA Dateien.
6. Vergleichen der Matrizen von MEME mit den Matrizen der Datenbank TRANSFAC (v. 7.2) mit "MatCompare"
Dazu mussten die Matrizen von MEME mit Hilfe eines Programms in ein kompatibles Format fuer MatCompare gebracht werden.
Programm (meme2mat.pl):

03.08.2005

1. Analysieren des In- und Outputs folgender Programme: rVista, BEST (MEME, AlignAce, Consensus, BioProspector), YMF, NestedMICA, Tfsearch.

fasta2PWM
Programm (Motiffinder)	INPUT	OUTPUT	Programmnamen	Bemerkung
rVista	--	--	--	fuer unsere kurzen Sequenzen nutzlos
MEME	fastaProgrammnamen	.meme	meme2pwm.pl
AlignACE	fasta	.aa	ACE2PWM.pl
Consensus	Sequenzvektor	.cons	consensus2pwm.pl	keine Ergebnisse, da Ns in Dateien
BioProspector	fasta	.biop	bio2mat.pl
YMF	fasta	.ymf
NestedMICA	--	--	--
Tfsearch	fasta	.tf

2. Fuer die jeweiligen Outputs wurde jeweils in Gruppenarbeit ein Programm erstellt, welches die Outputs in PositionWeightMatrizen (PWM) umwandelt. Die PWM haben ein zu MatCompare kompatibles Format.
3. Die PWM werden, jeweils fuer das betreffende Tool, mit Hilfe des Programms pwmpost.pl ins MatCompare gegeben und dort mit einem MatCompare-Score von 0,9 (Aehnlichkeit von 90%) verglichen.
Pro proximalen Promotor und Methode erhaelt man eine Liste von Motiven, die nun miteinander verglichen werden muessen. Dieser Prozess wird von uns am Abend gestartet und laeuft ueber die Nacht.

04.08.2005

1. Erneuter Durchlauf des pwmpost.pl Skripts, diesmal aber mit dem Chi-Quadrat Test anstatt mit des Fisher-Irwin Testes.
2. Erstellen von Programmen die aus Output der unterschiedlichen Verfahren Dateien im selben Format erstellen. (siehe auch Tabelle 03.08.2005)

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
fuer meme:                meme2pwm.pl                -> pwmpost.pl   ok
fuer acealign:            ACE2PWM.pl                -> pwmpost_ace.sh ok
fuer biopospector:   bio2mat.pl                     -> pwmpost_biop.sh ok
fuer consensus:         consensus2pwm.pl         -> nicht erfolgreich, da unsere Sequenzen Ns enthalten.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

05.08.2005

1. Alle Skripte auf jeweiligen Daten der verschiedenen Methoden angewendet, die Output erzeugen, die xmgrace als Input benoetigt.
2. Erzeugen der Dateien *2data.pl ( fuer YMF .fas in ymf2data.pl, fuer tfsearch .fas in tfsearch2data.pl, ........)
3.

dialign2-2 -n -cw /u/praktikum/gruppe04/fasta/cut/cluster/censor/MmA_censor.fas                 -> .ali und .cw in ../censor
/u/praktikum/gruppe04/tools/dialign2clustal.pl MmA_censor.fas.cw                                       -> .aln in ../censor
clustalx MmA_censor.fas.aln
/u/praktikum/gruppe04/tools/dialign2grafik.pl MmA_censor.fas.cw                                          -> .ps datei
ggv MmA_censor.fas.cw.ps                                                                                                       -> in ordner xmgrace

---------------------------------------------------
2.November

Daten fuer xmgrace noch fuer bioprospector

fasta2DATA (Fuer xmgrace)
Programm (Motiffinder)	INPUT	Programmname	Bemerkung
MEME	fasta	meme2data.html.pl
AlignACE	fasta	ace2data.pl
Consensus	Sequenzvektor	--	nicht moeglich, da Ns in Sequenzen
BioProspector	fasta	bio2data.pl
YMF	fasta	ymf2specialout.pl
NestedMICA			Funktioniert nicht, warum?
Tfsearch	fasta	tfsearch2data.pl

Auswertung
- Vergleich der Motive -

Presentation (Open Office)

in data format fuer grafische auswertung
MEME	meme2data_html.pl; meme2data.pl	ok
ACE	ace2data	ok
BIOPROSPECTOR
Consens	--

in MatComp
MEME	meme2mat.pl	ok
ACE	ACEPWM.pl	ok
BIO	biop2mat.pl	ok
Cons	--	--


PWMATCH	pwmatch.pl	ok
TFSEARCH	tfsearch2data.pl	ok


YMF	ymf2data.pl -> skoda2normal.pl (um richtige Spaltenreihenfolge hinzubekommen) -> split_ymf.pl	ok