next up previous contents
Next: Ergebnisse Up: Bioinformatisches Praktikum: Modul 'Transkriptionsregulation' Previous: Zielsetzung   Contents

Durchführung

In der unteren Abbildung sieht man einen schematischen Ablauf unserer Durchführung:

\includegraphics[scale=0.5]{gfx/uebersicht.eps}

Im schematischen Ablauf unseres Praktikums sieht man sehr gut, welche Wege und Möglichkeiten wir ausprobiert haben um Daten über konservierte Genregulation der CD97 Gen-Familie zu bekommen. In den eckigen Kästchen sind verwendete/erzeugte Daten notiert, die oval angelegten Grafikelemente benennen Programme oder Skripte mit denen die Daten (Ursprungsbox des Pfeils) in die 'neuen' Daten (Zielbox des Pfeils) überführt wurden. Die dritte und letzte Art von Grafikelementen bilden die rot umrahmten Boxen, in denen Ergebnisse der Analysen vermerkt sind. Beispiele für die hier angegebenen Ergebnisse findet man auch im hier $ \Rightarrow$ 3.

Stichpunktartiger Ablauf:
  1. *.fa Dateien (Sequenzen im FASTA Format) und *.exons (Dateien in denen die Angabe zur Position der Exons stehen) in lokalen Ordner kopiert
  2. da in den *.exons Dateien die jeweilige Codingregion für ein Gen (bestehend aus Exons und Introns) stand, haben wir 500 Nukleotide (vermutete Promotorregion) vor dieser Region geschnitten (siehe Figure 2) und neue *.fa Dateien erstellt
    $ \rightarrow$ verwendete Programme: cutter1_3.pl
    Figure 2: Sequenz mit Codingregion
    \includegraphics[scale=0.5]{gfx/abb1.ps}
  3. mit formatdb eine Datenbank erstellt um dann jede *.fa Datei gegen jede *.fa zu blasten
    als Ergebnis *.blast Dateien
    $ \rightarrow$ verwendete Skripte: blast.sh
  4. für alle Blast-Hits haben wir nach der Formel

      $\displaystyle score = \frac{\sum_i q_i (l_i^1 + l_i^2)}{l^1 + l^2}$    
      $\displaystyle score = \frac{\sum_i q_i (l_i^1 + l_i^2)}{1000}$    
      $\displaystyle l_i^j \textnormal{ L''ange des Blastalignments i in Sequenz}$    
      $\displaystyle q_i \textnormal{ Konservierung}$    
      $\displaystyle l^1 + l^2 \textnormal{ L''ange der Inputsequenz}$    

    den Score berechnet
    $ \rightarrow$ dieser Wert sollte uns die Fälle angeben bei denen wir im späteren Verlauf Motive finden
  5. um ein übersichtliches Format der Blast Ergebnisse zu erhalten haben wir eine Tabelle im html-Format erzeugt
  6. mit dem Befehl 'cat *.fa $ >$ alle.fa' alle einzelnen FASTA-Dateien in eine zusammengeführt
  7. mit dem Programm censor haben wir noch störende Repeats in den Sequenzen der alle.fa entfernt
  8. die alle.fa ans WebInterface von MEME übergeben
    mit maximaler Länge der Motive von 10, 12, 50 und einer maximalen Anzahl an Motiven von 10
    $ \rightarrow$ drei Dateien mit den unterschiedlichen maximalen Motivelängen
    Figure 3: Übersicht die den MEME Output eines gefundenen Motivs wiedergibt. Erste Spalte die betrachteden Individuen, die Zweite gibt die Orientierung an, die Dritte an welcher Position das Motive beginnt, dann folgt der p-Value und in der letzten Spalte ist das Motive und die flankierenden Sequenzen dargestellt.
    \includegraphics[width=1.5\textwidth]{gfx/meme_out.eps}
  9. aus dem MEME-Output (html-Format) die letzte Tabelle extrahiert und mit einem Skript des Lehrstuhls *.ps Files erzeugt, um einen optischen Eindruck der Reihenfolge der Motive zu erhalten (siehe Ergebnisse)
  10. Programme getestet:
    Programme Input Output Anmerkungen Skript für matCompare Skripte für Grafiken (*.data)
    rVista fasta keiner Error-Message erhalten, da Sequenzen zu kurz leer leer
    MEME fasta meme   meme2pwm.pl meme2data_html.pl
    AlignACE fasta aa   ace2pwm.pl ace2data.pl
    consensus multifasta cons für uns nicht weiter relevant consensus2pwm.pl consensus2data.pl
    bioprospector fasta biop   bio2mat.pl bio2data.pl
    YMF       ymfdata2mat.pl ymf2data.pl;skoda2normal.pl
    nestedMICA     email geschickt leer leer
    TFSearch       leer tfsearch2data.pl
    pwmatch       transfacpwmatch.pl transfacpwmatch_data.pl
  11. anschließend an MatCompare geschickt und Motivnummern erhalten (M.MEME_result10_censor_motif_5 M00678 1)
    $ \rightarrow$ verwendete Skripte: pwmpost.pl; pwmpost_jaspar.pl
  12. eine Grafik zum weiteren Vorgehen mit den matCompare Daten
    Figure 4: weiteres Vorgehen
    \includegraphics[scale=0.5]{gfx/abb2.eps}
  13. die Ergebnisse von MatCompare mit einem MatCompareScore $ >$ 0.9 behalten
  14. in der TRANSFAC_M2name.txt nach Gennamen für Motiv gesucht
  15. im WebInterface von iHOP herausgefunden, was das Gen überhaupt ist bzw. macht
  16. aus den TransFac, Jaspar (*.res) und den *.data Dateien Bäume erstellt
    $ \rightarrow$ verwendete Skripte: merger.pl; data2binary.pl; binary2nex.pl
  17. aus den *.data Dateien mit dem Skript score2xmgrace.pl *.ps Dateien erstellt die Kurven der Ergebnisse enthalten
  18. aus den *.data Dateien mit dem Skript motivplot.pl *.ps Dateien erstellt die die Ergebnisse als Motivlängen enthalten
  19. mit dem Skript score_grace_fusion.pl eine Grafik erstellt die die Kurven im Vergleich mit den Motivlängen enthält

next up previous contents
Next: Ergebnisse Up: Bioinformatisches Praktikum: Modul 'Transkriptionsregulation' Previous: Zielsetzung   Contents
Sven Findeiss 2007-02-06