Methoden

Ziel:

Anhand der snoStrip pipeline wurde innerhalb einer neuen D.plexippus Annotation die snoRNA Sequenzen bestimmt und nach eventuellen neuen snoRNA Gene gesucht. Anbei erfolgte eine Auswertung der gefunden snoRNA Gene.

Schritt 1: Finden der snoRNA-Gene aus der D.plexippus Annotation

Shell-Code:
grep 'snoRNA_gene' > snoRNA_gene.gff grep 'snoRNA' > snoRNA.gff

gff ist ein Dateiformat, welches Merkmale von Genen, Proteinen, DNA oder RNA Sequenzen beschreibt
die zu beschreibene Merkmale folgen einer bestimmten Reihenfolge
im weiteren werden wir die snoRNA-Gene benutzen, da es die Transkripte und genauere Informationen enthält

Eingangsdatei	Ausgangsdatei	Ausgangsdatei
D.plexippus Annotation	snoRNA-Gene	snoRNA-Transkript
gff-Datei	gff-Datei	gff-Datei

Schritt 2: Erstellen einer fasta-Datei anhand der gefundenen snoRNA Gene aus dem älteren Genoms von Danaus plexippus.

Shell-Code:
bedtools getfasta -fi Danaus_plexippus_DanPle.1.0.fa -bed snoRNA_gene -fo dpl1.fa -s

bedtools getfasta extrahiert Sequenzen aus einer Fasta-Datei für die definierten Intervalle aus einer gff-, bed- oder vcf-Datei
wichtig ist, dass der Header in der Fasta-Datei der Chromosomspalte(bed) entspricht
der FASTA-Header für die extrahierte Sequenz ist folgendermaßen formattiert: "chrom;start;end"
"-s" wenn die Sequenz antisense Stränge beinhaltet, wird die reverse Sequenz komplementiert
die Sequenzen wurden von der Datei "Danaus_plexippus_DanPle.1.0.fa" geladen; später als dpl1 bezeichnet

Eingangsdatei 1	Eingangsdatei 2	Ausgangsdatei
snoRNA-Gene	dpl1	snoRNA-Gene-dpl1
gff-Datei	fasta-Datei	fasta-Datei

Start der snoStrip Annotations pipeline

Schritt 1 der snoStrip Annotations pipeline:

Schritt 3: Blasten der gefunden Sequenzen gegen die beiden Danaus plexippus Genome

Shell-Code (jeweils eine Zeile):
blastall -p blastn -d /scr/genomes/Metazoan-Animals/Danaus_plexippus/OTHER/daunaus_plexippus_supercontigs.fa -i dpl1.fa -m 8 -e 1e-10 > dpl3.blastout

blastall -p blastn -d /scr/genomes/Metazoan-Animals/Danaus_plexippus/ENSEMBL/Danaus_plexippus_DanPle.1.0.fa -i dpl1.fa -m 8 -e 1e-10 > dpl1.blastout

BLAST erstellt ein lokales Alignment gegebener Sequenzen gegenüber einer bsp. Genomsequenz
"-p" Programname; blastn für Nukleotide
"-d" Datenbankenname
"i-" zu blastende Datei
"-m 8" Ausgangsdatei soll durch Tabulatoren getrennt sein
E-Value ist 1e-10
"danaus_plexippus_supercontigs.fa" wird von uns im nachfolgenden dpl3 genannt, auch die daraus abgeleitet Ergebnisse

Eingangsdatei	Eingangsdatei	Ausgangsdatei
dpl1-Genom	snoRNA Gene	Blastout1
dpl3-Genom	snoRNA Gene	Blastout2
fasta Datei	fasta Datei	blastout Datei

Schritt 4: Umwandeln des Blastoutputs in bed-Dateien

Shell-Code (jeweils eine Zeile):
awk '{if($10>$9){print $2"\t"$9"\t"$10"\t"$1"\t"(($3*$4)/100)"\t-"}else{print $2"\t"$10"\t"$9"\t"$1"\t"(($3*$4)/100)"\t+"}}' dpl3.blastout > dpl3.bed

awk '{if($10>$9){print $2"\t"$9"\t"$10"\t"$1"\t"(($3*$4)/100)"\t-"}else{print $2"\t"$10"\t"$9"\t"$1"\t"(($3*$4)/100)"\t+"}}' dpl1.blastout > dpl1.bed

die bed-Datei beinhaltet Informationen über Annotationen von Genen bzw. Sequenzen
es beinhaltet drei benötigte und neun zusätzliche Spalten
1. Chromosomname, 2.Start, 3. Ende, 4.Name, 5. Score, 6. Strang
es werden nur Gene mit einem Score von über 2000 benutzt

Eingangsdatei	Ausgangsdatei
Blastout1	dpl1.bed
Blastout2	dpl3.bed
blastout Datei	bed Datei

Schritt 5: Sortieren und Zusammenfügen der Datei dpl3.bed

Shell-Code:
sortBed -i dpl3.bed > dpl3_sort.bed

mergeBed -i dpl3_sort.bed > dpl3_sort_merge.bed

Eingangsdatei	Ausgangsdatei
dpl3.bed	dpl3_sortiert
dpl3_sort.bed	dpl3_merged
blastout Datei	bed Datei

Schritt 6: Herausfinden der überlappenden snoRNA Gene mit Bedtools Intersect

Shell-Code:
bedtools intersect -a D.plexippus.gff -b dpl3_sort_merge.bed -wao

bedtools intersect -a dpl3_sort_merge.bed -b D.plexippus.gff -wao

bedtool intersect sucht die Überlappungen zwischen zwei Sequenzen und gibt diese als bed-Datei aus
"-a" vergleicht die Sequenzen zwischen Datei a mit Datei b
"-b" vergleicht die Sequenzen zwischen Datei b mit Datei a
"-woa" schreibt die Originale in die Ergebnisdatei und die Nummer der Basenpaare die überlappen
die Datei "D.plexippus.gff" wurde uns von Stephanie Kehr zur Verfügung gestellt (aus den dpl1-Genom)

Bild 1: Darstellung der Vorgehensweise von bed intersect

Eingangsdatei	Eingangsdatei	Ausgangsdatei
D.plexippus	dpl3_merged	Vergleich 1
dpl3_merged	D.plexippus	Vergleich 2

Schritt 7: Anhand von Beispiel: Überlappen von Gen-ID in dpl1 und dpl3

verwendete Gen-ID: JH387043
Suchen der Gen-ID aus der dpl1.blastout in der dpl3.blastout Datei
wenn Gen-ID in beiden Datein vorhanden, dann Auffinden der entsprechenden Sequenzen mit Hilfe von fastacmd
dazu wurden die jeweiligen Genome benutzt
für fastacmd wurden die jeweiligen DPSCF-ID's in dpl3 benutzt
für fastacmd wurden die jeweiligen JH-ID in dpl1 benutzt

Shell-Code (jeweils eine Zeile):
fastacmd -d /scr/genomes/Metazoan-Animals/Danaus_plexippus/OTHER/daunaus_plexippus_supercontigs.fa -s 'DPSCF300789' -S '2' -L '5457,5539'

fastacmd -d /scr/genomes/Metazoan-Animals/Danaus_plexippus/OTHER/daunaus_plexippus_supercontigs.fa -s 'DPSCF300789' -S '2' -L '5357,5639'

fastacmd -d /scr/genomes/Metazoan-Animals/Danaus_plexippus/OTHER/daunaus_plexippus_supercontigs.fa -s 'DPSCF300470' -S '2' -L '49963,50045'

fastacmd -d /scr/genomes/Metazoan-Animals/Danaus_plexippus/OTHER/daunaus_plexippus_supercontigs.fa -s 'DPSCF300470' -S '2' -L '49863,50145'

fastacmd -d /scr/genomes/Metazoan-Animals/Danaus_plexippus/ ENSEMBL/Danaus_plexippus_DanPle.1.0.fa -i dpl1.fa -s 'JH387043' -S '2' -L '5457,5539'

fastacmd -d /scr/genomes/Metazoan-Animals/Danaus_plexippus/ ENSEMBL/Danaus_plexippus_DanPle.1.0.fa -i dpl1.fa -s 'JH387043' -S '2' -L '5357,5639'

"-d" Datenbankeintrag
"-s" Suchen des Eintrages (Gen)
"-S" Richtung des Stranges: 1 - erster Eintrag (Nukleotidnummer) kleiner als zweiter; 2 - zweiter Eintrag ist kleiner als erster
"-L" Angaben der Start und Stop Nukleotidnummern
Schreiben der Sequenzen in eine Datei

Ausgangsdatei
JH387043

Schritt 8: Sequenzalignment

Shell-Code:
muscle -in JH387043.fa -out JH387043.aln -clwstrict

Ausgangsdatei
JH387043 Alignment

Schritt 9: Umwandeln des clustal Alignment in Stockholm Datei

wir benutzten ein Perl Script, von Stephanie Kehr um die clustalw-Datei in eine Stockholm Datei umzuwandeln

Shell-Code:
perl stockholm.pl JH387043.aln JH387043.aln.stk

Perl-Script	Eingangsdatei	Ausgangsdatei
Stockholm.pl	JH387043.aln	JH387043.aln.stk

Praktikum Sequenzanalyse der Danaus plexippus snoRNA

Methoden