Methods

Durchfuehrung

1. Properties of the input data
2. Characteristics of the Dataset
3. Annotation with databases
4. Annotation with microRNA and tRNA
Cluster-Analysis based on sequence
5. Cluster-Analysis based on secundary structure
6. Manual Annotation of the clusteranalysis results

1. Properties of the input data

The input was given in the following format:

Output-file from the RNAz-package (rnazClusters.dat):
A list of all loci (candidates) and the respective windows together with additional information.
Due to perfomance considerations, loci which surpass a certain length were cut into chunks (windows) of size 120. Mit rnazCluster des Vienna-RNAz-Packages wurden die aussichtsreichsten Kandidaten, welche sich an entsprechenden Stellen ueberlappen, einem locus zusammengefasst.

Fugu-Sequenzen im Fasta-Format (Fugu.ncRNAs.05.fa):
Liste aller loci-Sequenzen und Bezeichnung.

2. Chrakteristik des Datensatzes

Mit Perlskripten oder einfachen Bash-Tools ermittelten wir aus der RNAz-Ergebnisdatei (rnazClusters.dat) die benoetigten Werte, wie Laenge, p-Value (Signifikanz des Ergebnisses/locus), SCI-Value (Mass fuer die Konservierung der Sekundaerstruktur der einzelnen windows), z-score (Mass fuer die Stabilitaet der Sekundaerstruktur der einzelnen windows) und analysierten diese (u.a. mit xmgrace zur grafischen Darstellung).

Um zeigen, dass die die RNAz-Ergebnisse nicht zufaelliger Natur sind, erzeugten wir unter Beibehaltung bestimmter Merkmale einen zufaellig Sequenzsatz auf der Basis der Ausgangsalignments (rnazRandom.pl). Auf diese wandten wir erneut zRNA.pl und rnazCluster.pl an und verglichen dieses Ergebnis mit den Originaldaten.

3. Annotation mit Datenbanken

Mit Hilfe des Programm rnazBlast.pl (Basic local alignment search tool) verglichen wir unsere ncRNA-Kandidaten mit diversen Datenbanken:
- noncode
- miRBase
- Rfam
- ncRNAdb

Dazu bereiteten wir die Datenbankdateien (im Fasta-Format) mit formatdb -p F -i [db] -o zur weiteren Verarbeitung vor, ehe wir rnazBlast.pl darauf anwandten und schrieb das Ergebnis direkt in die rnazCluster.dat.

Zur Ermittlung von microRNA- und tRNA-Kandidaten standen uns die Programme RNAmico und tRNAScan zur Verfuergung. Waehrend RNAmicro als Eingabe die Alignments benoetigt, nutzt tRNAScan die Daten im Fasta-Format (Fugu.ncRNAs.05.fa). Beide Programme lieferten die entsprechenden loci-Listen, welche wir schliesslich durch rnazAnnotate.pl mit unserer Ergebnisdatei (rnazClusters.dat) kombinierten und damit die Information eintrugen.

4. Clusteranalyse auf Sequenzebene

Es wurden alle loci mit dem Programm blastclust bezueglich Sequenzhomologien zusammengefasst/geclustert. Hierauf untersuchten und analysierten wir die Eigenschaften der einzelnen Cluster.

5. Clusteranalyse hinsichtlich der Sekundaerstruktur

Lediglich die loci mit einem p-value von ueber .99 (Performance) dienten dem Programm LocARNA-Cluster-Pipeline-1.0 zur Eingabe.

6. Manuelle Annotation der Ergebnisse der Cluster-Analyse

Hierzu waehlten wir den groessten, nicht annotierten Cluster (kein locus des Cluster ist annotiert) aus und suchten nach Sequenzhomologien in anderen Spezies (NCBI).