next up previous
Next: Analyse mit Nussinov Up: Praktikumsbericht RNA Previous: Auswertung der Vorhersagen

Untersuchung Basenpaarlaenge mit Strukturanzahl

Um zu untersuchen, wie sich die Anzahl der moeglichen Strukturen zur Basenpaarlaenge verhaelt, wurde ein weiteres Programm geschrieben. In dieses wurde die folgende theoretische Ueberlegung implementiert:

$\displaystyle N_m =$   Anzahl der sich nicht kreuzenden Strukturen mit Laenge m (mindestens aber 3) (7)

$\displaystyle N_m = N_{m-1}+\sum_{4 \le k \le n}{N_{k-2}*N_{m-k}}$ (8)

$\displaystyle N_0 = 1$ (9)

Da mit dieser Rekursion sehr grosse Zahlen addiert und multipliziert werden, musste die Rekursion mit einer Skalierung versehen werden:

Skalierungskonstante $\displaystyle P = 2.195745978646732$ (10)

$\displaystyle N'_m = \frac{N_m}{P^m}$ (11)

$\displaystyle N'_m = \frac{N_{m-1}}{P}$ (12)

$\displaystyle \frac{N_m}{P^m} = \frac{N_{m-1}}{P^{m-1}}* \frac{1}{P}+\sum_{4 \le k \le m}{\frac{N_{k-2}}{P^{k-2}}*\frac{N_{m-k}}{P^{m-k}}*\frac{1}{P^2}}$ (13)

$\displaystyle \frac{N_0}{P^0} = 1$ (14)

Dazu musste nun die Summe der Strukturen zu einer spezifischen Distanz berechnet werden.

$\displaystyle C_{m}^d:= \char93 $   Basenpaare mit Laenge $\displaystyle j-i=d$    in einer Sequenz der Laenge m (15)

$\displaystyle C_0^d = 0$ (16)

$\displaystyle C_m^d = \frac{C_{m-1}^d}{P} + \sum_{4 \le k \le m, k \neq d+1}{\frac{C_{k-2}^d * N_{m-k} + N_{k-2} * C_{m-k}^d}{P^2}}$ (17)

Fuer den Fall $ k=d+1$ ist eine Sonderregel fuer die Summe notwendig:

$\displaystyle \frac{N_{k-2}*N_{m-k}+N_{k-2}*C_{m-k}^d}{P^2}$ (18)

Nach der Implementierung wurden mit dieser Rekursion fuer verschieden lange Sequenzen die theoretische maximal moegliche Anzahl an Strukturen mit bestimmten Basenpaardistanzen berechnet.
Figure 8: Relative Distanzen und die maximal theoretisch moeglichen Strukturen
\includegraphics{plotall.eps}
Bei der Analyse dieser Graphen stellte sich heraus, dass alle fuer alle Sequenzen der Verlauf der Kurve sehr aehnlich ist, so unterscheiden sie sich im wesentlichen durch die Anzahl der Strukturen mit der Distanz 4. Durch die Verdopplung der Sequenzlaenge geht eine quadratische Vergroesserung der Strukturen in diesem Bereich einher.
Zusaetzlich wurde noch untersucht, wie stark sich die Graphen an bestimmt Marken auf der X-Achse, sprich der relativen Distanz, unterscheiden.
Dazu wurde ein Intervallplot angelegt, welcher fuer alle Graphen einen bestimmten Werte darstellt.

Figure 9: Intervallplot fuer alle Graphen an den Marken 25, 50, 75 und 100
\includegraphics{plotintervall.eps}

next up previous
Next: Analyse mit Nussinov Up: Praktikumsbericht RNA Previous: Auswertung der Vorhersagen
Daniel Gerighausen 2013-07-19