algorytm Fasta i BLAST.PDF

(114 KB) Pobierz

‘‘Wstep do obliczeniowej biologii molekularnej’’

(J. Tiuryn, wyk´

lad nr.6, 23 listopada 2005)

Spis tre´ci

3 Przeszukiwanie baz danych

3.1 Heurystyczne algorytmy . . . . . . . . . .

3.1.1 FASTA . . . . . . . . . . . . . . . .

3.1.2 BLAST . . . . . . . . . . . . . . .

3.1.3 Statystyka por´wnywania sekwencji

3.1.4 PSI-BLAST . . . . . . . . . . . . .

3.1.5 Uliniowienie sekwencji z proﬁlem .

3.2 Macierze substytucyjne . . . . . . . . . . .

3.2.1 PAM . . . . . . . . . . . . . . . . .

3.2.2 BLOSUM . . . . . . . . . . . . . .

Przeszukiwanie baz danych

Jest du˙ o baz dnaych specjalizujacych sie w r´znych aspektach zwiazanych

o˙

z sekwencjami naturalnie pojawiajacymi sie w biologii. Dla sekwencji DNA

gl´wne bazy danych to: GenBank (USA), EMBL (Europa), DDBJ (Japonia).

Natomiast dla bialek gl´wna baza danych jest Swiss-Prot. Przeszukiwanie

baz danych jest jedna z gl´wnych metod pracy wsp´lczesnego biologa. Poni˙ ej

om´wimy kilka zagadnie´ zwiazanych z praktycznymi aspektami przeszuki-

wania baz.

3.1

Heurystyczne algorytmy

Om´wimy dwa najbardziej popularne heurystyczne algorytmy u˙ ywane do

obliczania przybli˙ onej warto´ci lokalnego uliniowienia. Algorytmy te stanowi a

standardowe narzedzie do przeszukiwania baz danych w procesie wyszukiwa-

nia podobie´ stw pomiedzy sekwencjami.

3.1.1

FASTA

Jest to heurystyczny algorytm (Lipman, Pearson, 1985) slu˙ acy do przy-

bli˙ onego obliczania lokalnego uliniowienia danego wzorca

wzgledem tek-

stowej sekwencji

wzietej z bazy danych. Zwykle stosuje sie go do kole-

jnych sekwencji z bazy danych. Na poczatku u˙ ytkownik wybiera liczbowy

parametr, zwany

ktup.

Standardowo sugerowane warto´ci dla

ktup

to 6 dla

sekwencji DNA oraz 2 dla bialek. Przyjmijmy, ze

jest warto´cia parametru

ktup.

Przez

k-slowo

bedziemy rozumie´ dowolne slowo dlugo´ci

Niech

|Q|

oraz

|T |.

Dzialanie algorytmu mo˙ na przedstawi´ w nastepujacych

czterech krokach.

1. Dla 1

≤

algorytm znajduje pary (i,

j),

takie ze

slowo zaczynajace sie w

w pozycji

jest identyczne z

k-slowem

zaczy-

najacym sie w

w pozycji

Ka˙ da taka para (i,

nazywa sie

goracym

miejscem.

Operacje te mo˙ na wykona´ efektywnie sporzadzajac na

poczatku tablice haszujaca dla

lub (rzadziej) dla wszystkich sl´w

z bazy danych.

2. Ka˙ de gorace miejsce (i,

mo˙ na traktowa´ jako odcinek dlugo´ci

le˙ acy na przekatnej o numerze

−

w tablicy

(otrzymanej

metoda dynamicznego programowania —

oczywi´cie nie mamy). Al-

gorytm przypisuje pewne warto´ci dodatnie goracym miejscom oraz

warto´ci ujemne przerwom pomiedzy takimi miejscami (im dlu˙ sza

przerwa, tym mniejsza warto´´). Dla ka˙ dej przekatnej zawierajacej

gorace miejsce, algorytm wybiera fragment pomiedzy goracymi miejs-

cami o maksymalnej warto´ci. W ten spos´b zostaje wybranych 10

przekatnych (i zawartych w nich fragment´w) o maksymalnej warto´ci.

Dla ka˙ dego z tych fragment´w algorytm znajduje cze´´ takiego frag-

mentu (podslowo) o maksymalnej warto´ci uliniowienia bez spacji (do

obliczania tej warto´ci stosuje sie tablice PAM lub BLOSUM) Taka

cze´´ fragmentu nazwiemy

poduliniowieniem.

Niech

init1

bedzie na-

jlepszym poduliniowieniem.

3. Wybrane sa poduliniowienia, kt´rych warto´´ przekracza pewna z g´ry

ustalona granice. Z tych dobrych poduliniowie´ pr´buje sie ulo˙ y´ ulin-

n o

z c

iowienie o maksymalnej warto´ci. W tym celu buduje sie nastepujacy

graf poduliniowie´ . Wierzcholkami sa poduliniowienia. Ka˙ demu wierz-

cholkowi jest przypisana liczba bedaca warto´cia tego poduliniowienia.

Je´li

sa poduliniowieniami, takimi ze

zaczyna sie w pozycji (i,

i ko´ czy w pozycji (i +

d, j

d),

zaczyna sie w pozycji (i

, j

), to

tworzymy krawed´ od

gdy

i > i

oraz

j > j

tzn gdy

wiersz (kolumna) w kt´rym zaczyna sie

jest poni˙ ej wiersza (na prawo

od kolumny), w kt´rym ko´ czy sie

Krawedzi tej przypisujemy pewna

wage zale˙ aca od liczby spacji jakie trzeba wprowadzi´ we fragmencie

lokalnego uliniowienia, w kt´rym poduliniowienie

wystepuje po po-

duliniowieniu

Im wieksza liczba spacji tym waga takiej krawedzi jest

Gl´wna przekatna ma numer 0, przekatne o numerach dodatnich le˙ a nad gl´wna

przekatna, a o numerach ujemnych pod gl´wna przekatna.

mniejsza. Nastepnie algorytm znajduje droge o maksymalnej warto´ci

w wy˙ ej opisanym graﬁe. Taka droga wyznacza lokalne uliniowienie

pomiedzy dwoma slowami. To nie musi by´ optymalne lokalne ulin-

iowienie pomiedzy

oraz

. Oznaczmy to uliniowienie przez

initn.

4. Algorytm wraca do poduliniowienia

init1

z kroku 2 i znajduje najlepsze

lokalne uliniowienie wok´l przekatnej zawierajacej

init1

w pasie [−8, 8]

(dla bialek) oraz w pasie [−16, 16] (dla DNA). Niech

opt

bedzie takim

uliniowieniem.

W ten sps´b

jest por´wnywane z kolejnymi slowami

z bazy danych.

Biorac pod uwage

opt

lub

initn

wyznacza sie mala liczbe sl´w

, najbardziej

obiecujacych z punktu widzenia uliniowienia z

Dla ka˙ dego z nich wykonuje

sie pelny algorytm Smitha-Watermana obliczajacy optymalne uliniowienia.

3.1.2

BLAST

Algorytm BLAST (Altschul

et.al.

1990) podaje jako wynik cale spektrum

rozwiaza´ (uliniowie´ ) wraz z oszacowaniem statystycznej istotno´ci znalezionego

rozwiazania (czyli prawdopodobie´ stwa tego, ze znaleziona warto´´, lub warto´´

od niej wieksza mogla sie pojawi´ przypadkiem (z losowej sekwencji)).

BLAST por´wnuje wzorzec

z ka˙ da sekwencja z bazy danych, starajac

sie zidentyﬁkowa´ te sekwencje

, dla kt´rych MSP (maximal

segment pair,

czyli para podsl´w r´wnej dlugo´ci maksymalizujaca warto´´ uliniowienia bez

o o

spacji

) jest wieksze od pewnej z g´ry ustalonej warto´ci

W ten spos´b

wybiera sie pewne slowa

“podejrzane” o pewne podobie´ stwo z

Jak sie szuka takich

, dla kt´rych MSP jest wieksze od

Ustala

sie dlugo´´

oraz warto´´ graniczna

Nastepnie BLAST znajduje wszys-

tkie

w-podslowa

, dla kt´rych istnieje

w-podslowo

o warto´ci ulin-

iowienia (bez spacji) wiekszej od

Ka˙ de takie miejsce jest rozszerzane w

celu znalezienia warto´ci uliniowienia wiekszej od

Je´li w trakcie rozsz-

erzania warto´´ uliniowienia (kt´ra mo˙ e rosna´ lub male´ z ka˙ dym krokiem

rozszerzenia) spadnie poni˙ ej pewnej warto´ci progowej, to poszukiwania dla

takiego miejsca sa przerywane.

Dob´r warto´ci

C, w

oraz

ma kluczowe znaczenie dla jako´ci znaj-

dowanych wynik´w. Na przyklad, dla por´wnywania bialek

jest przyj-

mowane pomiedzy 3 a 5, natomiast dla DNA jest zwykle r´wne okolo 12.

Przy u˙ yciu pewnej macierzy substytucyjnej.

3.1.3

Statystyka por´wnywania sekwencji

Poni˙ ej przedstawimy podstawowe wyniki teorii (Karlin, Altschul’1990), na

kt´rej BLAST opiera analize statystycznej istotno´ci znalezionego wyniku

uliniowienia. Teoria ta nie dotyczy uliniowie´ ze spacjami. Opracowanie

analogicznej teorii dla uliniowie´ ze spacjami stanowi problem otwarty.

Analiza jednej sekwencji

Na poczatek zajmiemy sie analiza probabilistyczna jednej sekwencji. Dany

jest alfabet

, . . . , a

z kt´rego losowany jest ciag liter o praw-

dopodobie´ stwach

, . . . , p

Z ka˙ dym wystapieniem litery

w sekwencji

zwiazana jest warto´´

bedaca liczba rzeczywista. Przyjmujemy nastepujace

zalo˙ enia:

1. Dla pewnego

mamy

2. Warto´´ oczekiwana warto´ci dla calego alfabetu jest ujemna:

i=1

Rozwa˙ amy zmienna losowa

(n) przyjmujaca warto´´ maksymalna dla

segmentu w losoowej sekwencji dlugo´ci

Twierdzenie 3.1.1

Warto´´ oczekiwana dla

(n)

jest rzedu

jest jedynym dodatnim rozwiazaniem r´wnania

∗

gdzie

∗

λ·s

= 1.

i=1

Twierdzenie 3.1.2

Prob

(n)

−

∗

≈

−

−K·e

−λ∗

gdzie

jest stala zadana szybko zbie˙ nym szeregiem.

Zatem wycentrowna zmienna losowa

m(n)

−

∗

ma rozklad EVD

(extreme value distribution), zwany te˙ rozkladem Gumbela.

Ponadto oczekiwana liczba wystapie´ segment´w w losowej sekwencji dlugo´ci

−λ

∗

o warto´ci wiekszej ni˙

∗

wynosi

Powy˙ sze twierdzenie wynika z nastepujacej og´lniejszej uwagi: liczba

wystapie´ ‘oddzielnych’ segment´w o wysokiej warto´ci (tzn. o warto´ci

wiekszej ni˙

∗

+x) jest aproksymowane przez rozklad Poissona o parametrze

∗

−λ

Przypomnijmy, ze rozklad Poissona o parmetrze

dla zmiennej losowej

przyjmujacej warto´ci naturalne wyglada nastepujaco

−a

e .

Prob

(X =

Zatem prawdopodobie´ stwo napotkania

lub wiecej r´znych segment´w

o˙

m−1 a

o du˙ ej warto´ci wynosi 1

−

−a

i=1 i!

. Przyjmujac

= 1 dostajemy

pierwsza cze´´ twierdzenia. Druga cze´´ wynika natychmiast z faktu, ze

warto´´ oczekiwana dla zmiennej losowej o rozkladzie Poissona z parametrem

wynosi

E(X)

Niech

∗

+x bedzie warto´cia segmentu w losowej sekwencji dlugo´ci

W´wczas, zgodnie z Twierdzeniem 3.1.2, oczekiwana liczba wystapie´

∗

segment´w rozlacznych o warto´ci co najmniej

wynosi

−λ

∗

n−λ

·n·e

−λ

. To jest wla´nie tzw. E-value obliczane przez program

BLAST.

∗

λ S

Statystyka por´wnywania dw´ch sekwencji

Mamy dwie sekwencje: jedna losowana z rozkladem na literach

, . . . , p

a druga z rozkladem

, . . . , p

Ponadto mamy tablice substytucyjna

i,j

)

1≤i,j≤r

. Przyjmujemy nastepujace zalo˙ enia:

i,j

0, oraz

2. Dla pewnych

i, j,

mamy

i,j

o˙

3. Rozklady

, . . . , p

}

oraz

, . . . , p

}

nie r´znia sie zbytnio od siebie.

Dalej analiza wyglada podobnie do przypadku jednej sekwencji o dlugo´ci

m·n,

gdzie

sa dlugo´ciami losowych sekwencji. W szczeg´lno´ci niech

∗

o s

λs

i,j

= 1. Niech

bedzie jedynym dodatnim rozwiazaniem r´wnania

i,j

(m,

bedzie zmienna losowa wyra˙ ajaca maksymalna warto´´ lokalnego

uliniowienia (bez spacji) losowych sl´w o dlugo´ciach

oraz

generowanych

z powy˙ szych rozklad´w. W´wczas mamy nastepujace twierdzenie

Prob

(m,

n) >

∗

≈

−

−K·e

−λ

∗

Jest to tzw. warto´´

p-value,

czyli prawdopodobi´ stwo tego, ze mo˙ na ulin-

iowi´ pare losowych sekwencji o dlugo´ciach

oraz

tak, ze natraﬁmy na

Techniczna deﬁnicje tego zalo˙ enia pomijamy tutaj, odsylajac zainteresowanego

czytelnika do publikacji.

Plik z chomika:

xyzgeo

Inne pliki z tego folderu:

Steps in protein prediction.pdf (328 KB)
SurgNeurolInt6118-6462902_175709.pdf (613 KB)
Seeliger_PCB_2010.pdf (2415 KB)
Structural bioinformatics - Wikipedia, the free encyclopedia.html (78 KB)
small%20molecule%20inhibitors%20of%20PPI.pdf (574 KB)

algorytm Fasta i BLAST.PDF

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: