Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Úvod do medicínské informatiky pro Bc. studium 1 Zarovnávání biologických sekvencí 9. přednáška.

Podobné prezentace


Prezentace na téma: "Úvod do medicínské informatiky pro Bc. studium 1 Zarovnávání biologických sekvencí 9. přednáška."— Transkript prezentace:

1 Úvod do medicínské informatiky pro Bc. studium 1 Zarovnávání biologických sekvencí 9. přednáška

2 Úvod do medicínské informatiky pro Bc. studium 2 Zarovnávání biologických sekvencí Pravděpodobnost a pravděpodobnostní modely Zarovnávání Významnost skóre v hodnocení modelu Nastavení parametrů modelů

3 Úvod do medicínské informatiky pro Bc. studium 3 Pravděpodobnost a pravděpodobnostní modely Model je systém simulující objekt za určitých podmínek. Pravděpodobnostní model je systém poskytující různé výstupy s různými pravděpodobnostmi, a může simulovat třídu objektů.

4 Úvod do medicínské informatiky pro Bc. studium 4 Maximální pravděpodobnost Parametry modelu jsou odhadovány z velké množiny "správných" příkladů (trénovací množina). Příklad: Pravděpodobnost q a pro aminokyselinu a může být odhadnuta jako pozorovaná četnost výskytů reziduí v databázi známých proteinových sekvencí, např. SWISS-PROT.

5 Úvod do medicínské informatiky pro Bc. studium 5 Maximální pravděpodobnost Tento způsob odhadu se nazývá metoda maximální pravděpodobnosti. Obecně: Je dán model s parametry θ a množina dat D, potom odhad maximální pravděpodobnosti pro θ je taková hodnota, která maximalizuje P(D|θ).

6 Úvod do medicínské informatiky pro Bc. studium 6 Pravděpodobnosti Podmíněná pravděpodobnost Vzájemná pravděpodobnost Marginální pravděpodobnost Příklad: Máme dvě kostky D 1 a D 2. Pravděpodobnost, že padne i při hodu kostkou D 1 je podmíněná pravděpodobnost P(i|D 1 ).

7 Úvod do medicínské informatiky pro Bc. studium 7 Pravděpodobnosti Vybereme-li náhodně kostku D j s p. P(D j ), j=1, 2, p. výběru kostky D j a hození i je součinem dvou p. a nazývá se vzájemnou pravděpodobností P(i,D j )=P(D j ).P(i|D j ). Rovnice P(X,Y)= P(X|Y).P(Y) platí obecně pro jakékoliv jevy X a Y. Jestliže jsou podmíněná i vzájemná p. známy, můžeme vypočítat marginální pravděpodobnost P(X)=  Y P(X,Y)=  Y P(X|Y).P(Y)

8 Úvod do medicínské informatiky pro Bc. studium 8 Párování Základní úlohou sekvenční analýzy je otázka, zda jsou dvě sekvence v relaci (zda spolu souvisí, zda mají společného předka). Úloha má dvě části: párování (zarovnání sekvencí nebo jejich částí), posouzení, zda se párování zdařilo díky relaci sekvencí nebo náhodou, za pomoci ohodnocení.

9 Úvod do medicínské informatiky pro Bc. studium 9 Příklady relací sekvencí Hemoglobin subunit alpha versus Hemoglobin subunit beta

10 Úvod do medicínské informatiky pro Bc. studium 10

11 Úvod do medicínské informatiky pro Bc. studium 11

12 Úvod do medicínské informatiky pro Bc. studium 12

13 Úvod do medicínské informatiky pro Bc. studium 13

14 Úvod do medicínské informatiky pro Bc. studium 14 Příklady relací sekvencí Lidský alfa globin: HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVD G+ +VK+HGKKV A+++++AH+D HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLD Jasná podobnost lidskému beta globinu. HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVD H+ KV + +A ++ LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQ Strukturálně přijatelné srovnání s leghemoglobinem. Písmeno – identická pozice, + - 'podobná pozice'

15 Úvod do medicínské informatiky pro Bc. studium 15 Model ohodnocení Při porovnávání sekvencí hledáme důkaz divergence ze společného předka, která mohla nastat procesem mutace, a selekce. Základní mutační procesy jsou substituce (změna rezidua), a inserce a delece (přidání a vypuštění rezidua). Inserce a delece jsou vztaženy k mezerám.

16 Úvod do medicínské informatiky pro Bc. studium 16 Modely (ne)příbuznosti Dvojice sekvencí x a y délky n a m. x i je i-tý symbol x, y j je j-tý symbol y. Symboly jsou z abecedy A. A ={A, G, C, T} pro DNA, A ={20 aminokyselin} pro proteiny. Dvojici sekvencí přiřadíme skóre párování, které představuje p., že sekvence jsou příbuzné (jako opak nepříbuznosti).

17 Úvod do medicínské informatiky pro Bc. studium 17 Nepříbuzný (náhodný) model R předpokládá, že symbol a se objevuje nezávisle s četností q a. P. dvou sekvencí je potom pouze součinem p. sekvencí: Model nepříbuznosti

18 Úvod do medicínské informatiky pro Bc. studium 18 V modelu příbuznosti M se zarovnané páry reziduí objevují se vzájemnou p. p ab. p ab může být chápána jako p. toho, že rezidua a a b byla nezávisle odvozena z neznámého rezidua c ve společném předkovi. c může být totožné s a nebo b. Model příbuznosti

19 Úvod do medicínské informatiky pro Bc. studium 19 Pravděpodobnostní poměr Pravděpodobnostní poměr je dán poměrem p. obou modelů:

20 Úvod do medicínské informatiky pro Bc. studium 20 Logaritmický pravděpodobnostní poměr Obvykle se využívá aditivního skórovacího systému. Tomu odpovídá logaritmický pravděpodobnostní poměr: kde s(x i,y i ) je individuální skóre

21 Úvod do medicínské informatiky pro Bc. studium 21 Substituční matice Log p. poměr je sumou individuálních skóre s(a,b) pro každý zarovnaný pár reziduí. Skóre s(a,b) bývají vyjádřena substituční maticí (maticí skóre). Např. pro proteiny tvoří matici 20x20 s s(a i,a j ) na pozicích i, j, kde a i, a j jsou i- tá a j-tá aminokyselina

22 Úvod do medicínské informatiky pro Bc. studium 22 Příklad substituční matice ARNDCQEGHILKMFPSTWYV A R N D C Q E G H I5 L-25 K6 M 7 F-38 P10 S15 T W Y-2 28 V00-35 Matice BLOSUM50

23 Úvod do medicínské informatiky pro Bc. studium 23 Penalizace mezer Kromě substitucí je nutné ohodnotit také inserce a delece. Standardní cena mezery délky g je Alternativou je afinní skóre kde d je standarní cena a e

24 Úvod do medicínské informatiky pro Bc. studium 24 Zarovnávací algoritmy Zarovnávací algoritmy slouží k nalezení optimálního zarovnání dvojice sekvencí. Jsou-li sekvence stejně dlouhé, existuje jediné možné (globální) zarovnání kompletních sekvencí. Uvážíme-li také mezery, existuje možných globálních zarovnání. n=10: 1, n=100:

25 Úvod do medicínské informatiky pro Bc. studium 25 Globální v. lokální zarovnávání Při globálním zarovnávání hledáme optimální vzájemnou polohu dvou sekvencí od jednoho konce k druhému. Častější situací je zarovnávání subsekvencí v tzv. lokálním zarovnávání.

26 Úvod do medicínské informatiky pro Bc. studium 26 Dynamické programování Optimální zarovnání se v analýze biologických sekvencí řeší dynamickým programováním: Needlemanův-Wunschův algoritmus, Gotohův a., Smithův-Watermanův a.. a další.

27 Úvod do medicínské informatiky pro Bc. studium 27 Dynamické programování Dynamické programování (DP) zaručuje nalezení optimálního zarovnání. Existují rychlejší – heuristické – algoritmy, které ale vyžadují apriorní informaci a nemusí vždy nalézt globální optimum. DP využívá v analýze biologických sekvencí logaritmický pravděpodobnostní poměr  půjde o nalezení maxima.

28 Úvod do medicínské informatiky pro Bc. studium 28 Needlemanův-Wunschův a. Myšlenka: globální zarovnání využije předchozí lokální zarovnání kratších subsekvencí. Vytváří se matice F (indexovaná i a j pro jednotlivé sekvence). F(i,j) je skóre nejlepšího zarovnání mezi počátečním segmentem x 1..i sekvence x do x i a počátečním segmentem y 1..j sekvence y do y j.

29 Úvod do medicínské informatiky pro Bc. studium 29 Existují 3 možné cesty k nejlepšímu skóre F(i,j). I G A x i A I G A x i G A x i - - L G V y j G V y j - - S L G V y j 1.x i je zarovnáno k y j, pak F(i,j)= F(i-1,j-1)+s(x i,y j ), 2.x i je zarovnáno k mezeře, pak F(i,j)= F(i-1,j)-d, 3.y j je zarovnáno k mezeře, pak F(i,j)= F(i,j-1)-d,. Konstrukce N.-W. a.

30 Úvod do medicínské informatiky pro Bc. studium 30 Needlemanův-Wunschův a. F(i,j) je konstruována rekurzivně. Inicializace je F(i,j)=0. Po té se matice plní shora zleva směrem dolů doprava:

31 Úvod do medicínské informatiky pro Bc. studium 31 Needlemanův-Wunschův a. Matice je naplněna takto: Během plnění je uchována informace o cestě (index buňky, která byla zdrojem hodnoty). F(i-1,j-1)F(i,j-1) F(i-1,j)F(i,j)F(i,j) -d s(xi,yj)s(xi,yj)

32 Úvod do medicínské informatiky pro Bc. studium 32 N.–W. a. - příklad sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE

33 Úvod do medicínské informatiky pro Bc. studium 33 Penalizační skóre HEAGAWGHEE P A W H E A E Hodnoty z matice BLOSUM50 pro sekvence z příkladu. Penalizace mezer d=-8.

34 Úvod do medicínské informatiky pro Bc. studium 34 N. –W. a. - příklad A E E H W A P EEHGWAGAEH HEAGAWGHEE P A W H E A E HEAGAWGHEE PAWHEAE

35 Úvod do medicínské informatiky pro Bc. studium 35 N. –W. a. - příklad A E E H W A P EEHGWAGAEH Optimální zarovnání: HEAGAWGHE-E (celkové skóre = 1) --P-AW-HEAE

36 Úvod do medicínské informatiky pro Bc. studium 36 N.–W. a. – výsledek příkladu sekvence 1: HEAGAWGHE-E sekvence 2: --P-AW-HEAE

37 Úvod do medicínské informatiky pro Bc. studium 37 Zpětné trasování Z pravého dolního rohu (n,m) matice F můžeme zakreslit optimální cestu. Optimální cesta je výstupem dynamického programování a odpovídá optimálnímu globálnímu zarovnání (s nejvyšším možným celkovým skóre). Cesta končí v levém horním rohu (0,0), kde se nachází hodnota F(0,0)=0.

38 Úvod do medicínské informatiky pro Bc. studium 38 Inicializace N.–W. a. V horním řádku pro j=0 nejsou definovány hodnoty F(i,j-1) a F(i-1,j-1). F(i,0) reprezentuje zarovnání prefixu x ke všem mezerám v y. Definujeme F(i,0)=-id. Podobně pro levý sloupec pro i=0 je F(0,j)=-jd.

39 Úvod do medicínské informatiky pro Bc. studium 39 Náročnost Needlemanova- Wunschova algoritmu Výpočetní a paměťové nároky jsou v analýze biologických dat vždy kritické. V N.-W. a. potřebujeme (m+1).(n+1) paměťových míst, pro každé číslo vypočítat 3 součty a 1 maximum. Celková časová náročnost je O(nm) – časová náročnost a protože obvykle n  m, pak náročnost je O(n 2 )

40 Úvod do medicínské informatiky pro Bc. studium 40 Smithův-Watermanův a. Obecně algoritmy (dynamického programování) pro lokální zarovnávání vycházejí z principu globálního zarovnávání. Dva rozdíly: 1.U každého prvku matice F je přidána další možnost stanovit F(i,j)=0 v případě, že ostatní varianty jsou <0. 2.Zarovnávání může skončit kdekoliv uvnitř matice F, nikoliv nutně v pravém dolním rohu.

41 Úvod do medicínské informatiky pro Bc. studium 41 Smithův-Watermanův a. ad Rozdíl 1: Volba hodnoty 0 odpovídá "nastartování" nového zarovnávání.

42 Úvod do medicínské informatiky pro Bc. studium 42 S.–W. a. - příklad sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE (Jde o stejné sekvence jako v příkladu pro globální zarovnání.)

43 Úvod do medicínské informatiky pro Bc. studium 43 S. –W. a. - příklad HEAGAWGHEE P A W H E A E Optimální zarovnání: AWGHE (celkové skóre = 28) AW-HE

44 Úvod do medicínské informatiky pro Bc. studium 44 S.–W. a. – výsledek příkladu sekvence 1: HEAGAWGHE-E sekvence 2: --P-AW-HEAE V příkladu je nalezeno lokální zarovnání jako podmnožina globálního zarovnání. To však nemusí vždy nutně nastat.

45 Úvod do medicínské informatiky pro Bc. studium 45 Inicializace S.-W. a. V horním řádku pro j=0 nejsou definovány hodnoty F(i,j-1) a F(i-1,j-1). Použití 0 v algoritmu vynucuje změnu inicializace F. Definujeme F(i,0)=0. Podobně pro levý sloupec pro i=0 je F(0,j)=0.

46 Úvod do medicínské informatiky pro Bc. studium 46 Zpětné trasování Při zpětném trasování nemusíme vycházet z prvku F(n,m), ale z prvku Trasování opět končí ve chvíli, kdy dosáhneme prvku F(i,j)=0. To nemusí být nutně v bodě (0,0).

47 Úvod do medicínské informatiky pro Bc. studium 47 Opakované shody V případě dlouhých sekvencí je pravděpodobné nalezení mnoha lokálních zarovnání s vysokým skóre. Existují překrývající se a nepřekrývající se části (motivy). Existují symetrické a asymetrické metody: asymetrické – hledá se opakující se část z jedné sekvence v druhé (ale už ne naopak).

48 Úvod do medicínské informatiky pro Bc. studium 48 Asymetrická metoda pro nepřekrývající se části Zavádí se práh skóre T pro zanedbání krátkých lokálních zarovnání. y – sekvence obsahující část (motiv). x – sekvence, v níž vyhledáváme opakované části. Matice F je použita tak, že x je rozděleno na části, které souhlasí s částmi v y v lokálních zarovnáních s mezerami, nesouhlasí s ničím.

49 Úvod do medicínské informatiky pro Bc. studium 49 Asymetrická metoda pro nepřekrývající se části F(i,j) je konstruována rekurzivně. Inicializace je F(i,j)=0. Po té se matice plní podle:

50 Úvod do medicínské informatiky pro Bc. studium 50 Asymetrická metoda pro nepřekrývající se části Vztah pro F(i,0) zajišťuje nesouhlasící oblasti a konce zarovnání (v případě, že skóre převýší práh T). Vztah pro F(i,j) zajišťuje začátky zarovnání a prodloužení.

51 Úvod do medicínské informatiky pro Bc. studium 51 Opakované shody - příklad HEAGAWGHEE P A W H E A E Optimální zarovnání: HEAGAWGHEE (celkové skóre = 9, T=20) HEA.AW-HE. 9

52 Úvod do medicínské informatiky pro Bc. studium 52 Asymetrická metoda pro překrývající se části Pří zarovnání se mohou některé části překrývat v různých konfiguracích. x y x y x y x y

53 Úvod do medicínské informatiky pro Bc. studium 53 Asymetrická metoda pro překrývající se části Požadujeme globální zarovnání, ale bez penalizace přesahujících konců. Zarovnání má začínat na horním nebo levém okraji a končit na spodním nebo pravém okraji. F(i,j) je konstruována rekurzivně. Inicializace je F(i,0)=0 pro i=1,...,n a F(0,j)=0 pro j=1,...,m.

54 Úvod do medicínské informatiky pro Bc. studium 54 Asymetrická metoda pro překrývající se části Po té se matice plní podle vztahu pro globální zarovnání (Needlemanův- Wunschův a.):Needlemanův- Wunschův a.

55 Úvod do medicínské informatiky pro Bc. studium 55 Opakované shody - příklad HEAGAWGHEE P A W H E A E Optimální zarovnání: GAWGHEE (celkové skóre = 25) PAW-HEA

56 Úvod do medicínské informatiky pro Bc. studium 56 Použití složitějších modelů v dynamickém programování Doposud jsme uvažovali nejjednodušší modely s mezerami, kde mezerové skóre (g) je pouze násobek délky. To není ideální pro biologické sekvence, protože penalizují další mezery stejně jako první, přičemž mezery jsou obvykle delší než reziduum.

57 Úvod do medicínské informatiky pro Bc. studium 57 Použití složitějších modelů Pokud máme obecnou funkci (g), můžeme stále použít všechny předešlé modely podle vzoru:

58 Úvod do medicínské informatiky pro Bc. studium 58 Použití modelů s obecnou funkcí (g) Takový model ale vyžaduje O(n 3 ) operací. Modely s lineární mezerovou penalizační funkcí vyžadují jen O(n 2 ) operací. Důvodem je, že pro každou buňku (i,j) se musíme dívat na i+j+1 potenciálních prekurzorů (nikoliv jen na 3).

59 Úvod do medicínské informatiky pro Bc. studium 59 Existují 3 možné cesty k nejlepšímu skóre F(i,j). I G A x i A I G A x i G A x i - - L G V y j G V y j - - S L G V y j 1.x i je zarovnáno k y j, pak M(i,j) je nejlepší skóre až do (i,j), 2.x i je zarovnáno k mezeře, pak I x (i,j) je nejlepší skóre při inserci x i, 3.y j je zarovnáno k mezeře, pak I y (i,j) je nejlepší skóre při inserci y j. Zarovnání s afinní penalizací mezer

60 Úvod do medicínské informatiky pro Bc. studium 60 Zarovnání s afinní penalizací mezer Rekurentní relace jsou teď

61 Úvod do medicínské informatiky pro Bc. studium 61 Relace mezi stavy pro afinní penalizaci mezer s(x i,y j ) M (+1,+1) I y (+0,+1) I x (+1,+0) s(x i,y j ) -d -e

62 Úvod do medicínské informatiky pro Bc. studium 62 Významnost skóre Jsou známy metody nalezení optimálního zarovnání. Jak posoudit významnost jejich skóre? Jak rozhodneme, zda se jedná o nejlepší biologicky smysluplné zarovnání, nebo o nejlepší zarovnání mezi dvěma zcela nesouvisejícími sekvencemi?

63 Úvod do medicínské informatiky pro Bc. studium 63 Posouzení významnosti skóre V zásadě existují dva přístupy: Bayesovský (založený na porovnání různých modelů), tradiční statistický (založený na vyčíslení pravděpodobnosti, že skóre bude vyšší než pozorovaná hodnota za předpokladu použití nulového modelu, který odpovídá hypotéze, že sekvence jsou nesouvisející).

64 Úvod do medicínské informatiky pro Bc. studium 64 Bayesovský přístup Byl definován logaritmický pravděpodobnostní poměr založený na modelu příbuznosti.logaritmický pravděpodobnostní poměr modelu příbuznosti Model příbuznosti využívá pravděpodobnosti P(x,y|M). Není lepší použít pravděpodobnost toho, že sekvence jsou související - P(M|x,y) - jako opaku, že nesouvisejí? Lze vypočítat podle Bayesova vzorce, známe-li některé další předpoklady.

65 Úvod do medicínské informatiky pro Bc. studium 65 Bayesovský přístup Je nutné znát apriorní pravděpodobnosti obou modelů, P(R) a P(M). To bude odrážet naše očekávání, že sekvence souvisí, před tím, než je budeme analyzovat. Potom P(R)=1-P(M).

66 Úvod do medicínské informatiky pro Bc. studium 66 Bayesovský přístup Aposteriorní pravděpodobnost toho, že model zarovnání je správný, je:

67 Úvod do medicínské informatiky pro Bc. studium 67 Bayesovský přístup Definujme kde Potom kde je logistická funkce.

68 Úvod do medicínské informatiky pro Bc. studium 68 Logistická funkce

69 Úvod do medicínské informatiky pro Bc. studium 69 Bayesovský přístup V logaritmickém vztahu pro S byl přidán člen log(P(M)/P(R)). To odpovídá vynásobení P(M|x,y) členem P(M)/P(R). Celý přístup spočívá v porovnání výsledné hodnoty s hodnotou 0. Tak je vyjádřena příbuznost sekvencí.

70 Úvod do medicínské informatiky pro Bc. studium 70 Parametry pro modely Pro použití modelů je třeba stanovit (nastavit) některé parametry: substituční skóre, penalizace mezer, pravděpodobnosti. Odhad pravděpodobností lze provést zjištěním četností zarovnaných párů reziduí a mezer v potvrzených zarovnáních.

71 Úvod do medicínské informatiky pro Bc. studium 71 Podrobně o skórovacích maticích Slouží k celkovému ohodnocení úspěšnosti zarovnání. Jejich obsah je obvykle vytvořen intuitivně/experimentálně na základě těchto znalostí fyzikálních, chemických, genetických. Sestavení je kompromisem – podobnostní matice.

72 Úvod do medicínské informatiky pro Bc. studium 72 Skórovací podobnostní matice pro sekvence DNA ATCG A 1000 T 0100 C 0010 G 0001 ATCG A 5-4 T 5 C 5 G 5 ATCG A 1-5 T C 1-5 G -5 1 Matice identity Matice BLAST Tranzitní transverzní matice

73 Úvod do medicínské informatiky pro Bc. studium 73 Matice PAM PAM – Point Accepted Mutation Matice vznikají na základě skutečného výskytu substitucí v přírodě. Sledují se substituce v zarovnaných sekvencích podobných analyzovaným sekvencím.

74 Úvod do medicínské informatiky pro Bc. studium 74 Konstrukce matic BLOSUM Matice jsou odvozeny z množiny zarovnaných bezmezerových regionů z rodin proteinů nazývaných Databáze BLOCKS. Sekvence podstoupily shlukování. Dvě sekvence spadají do stejného shluku v případě, že procento identických reziduí přesáhne jistou úroveň L%.

75 Úvod do medicínské informatiky pro Bc. studium 75 Konstrukce matic BLOSUM Po té jsou vypočítány četnosti A ab pozorování rezidua a v jednom shluku zarovnanného s reziduem b v jiném shluku. Výpočet četnosti je korigován na velikost shluku váhováním každého výskytu hodnotou 1/(n 1 n 2 ), kde n 1 a n 2 jsou velikosti příslušných shluků.

76 Úvod do medicínské informatiky pro Bc. studium 76 Konstrukce matic BLOSUM Z četností A ab jsou odhadnuty q a a p ab. pro výpočet individuálních skóre:individuálních skóre Individuální skóre jsou pak


Stáhnout ppt "Úvod do medicínské informatiky pro Bc. studium 1 Zarovnávání biologických sekvencí 9. přednáška."

Podobné prezentace


Reklamy Google