Zarovnávání biologických sekvencí

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
TEORIE ROZHODOVÁNÍ A TEORIE HER
Testování parametrických hypotéz
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
A5M33IZS – Informační a znalostní systémy Testování modelů.
Diskrétní matematika Opakování - příklady.
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Zabývá se různými způsoby výběru prvků z daného souboru.
AutorMgr. Lenka Závrská Anotace Očekávaný přínos Tematická oblastOperace s reálnými čísly Téma PředmětMatematika RočníkPrvní Obor vzděláváníUčební obory.
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
Hra je určená pro dvě družstva nebo dva žáky – červené x modré Po kliknutí na tlačítko s číslicí se zobrazí otázka, s otázkou se zároveň zobrazí napovídající.
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Elektrický obvod a jeho části
Teorie firmy II - Optimum výrobce - Mezní produkt, zákon klesajícího mezního produktu - Izokvanty produkční funkce - Další modely výrobce
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Lineární rovnice Běloun 91/1 a
ARITMETICKÁ POSLOUPNOST II
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
Úpravy algebraických výrazů
ARITMETICKÁ POSLOUPNOST I
Regresní analýza a korelační analýza
Základní číselné množiny
T.A. Edison Tajemství úspěchu v životě není v tom, že děláme, co se nám líbí, ale, že nacházíme zalíbení v tom, co děláme.
Získávání informací Získání informací o reálném systému
Gravitační vlny v přesných řešeních Einsteinových rovnic RNDr
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Pravděpodobnost a statistika opakování základních pojmů
Generování náhodných veličin (1) Diskrétní rozdělení
Tento Digitální učební materiál vznikl díky finanční podpoře EU- OP Vzdělávání pro konkurenceschopnost. Není – li uvedeno jinak, je tento materiál zpracován.

Projekt PŘEDPOVĚĎ POČASÍ. Předpověď počasí na
Nejmenší společný násobek
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Posloupnosti, řady Posloupnost je každá funkce daná nějakým předpisem, jejímž definičním oborem je množina všech přirozených čísel n=1,2,3,… Zapisujeme.
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
předpověď počasí na 14. května 2009 OBLAČNOST 6.00.
Tento Digitální učební materiál vznikl díky finanční podpoře EU- Operačního programu Vzdělávání pro konkurenceschopnost Není –li uvedeno jinak, je tento.
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Tento Digitální učební materiál vznikl díky finanční podpoře EU- Operačního programu Vzdělávání pro konkurenceschopnost Není –li uvedeno jinak, je tento.
AZ - KVÍZ Procvičení procent
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
EDITOR BY: SPRESS 15. ledna ledna ledna 2015.
Tento Digitální učební materiál vznikl díky finanční podpoře EU- OP Vzdělávání pro konkurenceschopnost. Není – li uvedeno jinak, je tento materiál zpracován.
Lineární rovnice – 1. část
PRAVOÚHLÝ TROJÚHELNÍK
Soutěž pro dvě družstva
Rovnoběžné promítání. Nevlastní útvary. Osová afinita v rovině.
VY_32_INOVACE_21-10 TEST č. 1.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Pravděpodobnost (pracovní verze). 1. Definice pojmů Jednoduchý/náhodný pokus (simple experiment)  Akt vedoucí k jednomu výsledku - např. hod kostkou,
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
Abeceda VY_32_INOVACE_122, 7. sada, ČJ2 Český jazyk, 2. ročník ANOTACE
Přednost početních operací
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
POČET PRAVDĚPODOBNOSTI
Odhad metodou maximální věrohodnost
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Podmíněné pravděpodobnosti
Transkript prezentace:

Zarovnávání biologických sekvencí Úvod do medicínské informatiky pro Bc. studium Zarovnávání biologických sekvencí 9. přednáška

Zarovnávání biologických sekvencí Úvod do medicínské informatiky pro Bc. studium Zarovnávání biologických sekvencí Pravděpodobnost a pravděpodobnostní modely Zarovnávání Významnost skóre v hodnocení modelu Nastavení parametrů modelů

Pravděpodobnost a pravděpodobnostní modely Úvod do medicínské informatiky pro Bc. studium Pravděpodobnost a pravděpodobnostní modely Model je systém simulující objekt za určitých podmínek. Pravděpodobnostní model je systém poskytující různé výstupy s různými pravděpodobnostmi, a může simulovat třídu objektů.

Maximální pravděpodobnost Úvod do medicínské informatiky pro Bc. studium Maximální pravděpodobnost Parametry modelu jsou odhadovány z velké množiny "správných" příkladů (trénovací množina). Příklad: Pravděpodobnost qa pro aminokyselinu a může být odhadnuta jako pozorovaná četnost výskytů reziduí v databázi známých proteinových sekvencí, např. SWISS-PROT.

Maximální pravděpodobnost Úvod do medicínské informatiky pro Bc. studium Maximální pravděpodobnost Tento způsob odhadu se nazývá metoda maximální pravděpodobnosti. Obecně: Je dán model s parametry θ a množina dat D, potom odhad maximální pravděpodobnosti pro θ je taková hodnota, která maximalizuje P(D|θ).

Pravděpodobnosti Podmíněná pravděpodobnost Vzájemná pravděpodobnost Úvod do medicínské informatiky pro Bc. studium Pravděpodobnosti Podmíněná pravděpodobnost Vzájemná pravděpodobnost Marginální pravděpodobnost Příklad: Máme dvě kostky D1 a D2. Pravděpodobnost, že padne i při hodu kostkou D1 je podmíněná pravděpodobnost P(i|D1).

Úvod do medicínské informatiky pro Bc. studium Pravděpodobnosti Vybereme-li náhodně kostku Dj s p. P(Dj), j=1, 2, p. výběru kostky Dj a hození i je součinem dvou p. a nazývá se vzájemnou pravděpodobností P(i,Dj)=P(Dj).P(i|Dj). Rovnice P(X,Y)= P(X|Y).P(Y) platí obecně pro jakékoliv jevy X a Y. Jestliže jsou podmíněná i vzájemná p. známy, můžeme vypočítat marginální pravděpodobnost P(X)=SYP(X,Y)=SYP(X|Y).P(Y)

Úvod do medicínské informatiky pro Bc. studium Párování Základní úlohou sekvenční analýzy je otázka, zda jsou dvě sekvence v relaci (zda spolu souvisí, zda mají společného předka). Úloha má dvě části: párování (zarovnání sekvencí nebo jejich částí), posouzení, zda se párování zdařilo díky relaci sekvencí nebo náhodou, za pomoci ohodnocení.

Příklady relací sekvencí Úvod do medicínské informatiky pro Bc. studium Příklady relací sekvencí Hemoglobin subunit alpha versus Hemoglobin subunit beta

Úvod do medicínské informatiky pro Bc. studium

Úvod do medicínské informatiky pro Bc. studium

Úvod do medicínské informatiky pro Bc. studium

Úvod do medicínské informatiky pro Bc. studium

Příklady relací sekvencí Úvod do medicínské informatiky pro Bc. studium Příklady relací sekvencí Lidský alfa globin: HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVD G+ +VK+HGKKV A+++++AH+D HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLD Jasná podobnost lidskému beta globinu. ++ ++++H+ KV + +A ++ LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQ Strukturálně přijatelné srovnání s leghemoglobinem. Písmeno – identická pozice, + - 'podobná pozice'

Úvod do medicínské informatiky pro Bc. studium Model ohodnocení Při porovnávání sekvencí hledáme důkaz divergence ze společného předka, která mohla nastat procesem mutace, a selekce. Základní mutační procesy jsou substituce (změna rezidua), a inserce a delece (přidání a vypuštění rezidua). Inserce a delece jsou vztaženy k mezerám.

Modely (ne)příbuznosti Úvod do medicínské informatiky pro Bc. studium Modely (ne)příbuznosti Dvojice sekvencí x a y délky n a m. xi je i-tý symbol x, yj je j-tý symbol y. Symboly jsou z abecedy A. A ={A, G, C, T} pro DNA, A ={20 aminokyselin} pro proteiny. Dvojici sekvencí přiřadíme skóre párování, které představuje p., že sekvence jsou příbuzné (jako opak nepříbuznosti).

Úvod do medicínské informatiky pro Bc. studium Model nepříbuznosti Nepříbuzný (náhodný) model R předpokládá, že symbol a se objevuje nezávisle s četností qa. P. dvou sekvencí je potom pouze součinem p. sekvencí:

Úvod do medicínské informatiky pro Bc. studium Model příbuznosti V modelu příbuznosti M se zarovnané páry reziduí objevují se vzájemnou p. pab. pab může být chápána jako p. toho, že rezidua a a b byla nezávisle odvozena z neznámého rezidua c ve společném předkovi. c může být totožné s a nebo b.

Pravděpodobnostní poměr Úvod do medicínské informatiky pro Bc. studium Pravděpodobnostní poměr Pravděpodobnostní poměr je dán poměrem p. obou modelů:

Logaritmický pravděpodobnostní poměr Úvod do medicínské informatiky pro Bc. studium Logaritmický pravděpodobnostní poměr Obvykle se využívá aditivního skórovacího systému. Tomu odpovídá logaritmický pravděpodobnostní poměr: kde s(xi,yi) je individuální skóre

Úvod do medicínské informatiky pro Bc. studium Substituční matice Log p. poměr je sumou individuálních skóre s(a,b) pro každý zarovnaný pár reziduí. Skóre s(a,b) bývají vyjádřena substituční maticí (maticí skóre). Např. pro proteiny tvoří matici 20x20 s s(ai,aj) na pozicích i, j, kde ai, aj jsou i-tá a j-tá aminokyselina

Příklad substituční matice Úvod do medicínské informatiky pro Bc. studium A R N D C Q E G H I L K M F P S T W Y V 5 -2 -1 -3 1 7 -4 2 8 13 6 10 15 Matice BLOSUM50

Úvod do medicínské informatiky pro Bc. studium Penalizace mezer Kromě substitucí je nutné ohodnotit také inserce a delece. Standardní cena mezery délky g je Alternativou je afinní skóre kde d je standarní cena a e<d je rozšiřující cena pro menší penalizaci dlouhých insercí a delecí.

Zarovnávací algoritmy Úvod do medicínské informatiky pro Bc. studium Zarovnávací algoritmy Zarovnávací algoritmy slouží k nalezení optimálního zarovnání dvojice sekvencí. Jsou-li sekvence stejně dlouhé, existuje jediné možné (globální) zarovnání kompletních sekvencí. Uvážíme-li také mezery, existuje možných globálních zarovnání. n=10: 1,9.105 n=100: 9.1058

Globální v. lokální zarovnávání Úvod do medicínské informatiky pro Bc. studium Globální v. lokální zarovnávání Při globálním zarovnávání hledáme optimální vzájemnou polohu dvou sekvencí od jednoho konce k druhému. Častější situací je zarovnávání subsekvencí v tzv. lokálním zarovnávání.

Dynamické programování Úvod do medicínské informatiky pro Bc. studium Dynamické programování Optimální zarovnání se v analýze biologických sekvencí řeší dynamickým programováním: Needlemanův-Wunschův algoritmus, Gotohův a., Smithův-Watermanův a.. a další.

Dynamické programování Úvod do medicínské informatiky pro Bc. studium Dynamické programování Dynamické programování (DP) zaručuje nalezení optimálního zarovnání. Existují rychlejší – heuristické – algoritmy, které ale vyžadují apriorní informaci a nemusí vždy nalézt globální optimum. DP využívá v analýze biologických sekvencí logaritmický pravděpodobnostní poměr  půjde o nalezení maxima.

Needlemanův-Wunschův a. Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. Myšlenka: globální zarovnání využije předchozí lokální zarovnání kratších subsekvencí. Vytváří se matice F (indexovaná i a j pro jednotlivé sekvence). F(i,j) je skóre nejlepšího zarovnání mezi počátečním segmentem x1..i sekvence x do xi a počátečním segmentem y1..j sekvence y do yj.

Konstrukce N.-W. a. Existují 3 možné cesty k nejlepšímu skóre F(i,j). Úvod do medicínské informatiky pro Bc. studium Konstrukce N.-W. a. Existují 3 možné cesty k nejlepšímu skóre F(i,j). I G A xi A I G A xi G A xi - - L G V yj G V yj - - S L G V yj xi je zarovnáno k yj, pak F(i,j)= F(i-1,j-1)+s(xi,yj), xi je zarovnáno k mezeře, pak F(i,j)= F(i-1,j)-d, yj je zarovnáno k mezeře, pak F(i,j)= F(i,j-1)-d,.

Needlemanův-Wunschův a. Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. F(i,j) je konstruována rekurzivně. Inicializace je F(i,j)=0. Po té se matice plní shora zleva směrem dolů doprava:

Needlemanův-Wunschův a. Úvod do medicínské informatiky pro Bc. studium Needlemanův-Wunschův a. Matice je naplněna takto: Během plnění je uchována informace o cestě (index buňky, která byla zdrojem hodnoty). F(i-1,j-1) F(i,j-1) F(i-1,j) F(i,j) -d s(xi,yj)

sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE N.–W. a. - příklad Úvod do medicínské informatiky pro Bc. studium N.–W. a. - příklad sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE

Penalizační skóre Hodnoty z matice BLOSUM50 pro sekvence z příkladu. Úvod do medicínské informatiky pro Bc. studium Penalizační skóre Hodnoty z matice BLOSUM50 pro sekvence z příkladu. H E A G W P -2 -1 -4 5 -3 15 10 6 Penalizace mezer d=-8.

N. –W. a. - příklad HEAGAWGHEE PAWHEAE H E A G A W G H E E P A W H E A Úvod do medicínské informatiky pro Bc. studium N. –W. a. - příklad H E A G A W G H E E -48 -56 -40 -32 -24 -16 -8 -80 -72 -64 P 2 -5 -15 -12 -11 -3 -16 -30 1 -9 -14 -6 -24 -38 3 -7 -8 -22 -19 -13 -18 -37 -29 -21 -60 -52 -44 -36 -28 -20 -73 -65 -57 -49 -42 -33 -2 -9 -17 -25 A -10 -3 -4 -12 W H H E A G W P -2 -1 -4 5 -3 15 10 6 E A E HEAGAWGHEE PAWHEAE

N. –W. a. - příklad Optimální zarovnání: HEAGAWGHE-E Úvod do medicínské informatiky pro Bc. studium N. –W. a. - příklad H E A G A W G H E E -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 Optimální zarovnání: HEAGAWGHE-E (celkové skóre = 1) --P-AW-HEAE

N.–W. a. – výsledek příkladu Úvod do medicínské informatiky pro Bc. studium N.–W. a. – výsledek příkladu sekvence 1: HEAGAWGHE-E sekvence 2: --P-AW-HEAE

Úvod do medicínské informatiky pro Bc. studium Zpětné trasování Z pravého dolního rohu (n,m) matice F můžeme zakreslit optimální cestu. Optimální cesta je výstupem dynamického programování a odpovídá optimálnímu globálnímu zarovnání (s nejvyšším možným celkovým skóre). Cesta končí v levém horním rohu (0,0), kde se nachází hodnota F(0,0)=0.

Úvod do medicínské informatiky pro Bc. studium Inicializace N.–W. a. V horním řádku pro j=0 nejsou definovány hodnoty F(i,j-1) a F(i-1,j-1). F(i,0) reprezentuje zarovnání prefixu x ke všem mezerám v y. Definujeme F(i,0)=-id. Podobně pro levý sloupec pro i=0 je F(0,j)=-jd.

Náročnost Needlemanova-Wunschova algoritmu Úvod do medicínské informatiky pro Bc. studium Náročnost Needlemanova-Wunschova algoritmu Výpočetní a paměťové nároky jsou v analýze biologických dat vždy kritické. V N.-W. a. potřebujeme (m+1).(n+1) paměťových míst, pro každé číslo vypočítat 3 součty a 1 maximum. Celková časová náročnost je O(nm) – časová náročnost a protože obvykle n  m, pak náročnost je O(n2)

Úvod do medicínské informatiky pro Bc. studium Smithův-Watermanův a. Obecně algoritmy (dynamického programování) pro lokální zarovnávání vycházejí z principu globálního zarovnávání. Dva rozdíly: U každého prvku matice F je přidána další možnost stanovit F(i,j)=0 v případě, že ostatní varianty jsou <0. Zarovnávání může skončit kdekoliv uvnitř matice F, nikoliv nutně v pravém dolním rohu.

Smithův-Watermanův a. ad Rozdíl 1: Úvod do medicínské informatiky pro Bc. studium Smithův-Watermanův a. ad Rozdíl 1: Volba hodnoty 0 odpovídá "nastartování" nového zarovnávání.

sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE S.–W. a. - příklad Úvod do medicínské informatiky pro Bc. studium S.–W. a. - příklad sekvence 1: HEAGAWGHEE sekvence 2: PAWHEAE (Jde o stejné sekvence jako v příkladu pro globální zarovnání.)

S. –W. a. - příklad Optimální zarovnání: AWGHE Úvod do medicínské informatiky pro Bc. studium S. –W. a. - příklad H E A G W P 5 2 20 12 4 10 18 22 14 6 16 8 28 21 13 27 26 Optimální zarovnání: AWGHE (celkové skóre = 28) AW-HE

S.–W. a. – výsledek příkladu Úvod do medicínské informatiky pro Bc. studium S.–W. a. – výsledek příkladu sekvence 1: HEAGAWGHE-E sekvence 2: --P-AW-HEAE V příkladu je nalezeno lokální zarovnání jako podmnožina globálního zarovnání. To však nemusí vždy nutně nastat.

Úvod do medicínské informatiky pro Bc. studium Inicializace S.-W. a. V horním řádku pro j=0 nejsou definovány hodnoty F(i,j-1) a F(i-1,j-1). Použití 0 v algoritmu vynucuje změnu inicializace F. Definujeme F(i,0)=0. Podobně pro levý sloupec pro i=0 je F(0,j)=0.

Úvod do medicínské informatiky pro Bc. studium Zpětné trasování Při zpětném trasování nemusíme vycházet z prvku F(n,m), ale z prvku Trasování opět končí ve chvíli, kdy dosáhneme prvku F(i,j)=0. To nemusí být nutně v bodě (0,0).

Úvod do medicínské informatiky pro Bc. studium Opakované shody V případě dlouhých sekvencí je pravděpodobné nalezení mnoha lokálních zarovnání s vysokým skóre. Existují překrývající se a nepřekrývající se části (motivy). Existují symetrické a asymetrické metody: asymetrické – hledá se opakující se část z jedné sekvence v druhé (ale už ne naopak).

Asymetrická metoda pro nepřekrývající se části Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části Zavádí se práh skóre T pro zanedbání krátkých lokálních zarovnání. y – sekvence obsahující část (motiv). x – sekvence, v níž vyhledáváme opakované části. Matice F je použita tak, že x je rozděleno na části, které souhlasí s částmi v y v lokálních zarovnáních s mezerami, nesouhlasí s ničím.

Asymetrická metoda pro nepřekrývající se části Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části F(i,j) je konstruována rekurzivně. Inicializace je F(i,j)=0. Po té se matice plní podle:

Asymetrická metoda pro nepřekrývající se části Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro nepřekrývající se části Vztah pro F(i,0) zajišťuje nesouhlasící oblasti a konce zarovnání (v případě, že skóre převýší práh T). Vztah pro F(i,j) zajišťuje začátky zarovnání a prodloužení.

Opakované shody - příklad Úvod do medicínské informatiky pro Bc. studium Opakované shody - příklad H E A G W 1 3 9 P 5 6 2 21 13 10 19 23 15 16 8 11 29 28 18 12 4 17 27 9 Optimální zarovnání: HEAGAWGHEE (celkové skóre = 9, T=20) HEA.AW-HE.

Asymetrická metoda pro překrývající se části Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro překrývající se části Pří zarovnání se mohou některé části překrývat v různých konfiguracích. x y x y x y x y

Asymetrická metoda pro překrývající se části Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro překrývající se části Požadujeme globální zarovnání, ale bez penalizace přesahujících konců. Zarovnání má začínat na horním nebo levém okraji a končit na spodním nebo pravém okraji. F(i,j) je konstruována rekurzivně. Inicializace je F(i,0)=0 pro i=1,...,n a F(0,j)=0 pro j=1,...,m.

Asymetrická metoda pro překrývající se části Úvod do medicínské informatiky pro Bc. studium Asymetrická metoda pro překrývající se části Po té se matice plní podle vztahu pro globální zarovnání (Needlemanův-Wunschův a.):

Opakované shody - příklad Úvod do medicínské informatiky pro Bc. studium Opakované shody - příklad H E A G W P -2 -1 -4 4 3 -3 -5 1 18 10 2 6 -6 16 20 12 8 7 26 21 13 5 25 14 24 Optimální zarovnání: GAWGHEE (celkové skóre = 25) PAW-HEA

Použití složitějších modelů v dynamickém programování Úvod do medicínské informatiky pro Bc. studium Použití složitějších modelů v dynamickém programování Doposud jsme uvažovali nejjednodušší modely s mezerami, kde mezerové skóre g(g) je pouze násobek délky. To není ideální pro biologické sekvence, protože penalizují další mezery stejně jako první, přičemž mezery jsou obvykle delší než reziduum.

Použití složitějších modelů Úvod do medicínské informatiky pro Bc. studium Použití složitějších modelů Pokud máme obecnou funkci g(g), můžeme stále použít všechny předešlé modely podle vzoru:

Použití modelů s obecnou funkcí g(g) Úvod do medicínské informatiky pro Bc. studium Použití modelů s obecnou funkcí g(g) Takový model ale vyžaduje O(n3) operací. Modely s lineární mezerovou penalizační funkcí vyžadují jen O(n2) operací. Důvodem je, že pro každou buňku (i,j) se musíme dívat na i+j+1 potenciálních prekurzorů (nikoliv jen na 3).

Zarovnání s afinní penalizací mezer Úvod do medicínské informatiky pro Bc. studium Zarovnání s afinní penalizací mezer Existují 3 možné cesty k nejlepšímu skóre F(i,j). I G A xi A I G A xi G A xi - - L G V yj G V yj - - S L G V yj xi je zarovnáno k yj, pak M(i,j) je nejlepší skóre až do (i,j), xi je zarovnáno k mezeře, pak Ix(i,j) je nejlepší skóre při inserci xi, yj je zarovnáno k mezeře, pak Iy(i,j) je nejlepší skóre při inserci yj.

Zarovnání s afinní penalizací mezer Úvod do medicínské informatiky pro Bc. studium Zarovnání s afinní penalizací mezer Rekurentní relace jsou teď

Relace mezi stavy pro afinní penalizaci mezer Úvod do medicínské informatiky pro Bc. studium Relace mezi stavy pro afinní penalizaci mezer s(xi,yj) M (+1,+1) Iy (+0,+1) Ix (+1,+0) -d -e

Významnost skóre Jsou známy metody nalezení optimálního zarovnání. Úvod do medicínské informatiky pro Bc. studium Významnost skóre Jsou známy metody nalezení optimálního zarovnání. Jak posoudit významnost jejich skóre? Jak rozhodneme, zda se jedná o nejlepší biologicky smysluplné zarovnání, nebo o nejlepší zarovnání mezi dvěma zcela nesouvisejícími sekvencemi?

Posouzení významnosti skóre Úvod do medicínské informatiky pro Bc. studium Posouzení významnosti skóre V zásadě existují dva přístupy: Bayesovský (založený na porovnání různých modelů), tradiční statistický (založený na vyčíslení pravděpodobnosti, že skóre bude vyšší než pozorovaná hodnota za předpokladu použití nulového modelu, který odpovídá hypotéze, že sekvence jsou nesouvisející).

Úvod do medicínské informatiky pro Bc. studium Bayesovský přístup Byl definován logaritmický pravděpodobnostní poměr založený na modelu příbuznosti. Model příbuznosti využívá pravděpodobnosti P(x,y|M). Není lepší použít pravděpodobnost toho, že sekvence jsou související - P(M|x,y) - jako opaku, že nesouvisejí? Lze vypočítat podle Bayesova vzorce, známe-li některé další předpoklady.

Úvod do medicínské informatiky pro Bc. studium Bayesovský přístup Je nutné znát apriorní pravděpodobnosti obou modelů, P(R) a P(M). To bude odrážet naše očekávání, že sekvence souvisí, před tím, než je budeme analyzovat. Potom P(R)=1-P(M).

Úvod do medicínské informatiky pro Bc. studium Bayesovský přístup Aposteriorní pravděpodobnost toho, že model zarovnání je správný, je:

Bayesovský přístup Definujme kde Potom kde je logistická funkce. Úvod do medicínské informatiky pro Bc. studium Bayesovský přístup Definujme kde Potom kde je logistická funkce.

Logistická funkce Úvod do medicínské informatiky pro Bc. studium -6 -4 -2 2 4 6 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Úvod do medicínské informatiky pro Bc. studium Bayesovský přístup V logaritmickém vztahu pro S byl přidán člen log(P(M)/P(R)). To odpovídá vynásobení P(M|x,y) členem P(M)/P(R). Celý přístup spočívá v porovnání výsledné hodnoty s hodnotou 0. Tak je vyjádřena příbuznost sekvencí.

Úvod do medicínské informatiky pro Bc. studium Parametry pro modely Pro použití modelů je třeba stanovit (nastavit) některé parametry: substituční skóre, penalizace mezer, pravděpodobnosti. Odhad pravděpodobností lze provést zjištěním četností zarovnaných párů reziduí a mezer v potvrzených zarovnáních.

Podrobně o skórovacích maticích Úvod do medicínské informatiky pro Bc. studium Podrobně o skórovacích maticích Slouží k celkovému ohodnocení úspěšnosti zarovnání. Jejich obsah je obvykle vytvořen intuitivně/experimentálně na základě těchto znalostí fyzikálních, chemických, genetických. Sestavení je kompromisem – podobnostní matice.

Skórovací podobnostní matice pro sekvence DNA Úvod do medicínské informatiky pro Bc. studium Skórovací podobnostní matice pro sekvence DNA A T C G 1 A T C G 5 -4 Matice identity Matice BLAST A T C G 1 -5 -1 Tranzitní transverzní matice

Matice PAM PAM – Point Accepted Mutation Úvod do medicínské informatiky pro Bc. studium Matice PAM PAM – Point Accepted Mutation Matice vznikají na základě skutečného výskytu substitucí v přírodě. Sledují se substituce v zarovnaných sekvencích podobných analyzovaným sekvencím.

Konstrukce matic BLOSUM Úvod do medicínské informatiky pro Bc. studium Konstrukce matic BLOSUM Matice jsou odvozeny z množiny zarovnaných bezmezerových regionů z rodin proteinů nazývaných Databáze BLOCKS. Sekvence podstoupily shlukování. Dvě sekvence spadají do stejného shluku v případě, že procento identických reziduí přesáhne jistou úroveň L%.

Konstrukce matic BLOSUM Úvod do medicínské informatiky pro Bc. studium Konstrukce matic BLOSUM Po té jsou vypočítány četnosti Aab pozorování rezidua a v jednom shluku zarovnanného s reziduem b v jiném shluku. Výpočet četnosti je korigován na velikost shluku váhováním každého výskytu hodnotou 1/(n1n2), kde n1 a n2 jsou velikosti příslušných shluků.

Konstrukce matic BLOSUM Úvod do medicínské informatiky pro Bc. studium Konstrukce matic BLOSUM Z četností Aab jsou odhadnuty qa a pab. pro výpočet individuálních skóre: Individuální skóre jsou pak