Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.

Podobné prezentace


Prezentace na téma: "Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden."— Transkript prezentace:

1 Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody). Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Jak se pozná nejlepší strom?

2 HEURISTICKÉ HLEDÁNÍ

3 LONG BRANCH ATTRACTION A C B D AC BD p p p p q q q q qq Maximální parsimonie je nekonzistentní metoda pp q qq A C BD

4 PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říká P(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá)

5 O PATRO VÝŠ SLYŠÍTE ZVUKY… Co to ____ může být? Kamarád povídá: „Máš na půdě skřítky a hrajou tam kuželky“. Vy na to:„Skřítci jsou jen v pohádkách“. On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. Vy: „Moment, skočím si pro kalkulačku“

6 PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P (Skřítci co umí hrát kuželky ) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P( Slyšet zvuky kdyby skřítci hráli ) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např. 0, x 1,0 = 0,000001

7 JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihood P(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H 1 ) > P(D|H 2 ) potom dáme přednost hypotéze H 1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [ P(H pavouci ) ~P(H kuny ) ] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Matematicky psáno P(Hluky|H pavouci ) << P(Hluky|H kuny ) Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk

8 JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 ( p=0,4 ) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B P A&B = P A x P B Pravděpodobnost že se stane A nebo B P A nebo B = P A + P B

9 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t)

10 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t)

11 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

12 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. P ii = ¼ + ¾ e -t P ij = ¼ - ¼ e -t

13 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE t 0 0 0,68

14 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

15 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. P(t) = 1/4 e r1Qt + 1/4 e r2Qt + 1/4 e r3Qt + 1/4 e r4Qt Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ )

16 STROMY Velmi zjednodušený příklad Jen dvě formy znaku 0 a 1 a na větvích platí následující pravděpodobnosti P 0->1 = 0.1 a P 0->0 = 0.9 P 1->0 = 0.1 a P 1->1 = 0.9 Jaká je pravděpodobnost níže uvedeného alignmentu při topologii, která bude následovat. Druh A 0 0 Druh B 1 0 Druh C 1 0

17 STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 CBA CBA 0 0 Pro jednoduchost předpokládejme, že předek měl 0 nebo 0,9 0,1 0,9 0,1 0,9 P cesta1 = P 0->0A a P 0->1BC a P 1->1B a P 1->1C P cesta1 = 0,9 x 0,1 x 0,9 x 0,9 = 0,0729 P cesta2 = P 0->0A a P 0->0BC a P 0->1B a P 0->1C P cesta2 = 0,9 x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je P cesta1 + P cesta2 = 0,081

18 STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 CBA CBA 0 1 Pro jednoduchost předpokládejme, že předek měl 0 nebo 0,9 0,1 0,9 0,1 P cesta1 = P 0->0A a P 0->0BC a P 0->0B a P 0->0C P cesta1 = 0,9 x 0,9 x 0,9 x 0,9 = 0,6561 P cesta2 = P 0->0A a P 0->1BC a P 1->0B a P 1->0C P cesta2 = 0,9 x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je P cesta1 + P cesta2 = 0,657 0, Likelihood tohoto stromu pro cely alignment je L 1 x L 2 = 0,053217

19 A 2 A 3 C 4 C 5 G γ β δ α SEKVENCE

20 Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu AACCG p n o m = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 4 4 členů! B1B2 B3B4 B5 B6 B7 B8 SEKVENCE P(t) = e Qt A G C T α εβ δ γ ζ π A π C π G π T

21 V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech. V likelihoodu musíme uvažovat všechny možnosti Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné 21 ROZDÍLY OPROTI PARSIMONII

22 HEURISTICKÉ HLEDÁNÍ

23 Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001 LONG BRANCH ATTRACTION

24 Prob (H D) = Prob (H) Prob (D H) H BAYÉSKÁ METODA

25 T1 T2 Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T2 D) Prob (T1 D) Rovnovážný stav MARCOV CHAIN MONTE CARLO

26 T1 T2 Rovnovážný stav Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu POSTERIORNÍ PRAVDĚPODOBNOSTI

27 27 Postup lze hodnotit vynesením likelihoodů do grafu lnL generace Burn-in Rovnovážná distribuce hypotéz (stromů) MARKOV CHAIN V AKCI

28 28 Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) lnL 0 generace sakra MARKOV CHAIN V AKCI

29 BAYÉSKÁ METODA Příbuzná metodě maximum likelihood. Používá stejné substituční modely na výpočet pravděpodobností. Snaží se získat posteriorí pravděpodobnost hypotézy a ne jen likelihood – používá k tomu MCMC. Výhodou je, že optimalizuje zároveň topologii, délky větví a hodnoty parametrů substitučního modelu. Čím více parametrů optimalizuje, tím více potřebuje času, než se dostane do rovnovážného stavu. Počítá statistickou podporu větvení (o tom příště).

30 MAX. LIKELIHOOD vs BAYES


Stáhnout ppt "Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden."

Podobné prezentace


Reklamy Google