Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody). Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Jak se pozná nejlepší strom?
HEURISTICKÉ HLEDÁNÍ
LONG BRANCH ATTRACTION A C B D AC BD p p p p q q q q qq Maximální parsimonie je nekonzistentní metoda pp q qq A C BD
PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říká P(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá) Hmm, divný…. a nemůžeš nám to ukázat na příkladu
O PATRO VÝŠ SLYŠÍTE ZVUKY… Co to ____ může být? Kamarád povídá: „Máš na půdě skřítky a hrajou tam kuželky“. Vy na to:„Skřítci jsou jen v pohádkách“. On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. Vy: „Monent, skočím si pro kalkulačku“
PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P (Skřítci co umí hrát kuželky ) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P( Slyšet zvuky kdyby skřítci hráli ) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např. 0, x 1,0 = 0,000001
JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihood P(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H 1 ) > P(D|H 2 ) potom dáme přednost hypotéze H 1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [ P(H pavouci ) ~P(H kuny ) ] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Jinými slovy P(Hluky|H pavouci ) << P(Hluky|H kuny ) Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk
JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 ( p=0,4 ) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B P A&B = P A x P B Pravděpodobnost že se stane A nebo B P A nebo B = P A + P B
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t)
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t)
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(C|T,t)…..
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(C|T,t)….. P ii = ¼ + ¾ e -ut P ij = ¼ - ¼ e -ut
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(C|T,t)….. A G C T α εβ δ γ ζ
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) a P(C|C,t) a P(C|T,t)….. P(A|C,t) = e δt P(C|C,t) = e -(ε+α+δ)t P(C|T,t) = e αt
STROMY Velmi zjednodušený příklad Jen dva znaky 0 a 1 a na větvích platí následující pravděpodobnosti P 0->1 = 0.1 a P 0->0 = 0.9 P 1->0 = 0.1 a P 1->1 = 0.9 Jaká je pravděpodobnost následujícího scénáře se 3 druhy a 2 pozicemi alignmentu. Druh A 0 0 Druh B 1 0 Druh C 1 0
STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 CBA CBA 0 0 Pro jednoduchost předpokládejme, že předek měl 0 nebo 0,9 0,1 0,9 0,1 0,9 P cesta1 = P 0->0A a P 0->1BC a P 1->1B a P 1->1C P cesta1 = 0,9 x 0,1 x 0,9 x 0,9 = 0,0729 P cesta2 = P 0->0A a P 0->0BC a P 0->1B a P 0->1C P cesta2 = 0,9 x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je P cesta1 + P cesta2 = 0,081 Pravděpodobnost že se stane A a B P A&B = P A x P B Pravděpodobnost že se stane A nebo B P A nebo B = P A + P B
STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 CBA CBA 0 1 Pro jednoduchost předpokládejme, že předek měl 0 nebo 0,9 0,1 0,9 0,1 P cesta1 = P 0->0A a P 0->0BC a P 0->0B a P 0->0C P cesta1 = 0,9 x 0,9 x 0,9 x 0,9 = 0,6561 P cesta2 = P 0->0A a P 0->1BC a P 1->0B a P 1->0C P cesta2 = 0,9 x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je P cesta1 + P cesta2 = 0,657 Likelihood tohoto stromu pro cely alignment je L 1 x L 2 = 0,053217
A 2 A 3 C 4 C 5 G γ β δ α SEKVENCE
Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu AACCG p n o m = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 4 4 členů! B1B2 B3B4 B5 B6 B7 B8 SEKVENCE P(A|C,B1) = e δt A G C T α εβ δ γ ζ π A π C π G π T
V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech. V likelihoodu musíme uvažovat všechny možnosti Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné 20 ROZDÍLY OPROTI PARSIMONII
HEURISTICKÉ HLEDÁNÍ
Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001 LONG BRANCH ATTRACTION
Prob (H D) = Prob (H) Prob (D H) H BAYÉSKÁ METODA
T1 T2 Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T2 D) Prob (T1 D) Rovnovážný stav MARCOV CHAIN MONTE CARLO
T1 T2 Rovnovážný stav Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu POSTERIORNÍ PRAVDĚPODOBNOSTI
26 Postup lze hodnotit vynesením likelihoodů do grafu lnL generace Burn-in Rovnovážná distribuce hypotéz (stromů) MARKOV CHAIN V AKCI
27 Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) lnL 0 generace sakra MARKOV CHAIN V AKCI
STATISTICKÁ PODPORA VĚTVENÍ
POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ