Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).
HEURISTICKÉ HLEDÁNÍ
LONG BRANCH ATTRACTION Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D
PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říká P(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá) Hmm, divný…. a nemůžeš nám to ukázat na příkladu
O PATRO VÝŠ SLYŠÍTE ZVUKY… Co to ____ může být? Kamarád povídá: „Máš na půdě skřítky a hrajou tam kuželky“. Vy na to:„Skřítci jsou jen v pohádkách“. On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. Vy: „Moment, skočím si pro kalkulačku“
PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P(Skřítci co umí hrát kuželky) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P(Slyšet zvuky kdyby skřítci hráli) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např. 0,000001 x 1,0 = 0,000001
JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihood P(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H1) > P(D|H2) potom dáme přednost hypotéze H1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [P(Hpavouci) ~P(Hkuny)] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Jinými slovy P(Hluky|Hpavouci) << P(Hluky|Hkuny) Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk
JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 (p=0,4) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB
KONEČNĚ FYLOGENEZE L = P(A|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t)
KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t)
KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(T|C,t)….. DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(T|C,t)…..
KONEČNĚ FYLOGENEZE Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(T|C,t)…..
KONEČNĚ FYLOGENEZE DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) t A B t 0,68
KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(T|C,t)….. DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(T|C,t)…..
KONEČNĚ FYLOGENEZE P(t) = 1/4 er1Qt + 1/4 er2Qt DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(T|C,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)
STROMY P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Velmi zjednodušený příklad Jen dvě formy znaku 0 a 1 a na větvích platí následující pravděpodobnosti P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Jaká je pravděpodobnost níže uvedeného alignmentu při topologii, která bude následovat . Druh A 0 0 Druh B 1 0 Druh C 1 0
STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 1 1 0 1 1 0,9 Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 1 1 0 1 1 0,9 0,9 0,1 0,1 1 nebo 0,9 0,9 0,1 0,9 Pcesta1= P0->0A a P0->1BC a P1->1B a P1->1C Pcesta1= 0,9 x 0,1 x 0,9 x 0,9 = 0,0729 Pcesta2= P0->0A a P0->0BC a P0->1B a P0->1C Pcesta2= 0,9 x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je Pcesta1+ Pcesta2= 0,081
STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 0 0 0 0 0 0,9 Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 0 0 0 0 0 0,9 0,9 0,1 0,1 nebo 0,9 1 0,9 0,9 0,1 Pcesta1= P0->0A a P0->0BC a P0->0B a P0->0C Pcesta1= 0,9 x 0,9 x 0,9 x 0,9 = 0,6561 Pcesta2= P0->0A a P0->1BC a P1->0B a P1->0C Pcesta2= 0,9 x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je Pcesta1+ Pcesta2= 0,657 Likelihood tohoto stromu pro cely alignment je L1x L2 = 0,053217
SEKVENCE 1 A 2 A 3 C 4 C 5 G 1 2 3 4 5 δ γ β α
SEKVENCE Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt
ROZDÍLY OPROTI PARSIMONII V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech. V likelihoodu musíme uvažovat všechny možnosti Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné
HEURISTICKÉ HLEDÁNÍ
FELSENSTEINOVA ZÓNA p q q p q A C B D q p p p q q q p=∞ q=0,00000001 Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q GCGC q q p=∞ q=0,00000001 B D
FELSENSTEINOVA ZÓNA A G C T Pij = ¼ - ¼ e-p= 1/4 q GCGC p=∞ q=0,00000001 Pij = ¼ - ¼ e-q=0,0000003 Pii = ¼ + ¾ e-q=0,9999 Pii = ¼ + ¾ e-p= 1/4 A G C T u L=0,000000001875 G C p q G Pij = ¼ - ¼ e-p= 1/4 Pii = ¼ + ¾ e-q=0,9999 C C L=0,0625
Likelihood vs. parsimonie LONG BRANCH ATTRACTION Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001
FELSENSTEINOVA ZÓNA A G C T u Maximum likelihood je nekonzistentní metoda pokud substituční model odpovídá skutečnosti A p B q q q A G C T u D p C A C p p q q q B D
BAYÉSKÁ METODA Prob (H) Prob (D H) Prob (H D) = Prob (H) Prob (D H) H
MARCOV CHAIN MONTE CARLO Rovnovážný stav T2 Prob (T2 D) Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T1 D)
POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2
MARKOV CHAIN V AKCI Postup lze hodnotit vynesením likelihoodů do grafu generace 0 200 Rovnovážná distribuce hypotéz (stromů) Burn-in lnL
MARKOV CHAIN V AKCI Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) generace sakra lnL
BAYÉSKÁ METODA Příbuzná metodě maximum likelihood. Používá stejné substituční modely na výpočet pravděpodobností. Snaží se získat posteriorí pravděpodobnost hypotézy a ne jen likelihood – používá k tomu MCMC. Výhodou je, že optimalizuje zároveň topologii, délky větví a hodnoty parametrů substitučního modelu. Čím více parametrů optimalizuje, tím více potřebuje času, než se dostane do rovnovážného stavu. Počítá statistickou podporu větvení (o tom příště).