Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jak se pozná nejlepší strom?

Podobné prezentace


Prezentace na téma: "Jak se pozná nejlepší strom?"— Transkript prezentace:

1 Jak se pozná nejlepší strom?
Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

2 HEURISTICKÉ HLEDÁNÍ

3 LONG BRANCH ATTRACTION
Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D

4 PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říká P(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá) Hmm, divný…. a nemůžeš nám to ukázat na příkladu

5 O PATRO VÝŠ SLYŠÍTE ZVUKY…
Co to ____ může být? Kamarád povídá: „Máš na půdě skřítky a hrajou tam kuželky“. Vy na to:„Skřítci jsou jen v pohádkách“. On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. Vy: „Moment, skočím si pro kalkulačku“

6 PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ…
P(H) = P(Skřítci co umí hrát kuželky) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P(Slyšet zvuky kdyby skřítci hráli) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např , x 1,0 = 0,000001

7 JEŠTĚ NĚCO O LIKELIHOODU…
Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihood P(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H1) > P(D|H2) potom dáme přednost hypotéze H1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [P(Hpavouci) ~P(Hkuny)] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Jinými slovy P(Hluky|Hpavouci) << P(Hluky|Hkuny) Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk

8 JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY
Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 (p=0,4) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB

9 KONEČNĚ FYLOGENEZE L = P(A|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA
HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t)

10 KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) DATA
Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t)

11 KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(T|C,t)….. DATA
Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(T|C,t)…..

12 KONEČNĚ FYLOGENEZE Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(T|C,t)…..

13 KONEČNĚ FYLOGENEZE DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA
Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) t A B t 0,68

14 KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(T|C,t)….. DATA
Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(T|C,t)…..

15 KONEČNĚ FYLOGENEZE P(t) = 1/4 er1Qt + 1/4 er2Qt
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(T|C,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)

16 STROMY P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9
Velmi zjednodušený příklad Jen dvě formy znaku 0 a 1 a na větvích platí následující pravděpodobnosti P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Jaká je pravděpodobnost níže uvedeného alignmentu při topologii, která bude následovat . Druh A Druh B Druh C

17 STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 1 1 0 1 1 0,9
Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0,9 0,9 0,1 0,1 1 nebo 0,9 0,9 0,1 0,9 Pcesta1= P0->0A a P0->1BC a P1->1B a P1->1C Pcesta1= 0,9 x 0,1 x 0,9 x 0,9 = 0,0729 Pcesta2= P0->0A a P0->0BC a P0->1B a P0->1C Pcesta2= 0,9 x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je Pcesta1+ Pcesta2= 0,081

18 STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 0 0 0 0 0 0,9
Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0,9 0,9 0,1 0,1 nebo 0,9 1 0,9 0,9 0,1 Pcesta1= P0->0A a P0->0BC a P0->0B a P0->0C Pcesta1= 0,9 x 0,9 x 0,9 x 0,9 = 0,6561 Pcesta2= P0->0A a P0->1BC a P1->0B a P1->0C Pcesta2= 0,9 x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je Pcesta1+ Pcesta2= 0,657 Likelihood tohoto stromu pro cely alignment je L1x L2 = 0,053217

19 SEKVENCE 1 A 2 A 3 C 4 C 5 G 1 2 3 4 5 δ γ β α

20 SEKVENCE Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt

21 ROZDÍLY OPROTI PARSIMONII
V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech. V likelihoodu musíme uvažovat všechny možnosti Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné

22 HEURISTICKÉ HLEDÁNÍ

23 FELSENSTEINOVA ZÓNA p q q p q A C B D q p p p q q q p=∞ q=0,00000001
Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q GCGC q q p=∞ q=0, B D

24 FELSENSTEINOVA ZÓNA A G C T Pij = ¼ - ¼ e-p= 1/4
q GCGC p=∞ q=0, Pij = ¼ - ¼ e-q=0, Pii = ¼ + ¾ e-q=0,9999 Pii = ¼ + ¾ e-p= 1/4 A G C T u L=0, G C p q G Pij = ¼ - ¼ e-p= 1/4 Pii = ¼ + ¾ e-q=0,9999 C C L=0,0625

25 Likelihood vs. parsimonie
LONG BRANCH ATTRACTION Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001

26 FELSENSTEINOVA ZÓNA A G C T u
Maximum likelihood je nekonzistentní metoda pokud substituční model odpovídá skutečnosti A p B q q q A G C T u D p C A C p p q q q B D

27 BAYÉSKÁ METODA Prob (H) Prob (D H) Prob (H D) = Prob (H) Prob (D H) H

28 MARCOV CHAIN MONTE CARLO
Rovnovážný stav T2 Prob (T2 D) Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T1 D)

29 POSTERIORNÍ PRAVDĚPODOBNOSTI
Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2

30 MARKOV CHAIN V AKCI Postup lze hodnotit vynesením likelihoodů do grafu
generace Rovnovážná distribuce hypotéz (stromů) Burn-in lnL

31 MARKOV CHAIN V AKCI Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) generace sakra lnL

32 BAYÉSKÁ METODA Příbuzná metodě maximum likelihood.
Používá stejné substituční modely na výpočet pravděpodobností. Snaží se získat posteriorí pravděpodobnost hypotézy a ne jen likelihood – používá k tomu MCMC. Výhodou je, že optimalizuje zároveň topologii, délky větví a hodnoty parametrů substitučního modelu. Čím více parametrů optimalizuje, tím více potřebuje času, než se dostane do rovnovážného stavu. Počítá statistickou podporu větvení (o tom příště).


Stáhnout ppt "Jak se pozná nejlepší strom?"

Podobné prezentace


Reklamy Google