Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

Podobné prezentace


Prezentace na téma: "DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)….."— Transkript prezentace:

1 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. P(t) = 1/4 e r1Qt + 1/4 e r2Qt + 1/4 e r3Qt + 1/4 e r4Qt Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ )

2 Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu AACCG p n o m = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 4 4 členů! B1B2 B3B4 B5 B6 B7 B8 MAXIMUM LIKELIHOOD P(t) = e Qt A G C T α εβ δ γ ζ π A π C π G π T

3 FELSENSTEINOVA ZÓNA A C B D AC BD p p pp q q q q qq Maximální parsimonie je nekonzistentní metoda pp q qq A C BD

4 Maximum likelihood je konzistentní metoda pokud substituční model odpovídá skutečnosti FELSENSTEINOVA ZÓNA

5 Co dalšího v modelu uvolnit? t1t1 t2t2 t3t3 t4t4 t5t5 JEŠTĚ LEPŠÍ MODEL P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e QXt P(t) = e QYt P(t) = e QZt P(t) = e QWt P(t) = e QVt P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG

6 PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin: 16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů

7 Co dalšího v modelu uvolnit? CAT (Phylobayes) Covarion (MrBayes) t1t1 t2t2 t3t3 t4t4 t5t5 P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e Q X t P(t) = e Q Y t P(t) = e Q Z t P(t) = e Q W t P(t) = e Q V t P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG JEŠTĚ LEPŠÍ MODEL

8 COVARION Penny a kol. 2001

9 Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat. KONSEZUÁLNÍ STROM

10 Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS

11 D E A B C BIPARTITIONS/SLITS

12 Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS

13 A B C D E A B C D E A B C D E Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech

14 A B C D E A B C D E A B C D E A B C D E MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů.

15 Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 5/7 EXTENDED MAJORITY RULE KONSENZUS

16 Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 3/7 EXTENDED MAJORITY RULE KONSENZUS

17 Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu? OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST

18 Každá data nám totiž poskytnou strom 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA 1 2 3 4 1 TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?

19 Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt). DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?

20 STATISTICKÁ PODPORA VĚTVENÍ

21 T1 T2 Rovnovážný stav Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu POSTERIORNÍ PRAVDĚPODOBNOSTI

22 POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

23 Základní princip Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom. RESAMPLING METODY

24 Z původního vzorku vybíráme s vracením Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět. BOOTSTRAP

25 123456 Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom 515621 364122 615343 414436 Bootstrapové alignmenty (n opakování) Alignment Bootstrappované alignmenty Stromy BOOTSTRAP

26 Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora) BOOTSTRAP

27 Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software: http://www.mathstat.dal.ca/~tsusko/src/aBPn.exe

28 Jiná resampling metoda Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení. JACKKNIFE

29 123456 Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom 342 136 514 256 Jackknife alignmenty (n opakování) Alignment Jackknifované alignmenty Stromy 50% jackknife JACKKNIFE Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu

30 TESTY TOPOLOGICKÝCH HYPOTÉZ L1L0 δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….

31 TESTY TOPOLOGICKÝCH HYPOTÉZ AU test L 1 L 2 L 3 L 4 L 5 L 6 Acatcga Bccgggt Cgcggga Vypočteme „site likelihoods“ L 1, L 2, L 3, L 4, L 5, L 6 L 1, L 2, L 3, L 4, L 5, L 6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L 1 *L 2 * L 2 * L 3 *L 4 * L 2 L0= L 1 *L 1 * L 6 * L 3 *L 4 * L 5 Spočítáme δ δ= lnL 1 -lnL 0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout

32 Akaike Information Criterion AIC i = -2lnL i + 2p i Bayesian Information Criterion BIC= -2ln(L i )+p i ln(n) L i ……………. Likelihood hypotézy p i ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC VÝBĚR MODELU

33 LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Programy Modeltest a Prottest Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely.

34 LIKELIHOOD RATIO TEST Χ 2 rozložení pro různé stupně volnosti (k)

35 GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.

36 GENOVÝ STROM X DRUHOVÝ STROM Pozor na záměnu orthologu a paralogu.

37 Rozdíl může způsobit také mezidruhový přenos polymorfismu GENOVÝ STROM X DRUHOVÝ STROM T = T2- T1 Ne: efektivní velikost populace. Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne

38 SINE Abdel-Halim Salem a kol. 2003 PNAS Nesouhlas přítomnosti SINE s fylogenezí druhů může poukazovat na „incomplete lineage sorting“ – mezi dvěma blízkými speciačními událostmi nedošlo k vytřídění polymorfismu v populaci.


Stáhnout ppt "DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)….."

Podobné prezentace


Reklamy Google