Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilEmil Vaněk
1
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. P(t) = 1/4 e r1Qt + 1/4 e r2Qt + 1/4 e r3Qt + 1/4 e r4Qt Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ )
2
Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu AACCG p n o m = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 4 4 členů! B1B2 B3B4 B5 B6 B7 B8 MAXIMUM LIKELIHOOD P(t) = e Qt A G C T α εβ δ γ ζ π A π C π G π T
3
FELSENSTEINOVA ZÓNA A C B D AC BD p p pp q q q q qq Maximální parsimonie je nekonzistentní metoda pp q qq A C BD
4
Maximum likelihood je konzistentní metoda pokud substituční model odpovídá skutečnosti FELSENSTEINOVA ZÓNA
5
Co dalšího v modelu uvolnit? t1t1 t2t2 t3t3 t4t4 t5t5 JEŠTĚ LEPŠÍ MODEL P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e QXt P(t) = e QYt P(t) = e QZt P(t) = e QWt P(t) = e QVt P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG
6
PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin: 16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů
7
Co dalšího v modelu uvolnit? CAT (Phylobayes) Covarion (MrBayes) t1t1 t2t2 t3t3 t4t4 t5t5 P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e Q X t P(t) = e Q Y t P(t) = e Q Z t P(t) = e Q W t P(t) = e Q V t P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG JEŠTĚ LEPŠÍ MODEL
8
COVARION Penny a kol. 2001
9
Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat. KONSEZUÁLNÍ STROM
10
Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS
11
D E A B C BIPARTITIONS/SLITS
12
Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS
13
A B C D E A B C D E A B C D E Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech
14
A B C D E A B C D E A B C D E A B C D E MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů.
15
Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 5/7 EXTENDED MAJORITY RULE KONSENZUS
16
Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 3/7 EXTENDED MAJORITY RULE KONSENZUS
17
Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu? OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST
18
Každá data nám totiž poskytnou strom 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA 1 2 3 4 1 TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?
19
Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt). DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?
20
STATISTICKÁ PODPORA VĚTVENÍ
21
T1 T2 Rovnovážný stav Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu POSTERIORNÍ PRAVDĚPODOBNOSTI
22
POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ
23
Základní princip Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom. RESAMPLING METODY
24
Z původního vzorku vybíráme s vracením Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět. BOOTSTRAP
25
123456 Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom 515621 364122 615343 414436 Bootstrapové alignmenty (n opakování) Alignment Bootstrappované alignmenty Stromy BOOTSTRAP
26
Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora) BOOTSTRAP
27
Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software: http://www.mathstat.dal.ca/~tsusko/src/aBPn.exe
28
Jiná resampling metoda Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení. JACKKNIFE
29
123456 Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom 342 136 514 256 Jackknife alignmenty (n opakování) Alignment Jackknifované alignmenty Stromy 50% jackknife JACKKNIFE Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu
30
TESTY TOPOLOGICKÝCH HYPOTÉZ L1L0 δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….
31
TESTY TOPOLOGICKÝCH HYPOTÉZ AU test L 1 L 2 L 3 L 4 L 5 L 6 Acatcga Bccgggt Cgcggga Vypočteme „site likelihoods“ L 1, L 2, L 3, L 4, L 5, L 6 L 1, L 2, L 3, L 4, L 5, L 6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L 1 *L 2 * L 2 * L 3 *L 4 * L 2 L0= L 1 *L 1 * L 6 * L 3 *L 4 * L 5 Spočítáme δ δ= lnL 1 -lnL 0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout
32
Akaike Information Criterion AIC i = -2lnL i + 2p i Bayesian Information Criterion BIC= -2ln(L i )+p i ln(n) L i ……………. Likelihood hypotézy p i ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC VÝBĚR MODELU
33
LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Programy Modeltest a Prottest Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely.
34
LIKELIHOOD RATIO TEST Χ 2 rozložení pro různé stupně volnosti (k)
35
GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.
36
GENOVÝ STROM X DRUHOVÝ STROM Pozor na záměnu orthologu a paralogu.
37
Rozdíl může způsobit také mezidruhový přenos polymorfismu GENOVÝ STROM X DRUHOVÝ STROM T = T2- T1 Ne: efektivní velikost populace. Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne
38
SINE Abdel-Halim Salem a kol. 2003 PNAS Nesouhlas přítomnosti SINE s fylogenezí druhů může poukazovat na „incomplete lineage sorting“ – mezi dvěma blízkými speciačními událostmi nedošlo k vytřídění polymorfismu v populaci.
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.