DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. P(t) = 1/4 e r1Qt + 1/4 e r2Qt + 1/4 e r3Qt + 1/4 e r4Qt Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ )
Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu AACCG p n o m = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 4 4 členů! B1B2 B3B4 B5 B6 B7 B8 MAXIMUM LIKELIHOOD P(t) = e Qt A G C T α εβ δ γ ζ π A π C π G π T
FELSENSTEINOVA ZÓNA A C B D AC BD p p pp q q q q qq Maximální parsimonie je nekonzistentní metoda pp q qq A C BD
Maximum likelihood je konzistentní metoda pokud substituční model odpovídá skutečnosti FELSENSTEINOVA ZÓNA
Co dalšího v modelu uvolnit? t1t1 t2t2 t3t3 t4t4 t5t5 JEŠTĚ LEPŠÍ MODEL P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e QXt P(t) = e QYt P(t) = e QZt P(t) = e QWt P(t) = e QVt P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG
PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin: 16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů
Co dalšího v modelu uvolnit? CAT (Phylobayes) Covarion (MrBayes) t1t1 t2t2 t3t3 t4t4 t5t5 P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e Q X t P(t) = e Q Y t P(t) = e Q Z t P(t) = e Q W t P(t) = e Q V t P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG JEŠTĚ LEPŠÍ MODEL
COVARION Penny a kol. 2001
Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat. KONSEZUÁLNÍ STROM
Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS
D E A B C BIPARTITIONS/SLITS
Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS
A B C D E A B C D E A B C D E Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech
A B C D E A B C D E A B C D E A B C D E MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů.
Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 5/7 EXTENDED MAJORITY RULE KONSENZUS
Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 3/7 EXTENDED MAJORITY RULE KONSENZUS
Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu? OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST
Každá data nám totiž poskytnou strom 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?
Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt). DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?
STATISTICKÁ PODPORA VĚTVENÍ
T1 T2 Rovnovážný stav Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu POSTERIORNÍ PRAVDĚPODOBNOSTI
POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ
Základní princip Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom. RESAMPLING METODY
Z původního vzorku vybíráme s vracením Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět. BOOTSTRAP
Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom Bootstrapové alignmenty (n opakování) Alignment Bootstrappované alignmenty Stromy BOOTSTRAP
Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora) BOOTSTRAP
Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software:
Jiná resampling metoda Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení. JACKKNIFE
Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom Jackknife alignmenty (n opakování) Alignment Jackknifované alignmenty Stromy 50% jackknife JACKKNIFE Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu
TESTY TOPOLOGICKÝCH HYPOTÉZ L1L0 δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….
TESTY TOPOLOGICKÝCH HYPOTÉZ AU test L 1 L 2 L 3 L 4 L 5 L 6 Acatcga Bccgggt Cgcggga Vypočteme „site likelihoods“ L 1, L 2, L 3, L 4, L 5, L 6 L 1, L 2, L 3, L 4, L 5, L 6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L 1 *L 2 * L 2 * L 3 *L 4 * L 2 L0= L 1 *L 1 * L 6 * L 3 *L 4 * L 5 Spočítáme δ δ= lnL 1 -lnL 0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout
Akaike Information Criterion AIC i = -2lnL i + 2p i Bayesian Information Criterion BIC= -2ln(L i )+p i ln(n) L i ……………. Likelihood hypotézy p i ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC VÝBĚR MODELU
LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Programy Modeltest a Prottest Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely.
LIKELIHOOD RATIO TEST Χ 2 rozložení pro různé stupně volnosti (k)
GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.
GENOVÝ STROM X DRUHOVÝ STROM Pozor na záměnu orthologu a paralogu.
Rozdíl může způsobit také mezidruhový přenos polymorfismu GENOVÝ STROM X DRUHOVÝ STROM T = T2- T1 Ne: efektivní velikost populace. Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne
SINE Abdel-Halim Salem a kol PNAS Nesouhlas přítomnosti SINE s fylogenezí druhů může poukazovat na „incomplete lineage sorting“ – mezi dvěma blízkými speciačními událostmi nedošlo k vytřídění polymorfismu v populaci.