Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku

Podobné prezentace


Prezentace na téma: "NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku"— Transkript prezentace:

1 NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Prezentace 10 min. ( po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování zkoušky: 11-13 bodů – dobře 14 – 17 bodů – velmi dobře 18 a více - výborně

2 MAXIMUM LIKELIHOOD P(t) = 1/4 er1Qt + 1/4 er2Qt
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)

3 MAXIMUM LIKELIHOOD A G C T
Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt

4 FELSENSTEINOVA ZÓNA p q q p q A C B D q p p p q q q
Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D

5 FELSENSTEINOVA ZÓNA Maximum likelihood je konzistentní metoda
pokud substituční model odpovídá skutečnosti

6 JEŠTĚ LEPŠÍ MODEL P(t) = eQ3t P(t) = eQ1t P(t) = eQ2t P(t) = eQ4t
Co dalšího v modelu uvolnit? P(t) = eQ3t t1 t2 P(t) = eQ1t P(t) = eQ2t t3 P(t) = eQ4t P(t) = eQ5t t4 t5 ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG P(t) = eQXt P(t) = eQYt P(t) = eQZt P(t) = eQWt P(t) = eQVt

7 PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin:
16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů

8 JEŠTĚ LEPŠÍ MODEL P(t) = eQ3t P(t) = eQ1t P(t) = eQ2t P(t) = eQ4t
Co dalšího v modelu uvolnit? Covarion (MrBayes) CAT (Phylobayes), LG4M (RAxML), pro 4 gamma kategorie LG4X (RAxML), 4 kategorie pozic nezávisle na gamma P(t) = eQ3t t1 t2 P(t) = eQ1t P(t) = eQ2t t3 P(t) = eQ4t P(t) = eQ5t t4 t5 ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG P(t) = eQXt P(t) = eQYt P(t) = eQZt P(t) = eQWt P(t) = eQVt

9 COVARION Penny a kol. 2001

10 KONSEZUÁLNÍ STROM Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat.

11 NAJDI DVA IDENTICKÉ STROMY
B C D C B A D E B E D C A E B B C C D A A E B D E E A

12 NAJDI DVA IDENTICKÉ STROMY
B A A B B C A D D E E E C E A A A B B C D C D E E C C D

13 BIPARTITIONS/SLITS D C A E B AB, ABC, CDE, DE

14 BIPARTITIONS/SLITS AB, ABC, CDE, DE AB, ABC, CDE, DE C A A B B D D E E

15 STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D

16 STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D A B C D E

17 STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech B B A A E E C C D D A B C D E

18 MAJORITY RULE KONSENZUS
Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů. B B B A A A E E E C C C D D D A B C D E

19 EXTENDED MAJORITY RULE KONSENZUS
Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F 5/7 A B C D E F A B C D E F A B C D E F A B C D E F

20 EXTENDED MAJORITY RULE KONSENZUS
Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F 3/7 A B C D E F A B C D E F A B C D E F A B C D E F

21 OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST
Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu?

22 PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?
Každá data nám totiž poskytnou strom 1 TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA 1 3 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA 2 4

23 DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?
Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt).

24 STATISTICKÁ PODPORA VĚTVENÍ

25 POSTERIORNÍ PRAVDĚPODOBNOSTI
Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2

26 POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

27 RESAMPLING METODY Základní princip
Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom.

28 BOOTSTRAP Z původního vzorku vybíráme s vracením
Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět.

29 Bootstrapové alignmenty
Bootstrappované alignmenty Stromy Bootstrapové alignmenty (n opakování) Alignment 515621 123456 A catcga B ccgggt C gcggga D gaacgt 364122 615343 414436 Rekonstruovaný strom

30 BOOTSTRAP Namapovat hodnoty bootstrapu na původní strom.
Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora)

31 BOOTSTRAP C D B A A B B C A A B C D E D D E E E C 0,5 E A A A B B 0,5

32 BOOTSTRAP Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software:

33 JACKKNIFE Jiná resampling metoda
Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení.

34 JACKKNIFE 342 123456 A catcga 136 B ccgggt C gcggga D gaacgt 514 256
Jackknifované alignmenty Stromy Jackknife alignmenty (n opakování) Alignment 342 123456 A catcga B ccgggt C gcggga D gaacgt 136 514 256 Rekonstruovaný strom Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu

35 TESTY TOPOLOGICKÝCH HYPOTÉZ
δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….

36 TESTY TOPOLOGICKÝCH HYPOTÉZ
L1L2L3L4L5L6 A catcga B ccgggt C gcggga AU test Vypočteme „site likelihoods“ L1, L2, L3, L4, L5, L L1, L2, L3, L4, L5, L6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L1*L2* L2* L3*L4* L L0= L1*L2* L2* L3*L4* L2 Spočítáme δ δ= lnL1-lnL0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout

37 PARAMETRIC BOOTSTRAPING
Jaká je pravděpodobnost, že by nulová hypotéza (H0) vyprodukovala data, která by měla vyšší pravděpodobnost při hypotéze H1? Simulujeme alignmenty…

38 Bayesian Information Criterion
VÝBĚR MODELU Akaike Information Criterion AICi = -2lnLi + 2pi Bayesian Information Criterion BIC= -2ln(Li)+piln(n) Li ……………. Likelihood hypotézy pi ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC

39 LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely. Programy Modeltest a Prottest

40 LIKELIHOOD RATIO TEST Χ2 rozložení pro různé stupně volnosti (k)


Stáhnout ppt "NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku"

Podobné prezentace


Reklamy Google