NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku

Slides:



Advertisements
Podobné prezentace
MOLEKULÁRNÍ TAXONOMIE
Advertisements

Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Kalkulace S tudent. Osnova výkladu 1.Kalkulace nákladů a způsoby jejího rozlišení 2.Kalkulační vzorec nákladů 3.Stanovení nákladů na kalkulační jednici.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
Výukový materiál zpracovaný v rámci projektu EU peníze školám Registrační číslo projektu:CZ.1.07/1.4.00/ Šablona:III/2 Inovace a zkvalitnění výuky.
NÁZEV ŠKOLY: Masarykova základní škola a mateřská škola Melč, okres Opava, příspěvková organizace ČÍSLO PROJEKTU:CZ.1.07/1.4.00/ AUTOR:Mgr. Vladimír.
1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
©Ing. Václav Opatrný. V úvodních hodinách elektrotechniky jsou žáci seznamováni s veličinami, které popisují známý fyzikální svět, získávají představu.
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Testování hypotéz Testování hypotéz o rozdílu průměrů
Autor: Mgr. Radana Marelová
Historická sociologie, Řízení a supervize
Jak se pozná nejlepší strom?
Interpolace funkčních závislostí
7. Statistické testování
ŠKOLA: Městská střední odborná škola, Klobouky u Brna,
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Rozhodování 1.
Úloha bodového systému
Testování hypotéz Testování hypotéz o rozdílu průměrů
Název: Trojúhelník Autor:Fyrbachová
Algoritmizace - opakování
Excel – tabulkový procesor
Obvody a obsahy rovinných obrazců 3.
Výběrové metody (Výběrová šetření)
Hra k zopakování a procvičení učiva (Test znalostí)
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Lubomíra Moravcová Název materiálu:
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Maďarská metoda Kirill Šustov Michal Bednář Stanislav Běloch
Teplota – souhrnná cvičení II.
Digitální učební materiál zpracovaný v rámci projektu
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Lubomíra Moravcová Název materiálu:
Běžné reprezentace grafu
Poměr v základním tvaru.
4.1 – 4.3 Lineární nerovnice i jednoduchý podílový tvar
Základy zpracování geologických dat testování statistických hypotéz
SŠ-COPT Uherský Brod Mgr. Anna Červinková 16. Jednoduché stroje
Kvadratické nerovnice
Integrovaná střední škola, Hodonín, Lipová alej 21, Hodonín
Lomené algebraické výrazy
4.8 Nerovnice s abs. hodnotami – Metoda nulových bodů
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
Optimální pořadí násobení matic
Úvod do praktické fyziky
Teorie chyb a vyrovnávací počet 1
Lineární regrese.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Obecně použitelné odvození
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
Poměr v základním tvaru.
GENOVÝ STROM X DRUHOVÝ STROM
Lomené algebraické výrazy
Jak se pozná nejlepší strom?
KOMBINACE BEZ OPAKOVÁNÍ
Dynamické programování Úloha batohu neomezená
Matematika + opakování a upevňování učiva
Teorie chyb a vyrovnávací počet 1
Provozováno Výzkumným ústavem pedagogickým v Praze.
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Lenka Marková Název materiálu:
Centrální limitní věta
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Průměr
Seminář o stavebním spoření
Dělitelnost přirozených čísel
Tečné a normálové zrychlení
Transkript prezentace:

NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku Prezentace 10 min. (12. 1. 2017 po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování zkoušky: 11-13 bodů – dobře 14 – 17 bodů – velmi dobře 18 a více - výborně

MAXIMUM LIKELIHOOD P(t) = 1/4 er1Qt + 1/4 er2Qt DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)

MAXIMUM LIKELIHOOD A G C T Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt

FELSENSTEINOVA ZÓNA p q q p q A C B D q p p p q q q Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D

FELSENSTEINOVA ZÓNA Maximum likelihood je konzistentní metoda pokud substituční model odpovídá skutečnosti

JEŠTĚ LEPŠÍ MODEL P(t) = eQ3t P(t) = eQ1t P(t) = eQ2t P(t) = eQ4t Co dalšího v modelu uvolnit? P(t) = eQ3t t1 t2 P(t) = eQ1t P(t) = eQ2t t3 P(t) = eQ4t P(t) = eQ5t t4 t5 ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG P(t) = eQXt P(t) = eQYt P(t) = eQZt P(t) = eQWt P(t) = eQVt

PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin: 16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů

JEŠTĚ LEPŠÍ MODEL P(t) = eQ3t P(t) = eQ1t P(t) = eQ2t P(t) = eQ4t Co dalšího v modelu uvolnit? Covarion (MrBayes) CAT (Phylobayes), LG4M (RAxML), pro 4 gamma kategorie LG4X (RAxML), 4 kategorie pozic nezávisle na gamma P(t) = eQ3t t1 t2 P(t) = eQ1t P(t) = eQ2t t3 P(t) = eQ4t P(t) = eQ5t t4 t5 ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG P(t) = eQXt P(t) = eQYt P(t) = eQZt P(t) = eQWt P(t) = eQVt

COVARION Penny a kol. 2001

KONSEZUÁLNÍ STROM Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat.

NAJDI DVA IDENTICKÉ STROMY B C D C B A D E B E D C A E B B C C D A A E B D E E A

NAJDI DVA IDENTICKÉ STROMY B A A B B C A D D E E E C E A A A B B C D C D E E C C D

BIPARTITIONS/SLITS D C A E B AB, ABC, CDE, DE

BIPARTITIONS/SLITS AB, ABC, CDE, DE AB, ABC, CDE, DE C A A B B D D E E

STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D

STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D A B C D E

STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech B B A A E E C C D D A B C D E

MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů. B B B A A A E E E C C C D D D A B C D E

EXTENDED MAJORITY RULE KONSENZUS Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F 5/7 A B C D E F A B C D E F A B C D E F A B C D E F

EXTENDED MAJORITY RULE KONSENZUS Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F 3/7 A B C D E F A B C D E F A B C D E F A B C D E F

OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu?

PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY? Každá data nám totiž poskytnou strom 1 TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA 1 3 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA 2 4

DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ? Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt).

STATISTICKÁ PODPORA VĚTVENÍ

POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2

POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

RESAMPLING METODY Základní princip Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom.

BOOTSTRAP Z původního vzorku vybíráme s vracením Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět.

Bootstrapové alignmenty Bootstrappované alignmenty Stromy Bootstrapové alignmenty (n opakování) Alignment 515621 123456 A catcga B ccgggt C gcggga D gaacgt 364122 615343 414436 Rekonstruovaný strom

BOOTSTRAP Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora)

BOOTSTRAP C D B A A B B C A A B C D E D D E E E C 0,5 E A A A B B 0,5

BOOTSTRAP Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software: http://www.mathstat.dal.ca/~tsusko/src/aBPn.exe

JACKKNIFE Jiná resampling metoda Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení.

JACKKNIFE 342 123456 A catcga 136 B ccgggt C gcggga D gaacgt 514 256 Jackknifované alignmenty Stromy Jackknife alignmenty (n opakování) Alignment 342 123456 A catcga B ccgggt C gcggga D gaacgt 136 514 256 Rekonstruovaný strom Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu

TESTY TOPOLOGICKÝCH HYPOTÉZ δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….

TESTY TOPOLOGICKÝCH HYPOTÉZ L1L2L3L4L5L6 A catcga B ccgggt C gcggga AU test Vypočteme „site likelihoods“ L1, L2, L3, L4, L5, L6 L1, L2, L3, L4, L5, L6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L1*L2* L2* L3*L4* L2 L0= L1*L2* L2* L3*L4* L2 Spočítáme δ δ= lnL1-lnL0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout

PARAMETRIC BOOTSTRAPING Jaká je pravděpodobnost, že by nulová hypotéza (H0) vyprodukovala data, která by měla vyšší pravděpodobnost při hypotéze H1? Simulujeme alignmenty…

Bayesian Information Criterion VÝBĚR MODELU Akaike Information Criterion AICi = -2lnLi + 2pi Bayesian Information Criterion BIC= -2ln(Li)+piln(n) Li ……………. Likelihood hypotézy pi ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC

LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely. Programy Modeltest a Prottest

LIKELIHOOD RATIO TEST Χ2 rozložení pro různé stupně volnosti (k)