Jak se pozná nejlepší strom?

Slides:



Advertisements
Podobné prezentace
Obecně použitelné odvození
Advertisements

Jak se pozná nejlepší strom?
JAK NAJÍT NEJLEPŠÍ STROM
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Kalkulace S tudent. Osnova výkladu 1.Kalkulace nákladů a způsoby jejího rozlišení 2.Kalkulační vzorec nákladů 3.Stanovení nákladů na kalkulační jednici.
Název školy: ZŠ A MŠ ÚDOLÍ DESNÉ, DRUŽSTEVNÍ 125, RAPOTÍN Název projektu: Ve svazkové škole aktivně - interaktivně Číslo projektu: CZ.1.07/1.4.00/
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
DĚTSKÝ DOMOV, ZŠ a SŠ Žatec. Moje škola Moje třída Naše škola je spojena z DĚTSKÝM DOMOVEM. Do naší školy převážně chodí děti z Dětského domova, ale i.
NÁZEV ŠKOLY: Základní škola Strančice, okres Praha - východ AUTOR: RNDr.Ivana Řehková NÁZEV:VY_32_INOVACE_ R12_ Měřítko TEMA: Matematika 7. ročník.
Číslo projektu:CZ.1.07/1.5.00/ Název školy:SOU a ZŠ Planá, Kostelní 129, Planá Vzdělávací oblast: Ekonomie Předmět:Inovace výuky prostřednictvím.
Petr Kielar Seminář o stavebním spoření Část VI: Podmínka rovnováhy a SKLV.
FINANČNÍ GRAMOTNOST Spoření ro Název projektu: Nové ICT rozvíjí matematické a odborné kompetence Číslo projektu: CZ.1.07/1.5.00/ Název školy:
Obecně použitelné odvození
Testování hypotéz Testování hypotéz o rozdílu průměrů
Jak se pozná nejlepší strom?
Interpolace funkčních závislostí
ŠKOLA: Městská střední odborná škola, Klobouky u Brna,
Číslo projektu Číslo materiálu název školy Autor Tématický celek
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Rozhodování 1.
Úloha bodového systému
MODELY TEORIE GRAFŮ.
Vlastnosti zvuku - test z teorie
Algoritmizace - opakování
Název projektu: Moderní výuka s využitím ICT
Kompetenční modely Mgr. Andrea Drdáková.
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Základní škola a Mateřská škola Bílá Třemešná, okres Trutnov
Název školy : Základní škola a mateřská škola,
Název školy : Základní škola a mateřská škola,
Základní jednorozměrné geometrické útvary
SIMULAČNÍ MODELY.
Poměr v základním tvaru.
Číslo projektu CZ.1.07/1.4.00/ Název sady materiálů
Základy statistické indukce
MATEMATIKA Poměr, úměra.
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
VY_32_INOVACE_
NÁZEV ŠKOLY: Základní škola a Mateřská škola Nedvědice, okr
NÁZEV ŠKOLY: ZŠ a MŠ Čestlice
BIBS Informatika pro ekonomy přednáška 2
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Pravděpodobnost a statistika
Optimální pořadí násobení matic
Typy Oken, Zobrazení a Konfigurace
Provozováno Výzkumným ústavem pedagogickým v Praze.
Úvod do praktické fyziky
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Organizace práce na prodejně
Obecně použitelné odvození
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
Poměr v základním tvaru.
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
KOMBINACE BEZ OPAKOVÁNÍ
Modely obnovy stárnoucího zařízení
Dynamické programování Úloha batohu neomezená
Teorie chyb a vyrovnávací počet 1
F1190 Úvod do biofyziky Masarykova Univerzita Podzimní semestr 2016
Základní škola a mateřská škola, Šaratice, okres Vyškov
Lineární rovnice Druhy řešení.
Vzdělávání jako hlavní složka řízení lidských zdrojů
F1190 Úvod do biofyziky Masarykova Univerzita Podzimní semestr 2017
… jak přesně počítat s nepřesnými čísly
Seminář o stavebním spoření
Transkript prezentace:

Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

HEURISTICKÉ HLEDÁNÍ

LONG BRANCH ATTRACTION Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D

PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říká P(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá) Hmm, divný…. a nemůžeš nám to ukázat na příkladu

O PATRO VÝŠ SLYŠÍTE ZVUKY… Co to ____ může být? Kamarád povídá: „Máš na půdě skřítky a hrajou tam kuželky“. Vy na to:„Skřítci jsou jen v pohádkách“. On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. Vy: „Moment, skočím si pro kalkulačku“

PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P(Skřítci co umí hrát kuželky) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P(Slyšet zvuky kdyby skřítci hráli) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např. 0,000001 x 1,0 = 0,000001

JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihood P(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H1) > P(D|H2) potom dáme přednost hypotéze H1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [P(Hpavouci) ~P(Hkuny)] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Jinými slovy P(Hluky|Hpavouci) << P(Hluky|Hkuny) Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk

JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hod mincí Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 (p=0,4) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B PA&B = PA * PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB

KONEČNĚ FYLOGENEZE L = P(A|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t)

KONEČNĚ FYLOGENEZE L = P(A|C,t) * P(C|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) * P(C|C,t)

KONEČNĚ FYLOGENEZE L = P(A|C,t) * P(C|C,t) * P(T|C,t)….. DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) * P(C|C,t) * P(T|C,t)…..

KONEČNĚ FYLOGENEZE Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t Vzdálenost (délka větve ) t A B L = P(A|C,t) * P(C|C,t) * P(T|C,t)…..

KONEČNĚ FYLOGENEZE DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) t A B L t 0,68

KONEČNĚ FYLOGENEZE L = P(A|C,t) * P(C|C,t) + P(T|C,t)….. DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) t A B L = P(A|C,t) * P(C|C,t) + P(T|C,t)…..

KONEČNĚ FYLOGENEZE P(t) = 1/4 er1Qt + 1/4 er2Qt DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) * P(C|C,t) * P(T|C,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)

STROMY P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Velmi zjednodušený příklad Jen dvě formy znaku 0 a 1 a na větvích platí následující pravděpodobnosti P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Jaká je pravděpodobnost níže uvedeného alignmentu při topologii, která bude následovat . Druh A 0 0 Druh B 1 0 Druh C 1 0

STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 1 1 0 1 1 0,9 Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 1 1 0 1 1 0,9 0,9 0,1 0,1 1 nebo 0,9 0,9 0,1 0,9 Pcesta1= P0->0A a P0->1BC a P1->1B a P1->1C Pcesta1= 0,9 x 0,1 x 0,9 x 0,9 = 0,0729 Pcesta2= P0->0A a P0->0BC a P0->1B a P0->1C Pcesta2= 0,9 x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je Pcesta1+ Pcesta2= 0,081

STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 0 0 0 0 0 0,9 Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 0 0 0 0 0 0,9 0,9 0,1 0,1 nebo 0,9 1 0,9 0,9 0,1 Pcesta1= P0->0A a P0->0BC a P0->0B a P0->0C Pcesta1= 0,9 x 0,9 x 0,9 x 0,9 = 0,6561 Pcesta2= P0->0A a P0->1BC a P1->0B a P1->0C Pcesta2= 0,9 x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je Pcesta1+ Pcesta2= 0,657 Likelihood tohoto stromu pro cely alignment je L1x L2 = 0,053217

SEKVENCE 1 A 2 A 3 C 4 C 5 G 1 2 3 4 5 δ γ β α

SEKVENCE Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt

ROZDÍLY OPROTI PARSIMONII V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech. V likelihoodu musíme uvažovat všechny možnosti Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné

HEURISTICKÉ HLEDÁNÍ

FELSENSTEINOVA ZÓNA p q q p q A C B D q p p p q q q Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D

FELSENSTEINOVA ZÓNA A G C T Pij = ¼ - ¼ e-p= 1/4 q A B C D GCGC p=∞ q=0,00000001 Pij = ¼ - ¼ e-q=0,0000003 Pii = ¼ + ¾ e-q=0,9999 Pii = ¼ + ¾ e-p= 1/4 A G C T u L=0,000000001875 G C p q G Pij = ¼ - ¼ e-p= 1/4 Pii = ¼ + ¾ e-q=0,9999 C C L=0,0625

Likelihood vs. parsimonie LONG BRANCH ATTRACTION Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001

FELSENSTEINOVA ZÓNA A G C T u Maximum likelihood je nekonzistentní metoda pokud substituční model odpovídá skutečnosti A p B q q q A G C T u D p C A C p p q q q B D

BAYÉSKÁ METODA Prob (H) Prob (D H) Prob (H D) = Prob (H) Prob (D H) H

MARCOV CHAIN MONTE CARLO Rovnovážný stav T2 Prob (T2 D) Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T1 D)

POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2

MARKOV CHAIN V AKCI Postup lze hodnotit vynesením likelihoodů do grafu generace 0 200 Rovnovážná distribuce hypotéz (stromů) Burn-in lnL

MARKOV CHAIN V AKCI Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) generace :( lnL

BAYÉSKÁ METODA Příbuzná metodě maximum likelihood. Používá stejné substituční modely na výpočet pravděpodobností. Snaží se získat posteriorí pravděpodobnost hypotézy a ne jen likelihood – používá k tomu MCMC. Výhodou je, že optimalizuje zároveň topologii, délky větví a hodnoty parametrů substitučního modelu. Čím více parametrů optimalizuje, tím více potřebuje času, než se dostane do rovnovážného stavu. Počítá statistickou podporu větvení (o tom příště).

Likelihood vs Bayes