Jak se pozná nejlepší strom?

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Obecně použitelné odvození
Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
Testování statistických hypotéz
Odhady parametrů základního souboru
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
ENERGIE KLASTRŮ VODY ZÍSKANÁ EVOLUČNÍMI ALGORITMY
Některé pojmy teorie grafů I. Příklad: log p ABC = u 0 + u A + u B + u C + u AB + u AC A B C.
Zarovnávání biologických sekvencí
Morfologická křivka kmene
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Získávání informací Získání informací o reálném systému
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Odhad genetických parametrů
Jak se pozná nejlepší strom?
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
TI 7.1 NEJKRATŠÍ CESTY Nejkratší cesty - kap. 6. TI 7.2 Nejkratší cesty z jednoho uzlu Seznámíme se s následujícími pojmy: w-vzdálenost (vzdálenost na.
Dvourozměrné geometrické útvary
MOLEKULÁRNÍ TAXONOMIE
Systémy pro podporu managementu 2
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Úvod do gradientové analýzy
Lineární regrese.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Princip maximální entropie
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
JAK NAJÍT NEJLEPŠÍ STROM
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Doc. Josef Kolář (ČVUT)Prohledávání grafůGRA, LS 2010/11, Lekce 4 1 / 15Doc. Josef Kolář (ČVUT)Prohledávání stavového prostoruGRA, LS 2013/14, Lekce 11.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vyhledávání vzorů (template matching)
Kombinatorika, pravděpodobnost, statistika
„AFLP, amplified fragment length polymorphism“
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Teorie portfolia Markowitzův model.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Dvourozměrné geometrické útvary
Obecně použitelné odvození
R. Jakubíková J.Korbel J.Novák Monte Carlo.
Statistické testování – základní pojmy
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
ZAL – 3. cvičení 2016.
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Umístění prodejny.
Fylogenetická evoluční analýza
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Aplikace Bayesovy věty v biomedicíně (Vzorový příklad)
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
příklad: hody hrací kostkou
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Tvary molekul Mezimolekulové síly.
Jak se pozná nejlepší strom?
7. Kontingenční tabulky a χ2 test
Testování hypotéz - pojmy
Transkript prezentace:

Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

HEURISTICKÉ HLEDÁNÍ

LONG BRANCH ATTRACTION Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D

PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říká P(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá) Hmm, divný…. a nemůžeš nám to ukázat na příkladu

O PATRO VÝŠ SLYŠÍTE ZVUKY… Co to ____ může být? Kamarád povídá: „Máš na půdě skřítky a hrajou tam kuželky“. Vy na to:„Skřítci jsou jen v pohádkách“. On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. Vy: „Moment, skočím si pro kalkulačku“

PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P(Skřítci co umí hrát kuželky) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P(Slyšet zvuky kdyby skřítci hráli) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např. 0,000001 x 1,0 = 0,000001

JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihood P(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H1) > P(D|H2) potom dáme přednost hypotéze H1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [P(Hpavouci) ~P(Hkuny)] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Jinými slovy P(Hluky|Hpavouci) << P(Hluky|Hkuny) Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk

JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 (p=0,4) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB

KONEČNĚ FYLOGENEZE L = P(A|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t)

KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t)

KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(T|C,t)….. DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(T|C,t)…..

KONEČNĚ FYLOGENEZE Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(T|C,t)…..

KONEČNĚ FYLOGENEZE DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) t A B t 0,68

KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(T|C,t)….. DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(T|C,t)…..

KONEČNĚ FYLOGENEZE P(t) = 1/4 er1Qt + 1/4 er2Qt DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) + P(C|C,t) + P(T|C,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)

STROMY P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Velmi zjednodušený příklad Jen dvě formy znaku 0 a 1 a na větvích platí následující pravděpodobnosti P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Jaká je pravděpodobnost níže uvedeného alignmentu při topologii, která bude následovat . Druh A 0 0 Druh B 1 0 Druh C 1 0

STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 1 1 0 1 1 0,9 Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 1 1 0 1 1 0,9 0,9 0,1 0,1 1 nebo 0,9 0,9 0,1 0,9 Pcesta1= P0->0A a P0->1BC a P1->1B a P1->1C Pcesta1= 0,9 x 0,1 x 0,9 x 0,9 = 0,0729 Pcesta2= P0->0A a P0->0BC a P0->1B a P0->1C Pcesta2= 0,9 x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je Pcesta1+ Pcesta2= 0,081

STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 0 0 0 0 0 0,9 Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 0 0 0 0 0 0,9 0,9 0,1 0,1 nebo 0,9 1 0,9 0,9 0,1 Pcesta1= P0->0A a P0->0BC a P0->0B a P0->0C Pcesta1= 0,9 x 0,9 x 0,9 x 0,9 = 0,6561 Pcesta2= P0->0A a P0->1BC a P1->0B a P1->0C Pcesta2= 0,9 x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je Pcesta1+ Pcesta2= 0,657 Likelihood tohoto stromu pro cely alignment je L1x L2 = 0,053217

SEKVENCE 1 A 2 A 3 C 4 C 5 G 1 2 3 4 5 δ γ β α

SEKVENCE Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt

ROZDÍLY OPROTI PARSIMONII V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech. V likelihoodu musíme uvažovat všechny možnosti Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné

HEURISTICKÉ HLEDÁNÍ

FELSENSTEINOVA ZÓNA p q q p q A C B D q p p p q q q p=∞ q=0,00000001 Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q GCGC q q p=∞ q=0,00000001 B D

FELSENSTEINOVA ZÓNA A G C T Pij = ¼ - ¼ e-p= 1/4 q GCGC p=∞ q=0,00000001 Pij = ¼ - ¼ e-q=0,0000003 Pii = ¼ + ¾ e-q=0,9999 Pii = ¼ + ¾ e-p= 1/4 A G C T u L=0,000000001875 G C p q G Pij = ¼ - ¼ e-p= 1/4 Pii = ¼ + ¾ e-q=0,9999 C C L=0,0625

Likelihood vs. parsimonie LONG BRANCH ATTRACTION Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001

FELSENSTEINOVA ZÓNA A G C T u Maximum likelihood je nekonzistentní metoda pokud substituční model odpovídá skutečnosti A p B q q q A G C T u D p C A C p p q q q B D

BAYÉSKÁ METODA Prob (H) Prob (D H) Prob (H D) = Prob (H) Prob (D H) H

MARCOV CHAIN MONTE CARLO Rovnovážný stav T2 Prob (T2 D) Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T1 D)

POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2

MARKOV CHAIN V AKCI Postup lze hodnotit vynesením likelihoodů do grafu generace 0 200 Rovnovážná distribuce hypotéz (stromů) Burn-in lnL

MARKOV CHAIN V AKCI Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) generace sakra lnL

BAYÉSKÁ METODA Příbuzná metodě maximum likelihood. Používá stejné substituční modely na výpočet pravděpodobností. Snaží se získat posteriorí pravděpodobnost hypotézy a ne jen likelihood – používá k tomu MCMC. Výhodou je, že optimalizuje zároveň topologii, délky větví a hodnoty parametrů substitučního modelu. Čím více parametrů optimalizuje, tím více potřebuje času, než se dostane do rovnovážného stavu. Počítá statistickou podporu větvení (o tom příště).