Jak se pozná nejlepší strom?

Slides:

Advertisements

Podobné prezentace

Obecně použitelné odvození

Advertisements

4EK211 Základy ekonometrie Modely simultánních rovnic Problém identifikace strukturních simultánních rovnic Cvičení / Zuzana.

Single Nucleotide Polymorphism

Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.

SINOVÁ VĚTA PRO III. ROČNÍK SOU Poznámky pro žáky se SPU DOC PDF

Testování statistických hypotéz

Úvod Klasifikace disciplín operačního výzkumu

PA081 Programování numerických výpočtů Přednáška 2.

A5M33IZS – Informační a znalostní systémy Datová analýza I.

SQL – tříhodnotová logika

Odhady parametrů základního souboru

Dneska se něco naučíme o matematice Cílem je, naučit se samostatně vyřešit problémy, pomocí znalosti ze základky, střední školy a univerzity (pokud si.

Téma 3 ODM, analýza prutové soustavy, řešení nosníků

Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky

ENERGIE KLASTRŮ VODY ZÍSKANÁ EVOLUČNÍMI ALGORITMY

Některé pojmy teorie grafů I. Příklad: log p ABC = u 0 + u A + u B + u C + u AB + u AC A B C.

Zarovnávání biologických sekvencí

Proč?. pokud jsme schopni vytvořit stroj, který bude úlohu řešit problém je algoritmizovatelný příklad.

Principy překladačů Vysokoúrovňové optimalizace Jakub Yaghob.

Temporální Databáze Jaroslav Dražan. Čím se budeme zabývat Proč je čas v DB důležitý Práce s časem pomocí klasického SQL Reprezentace časové domény Spojování.

Bayesův teorém – cesta k lepší náladě

Získávání informací Získání informací o reálném systému

PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.

Odhad genetických parametrů

Pravděpodobnost a statistika opakování základních pojmů

8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.

MOLEKULÁRNÍ TAXONOMIE

Systémy pro podporu managementu 2

VY_32_INOVACE_21-10 TEST č. 1.

POUŽIVÁNÍ FUNKCÍ V EXCELU DOMÁCÍ ÚKOL - KURZ PRÁCE S POČÍTAČI „POKROČILÍ“ NA TÉMA FUNKCE V EXCELU Vypracoval: Petr Šimek

Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.

Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.

Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)

Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.

Úvod do gradientové analýzy

Lineární regrese.

Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.

Odhad metodou maximální věrohodnost

Princip maximální entropie

Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.

Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.

JAK NAJÍT NEJLEPŠÍ STROM

Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.

Doc. Josef Kolář (ČVUT)Prohledávání grafůGRA, LS 2010/11, Lekce 4 1 / 15Doc. Josef Kolář (ČVUT)Prohledávání stavového prostoruGRA, LS 2013/14, Lekce 11.

Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.

Vyhledávání vzorů (template matching)

Systémy. Definice systému Systém je množina navzájem souvisejících prvků a vztahů mezi nimi.

ÚVOD DO FYLOGENETICKÉ ANALÝZY II..

>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.

Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.

Typy výzkumu  Kvantitativní  Kvalitativní  Smíšený  První zkoumá kolik lidí si co myslí atd …  Druhý co přesně si lidé myslí  Třetí je kombinací.

SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

Obecně použitelné odvození

R. Jakubíková J.Korbel J.Novák Monte Carlo.

Jak se pozná nejlepší strom?

MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE

Fylogenetická evoluční analýza

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Jak získáváme znaky pomocí sekvenace unikátních lokusů

Ústav lékařské informatiky, 2. LF UK

ÚVOD DO FYLOGENETICKÉ ANALÝZY II..

příklad: hody hrací kostkou

ANALÝZA A KLASIFIKACE DAT

Obecně použitelné odvození

Jak získáváme znaky pomocí sekvenace unikátních lokusů

NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku

Jak se pozná nejlepší strom?

7. Kontingenční tabulky a χ2 test

Dneska se něco naučíme o matematice

Transkript prezentace:

Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

HEURISTICKÉ HLEDÁNÍ

LONG BRANCH ATTRACTION Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D

PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říká P(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá)

O PATRO VÝŠ SLYŠÍTE ZVUKY… Co to ____ může být? Kamarád povídá: „Máš na půdě skřítky a hrajou tam kuželky“. Vy na to:„Skřítci jsou jen v pohádkách“. On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. Vy: „Moment, skočím si pro kalkulačku“

PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P(Skřítci co umí hrát kuželky) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P(Slyšet zvuky kdyby skřítci hráli) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např. 0,000001 x 1,0 = 0,000001

JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihood P(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H1) > P(D|H2) potom dáme přednost hypotéze H1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [P(Hpavouci) ~P(Hkuny)] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Matematicky psáno P(Hluky|Hpavouci) << P(Hluky|Hkuny) Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk

JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 (p=0,4) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B PA&B = PA x PB Pravděpodobnost že se stane A nebo B PA nebo B = PA + PB

KONEČNĚ FYLOGENEZE L = P(A|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t)

KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t)

KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

KONEČNĚ FYLOGENEZE Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Pii = ¼ + ¾ e-t Pij = ¼ - ¼ e-t Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

KONEČNĚ FYLOGENEZE DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) t A B t 0,68

KONEČNĚ FYLOGENEZE L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

KONEČNĚ FYLOGENEZE P(t) = 1/4 er1Qt + 1/4 er2Qt DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)

STROMY P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Velmi zjednodušený příklad Jen dvě formy znaku 0 a 1 a na větvích platí následující pravděpodobnosti P0->1 = 0.1 a P0->0 = 0.9 P1->0 = 0.1 a P1->1 = 0.9 Jaká je pravděpodobnost níže uvedeného alignmentu při topologii, která bude následovat . Druh A 0 0 Druh B 1 0 Druh C 1 0

STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 1 1 0 1 1 0,9 Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 1 1 0 1 1 0,9 0,9 0,1 0,1 1 nebo 0,9 0,9 0,1 0,9 Pcesta1= P0->0A a P0->1BC a P1->1B a P1->1C Pcesta1= 0,9 x 0,1 x 0,9 x 0,9 = 0,0729 Pcesta2= P0->0A a P0->0BC a P0->1B a P0->1C Pcesta2= 0,9 x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je Pcesta1+ Pcesta2= 0,081

STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 A B C A B C 0 0 0 0 0 0 0,9 Pro jednoduchost předpokládejme, že předek měl 0 A B C A B C 0 0 0 0 0 0 0,9 0,9 0,1 0,1 nebo 0,9 1 0,9 0,9 0,1 Pcesta1= P0->0A a P0->0BC a P0->0B a P0->0C Pcesta1= 0,9 x 0,9 x 0,9 x 0,9 = 0,6561 Pcesta2= P0->0A a P0->1BC a P1->0B a P1->0C Pcesta2= 0,9 x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je Pcesta1+ Pcesta2= 0,657 Likelihood tohoto stromu pro cely alignment je L1x L2 = 0,053217

SEKVENCE 1 A 2 A 3 C 4 C 5 G 1 2 3 4 5 δ γ β α

SEKVENCE Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt

ROZDÍLY OPROTI PARSIMONII V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech. V likelihoodu musíme uvažovat všechny možnosti Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné

HEURISTICKÉ HLEDÁNÍ

Likelihood vs. parsimonie LONG BRANCH ATTRACTION Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001

BAYÉSKÁ METODA Prob (H) Prob (D H) Prob (H D) = Prob (H) Prob (D H) H

MARCOV CHAIN MONTE CARLO Rovnovážný stav T2 Prob (T2 D) Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T1 D)

POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2

MARKOV CHAIN V AKCI Postup lze hodnotit vynesením likelihoodů do grafu generace 0 200 Rovnovážná distribuce hypotéz (stromů) Burn-in lnL

MARKOV CHAIN V AKCI Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) generace sakra lnL

BAYÉSKÁ METODA Příbuzná metodě maximum likelihood. Používá stejné substituční modely na výpočet pravděpodobností. Snaží se získat posteriorí pravděpodobnost hypotézy a ne jen likelihood – používá k tomu MCMC. Výhodou je, že optimalizuje zároveň topologii, délky větví a hodnoty parametrů substitučního modelu. Čím více parametrů optimalizuje, tím více potřebuje času, než se dostane do rovnovážného stavu. Počítá statistickou podporu větvení (o tom příště).

MAX. LIKELIHOOD vs BAYES