ÚVOD DO FYLOGENETICKÉ ANALÝZY II..

Slides:



Advertisements
Podobné prezentace
Obecně použitelné odvození
Advertisements

Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
Testování statistických hypotéz
Lineární model posteriorní hustota pravděpodobnosti lineární model:
Monte Carlo permutační testy & Postupný výběr
Získávání informací Získání informací o reálném systému
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
Pravděpodobnost a statistika opakování základních pojmů
Generování náhodných veličin (1) Diskrétní rozdělení
Jak se pozná nejlepší strom?
Testování hypotéz vymezení důležitých pojmů
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
MOLEKULÁRNÍ TAXONOMIE
Základy ekonometrie Cvičení 3 4. října 2010.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Charakteristiky výstupního procesu systémů hromadné obsluhy Martin Meca ČVUT, Fakulta strojní.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Generování náhodných veličin Diskrétní a spojitá rozdělení Simulační modely ek.procesů 4.přednáška.
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika
Lineární regrese.
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Odhad metodou maximální věrohodnost
Pár dalších použití statistiky v přírodních vědách
Princip maximální entropie
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
PRAVDĚPODOBNOST NEZÁVISLÉ JEVY Jevy A,B nazýváme nezávislými, jestliže
Metrologie   Přednáška č. 5 Nejistoty měření.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
8. Syntéza a aplikace výsledků fylogenetických analýz
Pravděpodobnost.
JAK NAJÍT NEJLEPŠÍ STROM
Opakování lekce 4,5,
8. Kontingenční tabulky a χ2 test
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Návrh a implementace algoritmu SLAM pro mobilní robot
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Problém majáku předpokládáme, že l známe  x0x0 xixi l chceme najít odhad x 0 (věrohodnost) maximální věrohodnost.
Ziheng Yang Bill Pearson Aidan Budd Nick Goldman.
Podmíněná pravděpodobnost: Bayesův teorém
Základy testování hypotéz
>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Obecně použitelné odvození
Jak se pozná nejlepší strom?
Statistické testování – základní pojmy
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Neparametrické testy pro porovnání polohy
Ústav lékařské informatiky, 2. LF UK
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
příklad: hody hrací kostkou
Pokročilé neparametrické metody Validační techniky
Obecně použitelné odvození
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak se pozná nejlepší strom?
7. Kontingenční tabulky a χ2 test
Transkript prezentace:

ÚVOD DO FYLOGENETICKÉ ANALÝZY II.

Maximální věrohodnost (Maximum likelihood, ML) heterogenita substitučních rychlostí, ML a konzistence Bayesovská analýza MCMC Měření spolehlivosti stromů jackknife, bootstrap, parametrický bootstrap, permutační testy Testování hypotéz testy molekulárních hodin, srovnávání stromů, distance mezi stromy Konsensuální stromy

Maximální věrohodnost (maximum likelihood, ML) hod mincí 15  skóre OOHHHOHOOOHOHHO: 7 panna (hlava, H), 8 orel (O) pravděpodobnost, že padne hlava = p, orel = (1 – p) hody nezávislé  pravděpodobnost výsledného skóre = (1 – p)(1 – p)ppp(1 – p)p(1 – p)(1 – p)(1 – p)p(1 – p)pp(1 – p) = p7(1-p)8 maximum = 0,4666  7/15 MaxL L = (DH) podmíněná pravděpodobnost získání dat D při hypotéze H p = 1/2  L = 3,0517.10-5 p = 1/3  L = 1,7841.10-5 výsledek hodů 1,7 pravděpodobnější s pravou mincí

Maximální věrohodnost ve fylogenetické analýze 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT data: strom: topologie délky větví evoluční model = hypotéza L = P(D│H), kde D = matice dat H =  (topologie),  (délky větví),  (model) Věrohodnostní funkce: jaká je pravděpodobnost získání daných dat při dané hypotéze?

1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG Věrohodnost 1 j N 1 TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2 TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3 TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4 TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT x: 4 nukleotidy y: 4 nukleotidy 4  4 = 16 možných scénářů L(1) = P(A)  P(T)  P(AC)  P(AC)  P(TA)  P(TG) L(j) = P(scénář 1) + …. + P(scénář 16) všechny pozice: L = L(1)  L(2)  …  L(j)  …  L(N) = lnL = lnL(1) + lnL(2) + … + lnL(N) =

Věrohodnost (ML) a úspornost (MP) G

Věrohodnost a konzistence

Věrohodnost a konzistence “chybný” “správný” “long-branch repulsion” Farrisova (anti-Felsensteinova, inverzní Felsensteinova) zóna

Bayesovská analýza ML: jaká je pravděpodobnost dat při dané hypotéze? bayesiánský přístup - příklad: soubor 100 kostek, ze kterých máme vybrat jednu víme, že ze 100 kostek je 80 v pořádku, ale 20 je upraveno tak, aby padala 6 pravděpodobnosti jednotlivých výsledků u pravých kostech stejné, u falešných se liší: házíme 2 pravá falešná 1/6 1/21 3/21 4/21 6/21 1. hod: 2. hod:  Jaká je pravděpodobnost, že naše kostka je falešná?

Aposteriorní pravděpodobnost, že naše kostka je falešná, Bayesovská analýza aposteriorní pravděpodobnost (posterior probability) = pr. platnosti hypotézy při získaných datech: P(HD) a.p. je funkcí věrohodnosti P(DH) a apriorní pravděpodobnosti (prior prob.) prior vyjadřuje náš apriorní předpoklad nebo znalost příklad se 2 hody kostkou: Aposteriorní pravděpodobnost, že naše kostka je falešná, je dána Bayesovou rovnicí: věrohodnost prior P(DH)  P(H) P(HD) = [P(DHi)P(Hi)] suma čitatelů pro všechny alternativní hypotézy

Pr., že dostaneme s pravou kostkou: P = 1/6  1/6 = 1/36 Bayesovská analýza apriorní pravděpodobnost (falešná) = 0.2 (20/100 falešných kostek v souboru) Pr., že dostaneme s pravou kostkou: P = 1/6  1/6 = 1/36 Pr. že dostaneme s falešnou kostkou: P = 3/21  6/21 = 18/441 pravá falešná 1/6 1/21 3/21 4/21 6/21 P(biased| ) = P( |biased)  P(biased) P( |biased)  P(biased) + P( |fair)  P(fair) 18/441  2/10 = = 0.269 18/441  2/10 + 1/36  8/10

[ ] ( ) å Bayesovská metoda ve fylogenetické analýze: ν θ P , X t Bayesovská analýza Bayesovská metoda ve fylogenetické analýze: posterior prior likelihood summing over all possible trees ( ) [ ] å = s B i θ P 1 , ν X t Parametry pro bayesovskou analýzu: ML odhady  empirická BA všechny kombinace  hierarchická BA

řešení: metody Monte Carlo Bayesovská analýza Problém: příliš složité  nelze řešit analyticky, pouze numericky aproximovat řešení: metody Monte Carlo náhodný výběr vzorků, při velkém množství aproximace skutečnosti Markovovy řetězce: Markov chain Monte Carlo (MCMC) Markovův proces: t(-1) A  T(0) C  T(+1) G … P stejná po celé fylogenii = homogenní Markovův proces

Metropolisův-Hastingsův algoritmus: Bayesovská analýza Metropolisův-Hastingsův algoritmus: Změna parametru x  x’ jestliže P(x’) > P(x), akceptuj x’ jestliže P(x’) ≤ P(x), vypočti r = P(x’)/P(x) protože platí, že P(x’) ≤ P(x), musí být r ≤ 1 generuj náhodné číslo U z rovnoměrného rozělení z intervalu (0, 1) jestliže r ≥ U, akceptuj x’, jestli ne, ponechej x usměrněný pohyb robota v aréně: „vrstevnice“ arény

stacionární fáze (plateau) “burn-in” Bayesovská analýza stacionární fáze (plateau) “burn-in” MrBayes: http://morphbank.ebc.uu.se/mrbayes/ 4 independent chains, Metropolis-coupled MCMC Problémy apriorních pravděpodobností!

Měření spolehlivosti stromů Metody opakovaného výběru bez navrácení – jackknife z navrácením – bootstrap

parametrický bootstrap: evoluční model aposteriorní pravděpodobnosti Měření spolehlivosti parametrický bootstrap: evoluční model aposteriorní pravděpodobnosti Je hierarchiká struktura stromu reálná? permutation tail probability test (PTP) topology-dependent permutation tail prob. test (T-PTP)

Testování hypotéz Testy molekulárních hodin Testování modelů: LRT, Akaike, Bayes Testy molekulárních hodin Relative rate test (RRT): AC=BC? linearizované stromy odstranění signifikantně odlišných taxonů relaxované molekulární hodiny umožňují změnu rychlostí podél větví A C B

Je jeden strom lepší než druhý? Testování hypotéz Srovnání stromů Je jeden strom lepší než druhý? Testy párových pozic: winning sites test Felsensteinův z test Templetonův test Kishinův-Hasegawův test (KHT, RELL) Pro více než dva stromy: Shimodairův-Hasegawův (SH) test Jsou dva stromy signifikantně odlišné? Distance mezi stromy: partition metric quartet metric path difference metric metody inkorporující délky větví Problémy s distancemi mezi stromy!

Konsensuální stromy striktní konsensus majority-rule problém s konsensuálními stromy – kombinovaná vs. separátní analýza, supermatrix vs. supertree konsensuální stromy v metodách opakovaného výběru, bayesovská analýza

Fylogenetické programy alignment: ClustalX http://inn-prot.weizmann.ac.il/software/ClustalX.html PAUP* PHYLIP McClade ... MP MOLPHY, TREE-PUZZLE ... ML MrBayes ... BA práce se stromy: TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html