>gi|5835135|ref|NC_001644.1| Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.

Slides:



Advertisements
Podobné prezentace
Obecně použitelné odvození
Advertisements

Počítačová grafika III – Monte Carlo integrování II Jaroslav Křivánek, MFF UK
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
Testování statistických hypotéz
Lineární model posteriorní hustota pravděpodobnosti lineární model:
Monte Carlo permutační testy & Postupný výběr
Získávání informací Získání informací o reálném systému
Pravděpodobnost a statistika opakování základních pojmů
Generování náhodných veličin (1) Diskrétní rozdělení
Jak se pozná nejlepší strom?
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
MOLEKULÁRNÍ TAXONOMIE
Základy ekonometrie Cvičení 3 4. října 2010.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Charakteristiky výstupního procesu systémů hromadné obsluhy Martin Meca ČVUT, Fakulta strojní.
Optimalizace versus simulace 9.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Generování náhodných veličin Diskrétní a spojitá rozdělení Simulační modely ek.procesů 4.přednáška.
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika
Lineární regrese.
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Odhad metodou maximální věrohodnost
Princip maximální entropie
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Práce s výsledky statistických studií
PRAVDĚPODOBNOST NEZÁVISLÉ JEVY Jevy A,B nazýváme nezávislými, jestliže
Metrologie   Přednáška č. 5 Nejistoty měření.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
8. Syntéza a aplikace výsledků fylogenetických analýz
Pravděpodobnost.
ŘÍZENÍ DOPRAVY POMOCÍ SW AGENTŮ Richard Lipka, DSS
JAK NAJÍT NEJLEPŠÍ STROM
Opakování lekce 4,5,
8. Kontingenční tabulky a χ2 test
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Biostatistika 8. přednáška
Návrh a implementace algoritmu SLAM pro mobilní robot
5. Kvantitativní kladistika kódování znaku pro kladistickou analýzu algoritmy konstrukce fylogenetických stromů na základě maximální parsimonie optimalizační.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Problém majáku předpokládáme, že l známe  x0x0 xixi l chceme najít odhad x 0 (věrohodnost) maximální věrohodnost.
Statistické odhady (inference) Výběr Nepotřebujeme sníst celého vola jenom proto, abychom poznali, že to jde ztuha. Samuel Johnson (anglický básník a.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Obecně použitelné odvození
Jak se pozná nejlepší strom?
Statistické testování – základní pojmy
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Pravděpodobnost. Náhodný pokus.
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
Úvod do statistického testování
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
příklad: hody hrací kostkou
Pokročilé neparametrické metody Validační techniky
Obecně použitelné odvození
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak se pozná nejlepší strom?
7. Kontingenční tabulky a χ2 test
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG TCACCCTCTAAATCACCATGATCAAAAGGAACAAGTATCAAGCACACAGCAATGCAGCTCAAGACGCTTA GCCTAGCCACACCCCCACGGGAGACAGCAGTGATAAACCTTTAGCAATAAACGAAAGTTTAACTAAGCCA TACTAACCTCAGGGTTGGTCAATTTCGTGCTAGCCACCGCGGTCACACGATTAACCCAAGTCAATAGAAA CCGGCGTAAAGAGTGTTTTAGATCACCCCCCCCCCAATAAAGCTAAAATTCACCTGAGTTGTAAAAAACT CCAGCTGATACAAAATAAACTACGAAAGTGGCTTTAACACATCTGAACACACAATAGCTAAGACCCAAAC TGGGATTAGATACCCCACTATGCTTAGCCCTAAACTTCAACAGTTAAATTAACAAAACTGCTCGCCAGAA CACTACGAGCCACAGCTTAAAACTCAAAGGACCTGGCGGTGCTTCATATCCCTCTAGAGGAGCCTGTTCT GTAATCGATAAACCCCGATCAACCTCACCGCCTCTTGCTCAGCCTATATACCGCCATCTTCAGCAAACCC TGATGAAGGTTACAAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGGTGTAGCCTATGAGGCG GCAAGAAATGGGCTACATTTTCTACCCCAGAAAATTACGATAACCCTTATGAAACCTAAGGGTCGAAGGT GGATTTAGCAGTAAACTAAGAGTAGAGTGCTTAGTTGAACAGGGCCCTGAAGCGCGTACACACCGCCCGT CACCCTCCTCAAGTATACTTCAAAGGATATTTAACTTAAACCCCTACGCATTTATATAGAGGAGATAAGT CGTAACATGGTAAGTGTACTGGAAAGTGCACTTGGACGAACCAGAGTGTAGCTTAACATAAAGCACCCAA CTTACACTTAGGAGATTTCAACTCAACTTGACCACTCTGAGCCAAACCTAGCCCCAAACCCCCTCCACCC TACTACCAAACAACCTTAACCAAACCATTTACCCAAATAAAGTATAGGCGATAGAAATTGTAAATCGGCG CAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTACACCCAAGCATAATACAGCAAGGACTAACCCC TGTACCTTTTGCATAATGAATTAACTAGAAATAACTTTGCAAAGAGAACTAAAGCCAAGATCCCCGAAAC CAGACGAGCTACCTAAGAACAGCTAAAAGAGCACACCCGTCTATGTAGCAAAATAGTGGGAAGATTTATA GGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGGTTGTCCAAGATAGAATCTTAGTTCAACTTTA AATTTACCTACAGAACCCTCTAAATCCCCCTGTAAATTTAACTGTTAGTCCAAAGAGGAACAGCTCTTTA GACACTAGGAAAAAACCTTATGAAGAGAGTAAAAAATTTAATGCCCATAGTAGGCCTAAAAGCAGCCACC AATTAAGAAAGCGTTCAAGCTCAACACCCACAACCTCAAAAAATCCCAAGCATACAAGCGAACTCCTTAC GCTCAATTGGACCAATCTATTACCCCATAGAAGAGCTAATGTTAGTATAAGTAACATGAAAACATTCTCC TCCGCATAAGCCTACTACAGACCAAAATATTAAACTGACAATTAACAGCCCAATATCTACAATCAACCAA MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/ FYLOGENETICKÁ ANALÝZA I.

Maximální věrohodnost (maximum likelihood, ML) hod mincí 15   skóre OOHHHOHOOOHOHHO: 7  panna (hlava, H), 8  orel (O) pravděpodobnost, že padne hlava = p, orel = (1 – p) hody nezávislé  pravděpodobnost výsledného skóre = (1 – p)  (1 – p)  p  p  p  (1 – p)  p  (1 – p)  (1 – p)  (1 – p)  p  (1 – p)  p  p  (1 – p) = p 7 (1-p) 8 maximum = 0,4666  7/15 MaxL L = (D  H) podmíněná pravděpodobnost získání dat D při hypotéze H p = 1/2  L = 3, p = 1/3  L = 1,  výsledek hodů 1,7  pravděpodobnější s pravou mincí

Maximální věrohodnost ve fylogenetické analýze 1TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT data: strom: topologie délky větví evoluční model = hypotéza Věrohodnostní funkce: jaká je pravděpodobnost získání daných dat při dané hypotéze? L = P(D│H), kde D = matice dat H =  (topologie), (délky větví),  (model) L = P(D│H), kde D = matice dat H =  (topologie), (délky větví),  (model)

1 j N 1TCAAAAATGGCTTTATTCGCTTAATGCCGTTAACCCTTGCGGGGGCCATG 2TCCGTGATGGATTTATTTCCGCAATGCCTGTCATCTTATTCTCAAGTATC 3TTCGTGATGGATTTATTGCAGGTATGCCAGTCATCCTTTTCTCATCTATC 4TTCGTGACGGGTTTATCTCGGCAATGCCGGTCATCCTATTTTCGAGTATT 1)L(1) = P(A)  P(T)  P(AC)  P(AC)  P(TA)  P(TG) 2)L(j) = P(scénář 1) + …. + P(scénář 16) 3)všechny pozice: L = L(1)  L(2)  …  L(j)  …  L(N) = 4)lnL = lnL(1) + lnL(2) + … + lnL(N) = x: 4 nukleotidy y: 4 nukleotidy  4  4 = 16 možných scénářů

Věrohodnost (ML) a úspornost (MP) AA AG

Věrohodnost a konzistence

“chybný” “správný” “long-branch repulsion” Farrisova (anti-Felsensteinova, inverzní Felsensteinova) zóna

Bayesovská analýza ML: jaká je pravděpodobnost dat při dané hypotéze? bayesiánský přístup - příklad: soubor 100 kostek, ze kterých máme vybrat jednu víme, že ze 100 kostek je 80 v pořádku, ale 20 je upraveno tak, aby padala 6 pravděpodobnosti jednotlivých výsledků u pravých kostech stejné, u falešných se liší: házíme 2  praváfalešná 1/61/21 1/63/21 1/63/21 1/64/21 1/64/21 1/66/21  Jaká je pravděpodobnost, že naše kostka je falešná? 1. hod: 2. hod:

Aposteriorní pravděpodobnost, že naše kostka je falešná, je dána Bayesovou rovnicí: aposteriorní pravděpodobnost (posterior probability) = pr. platnosti hypotézy při získaných datech: P(H  D) a.p. je funkcí věrohodnosti P(D  H) a apriorní pravděpodobnosti (prior prob.) prior vyjadřuje náš apriorní předpoklad nebo znalost příklad se 2 hody kostkou: P(D  H)  P(H) P(H  D) =  [P(D  H i )  P(H i )] věrohodnost apriorní pravděpodobnost suma čitatelů pro všechny alternativní hypotézy

apriorní pravděpodobnost (falešná) = 0.2 (20/100 falešných kostek v souboru) Pr., že dostaneme s pravou kostkou: P = 1/6  1/6 = 1/36 Pr. že dostaneme s falešnou kostkou: P = 3/21  6/21 = 18/441 P(biased| ) = P( |biased)  P(biased) P( |biased)  P(biased) +P( |fair)  P(fair) 18/441  2/10 = = /441  2/10 + 1/36  8/10 praváfalešná 1/61/21 1/63/21 1/63/21 1/64/21 1/64/21 1/66/21

         )s(B i θPθP θPθP θP 1,,,,,,,,,, νν X νν X Xν    Bayesovská metoda ve fylogenetické analýze: Parametry pro bayesovskou analýzu: ML odhady  empirická BA všechny kombinace  hierarchická BA věrohodnost apriorní pravděpodobnost suma přes všechny možné stromy aposteriorní pravděpodobnost

Markovův proces: t(-1) A  T(0) C  T(+1) G … P stejná po celé fylogenii = homogenní Markovův proces Problém: příliš složité  nelze řešit analyticky, pouze numericky aproximovat řešení: metody Monte Carlo náhodný výběr vzorků, při velkém množství aproximace skutečnosti Markovovy řetězce: Markov chain Monte Carlo (MCMC)

Změna parametru x  x’ 1.jestliže P(x’) > P(x), akceptuj x’ 2.jestliže P(x’) ≤ P(x), vypočti r = P(x’)/P(x) protože platí, že P(x’) ≤ P(x), musí být r ≤ 1 3.generuj náhodné číslo U z rovnoměrného rozělení z intervalu (0, 1) 4.jestliže r ≥ U, akceptuj x’, jestli ne, ponechej x Metropolisův-Hastingsův algoritmus: usměrněný pohyb robota v aréně: „vrstevnice“ arény

MrBayes: 4 independent chains, Metropolis-coupled MCMC “burn-in”stacionární fáze (plateau) Problém apriorních pravděpodobností: subjektivnost

Hledání optimálního stromu a měření spolehlivosti 1.Exaktní metody:a) vyčerpávající hledání (exhaustive search) b) branch-and-bound na začátku 3 taxony, postupné přidávání je-li tento strom delší než náhodně vybraný, algoritmus dál nepokračuje

2.Heuristický přístup: všechny možné stromy

2.Heuristický přístup: stepwise addition star decomposition branch swapping heuristické hledání

2.Heuristický přístup: a) stepwise addition b) star decomposition c) branch swapping* nearest-neighbor interchanges (NNI) * subtree prunning and regrafting (SPR) * tree bisection and reconnection (TBR)

Měření spolehlivosti stromů bez navrácení = jackknife s navrácením = bootstrap Metody opakovaného výběru parametrický bootstrap: evoluční model aposteriorní pravděpodobnosti

Testování hypotéz Test molekulárních hodin Relative rate test (RRT): AC=BC? linearizované stromy odstranění signifikantně odlišných taxonů relaxované molekulární hodiny umožňují změnu rychlostí podél větví ACB

Srovnání stromů Je jeden strom lepší než druhý? Testy párových pozic: winning sites test Felsensteinův z test Templetonův test Kishinův-Hasegawův test (KHT, RELL) Pro více než dva stromy: Shimodairův-Hasegawův (SH) test Jsou dva stromy signifikantně odlišné? Distance mezi stromy: partition metric quartet metric path difference metric metody inkorporující délky větví Problémy s distancemi mezi stromy

Konsensuální stromy striktní konsensus majority-rule problém s konsensuálními stromy – kombinovaná vs. separátní analýza, supermatrix vs. supertree konsensuální stromy v metodách opakovaného výběru, bayesovská analýza

Fylogenetické programy alignment: ClustalX PAUP* PHYLIP McClade... MP MOLPHY, TREE-PUZZLE... ML MrBayes... BA práce se stromy: TreeView