DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

Slides:



Advertisements
Podobné prezentace
VÝPOČET OC.
Advertisements

Obecně použitelné odvození
Testování neparametrických hypotéz
Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
A5M33IZS – Informační a znalostní systémy Testování modelů.
Testování statistických hypotéz
Power analysis aneb Co to vlastně znamená P0.05 (Podle Scheiner & Gurevitch 2001: Desing and analysis of ecological experiments.
Cvičení 6 – 25. října 2010 Heteroskedasticita
Diskrétní rozdělení a jejich použití
t-rozdělení, jeho použití
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Jak se pozná nejlepší strom?
Testování hypotéz vymezení důležitých pojmů
Shluková analýza.
MOLEKULÁRNÍ TAXONOMIE
Inference jako statistický proces 1
Využití v systematické biologii
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
2. seminární úkol - projekt PSY117. Týmový projekt  Záměrem tohoto úkolu je vyzkoušet si realizaci jednoduchého výběrového šetření.  Pětičlenné týmy.
Analýza variance (ANOVA).
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Princip maximální entropie
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
JAK NAJÍT NEJLEPŠÍ STROM
8. Kontingenční tabulky a χ2 test
Normální rozdělení a ověření normality dat
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
PSY717 – statistická analýza dat
Základy pedagogické metodologie
Základy pedagogické metodologie
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Inferenční statistika - úvod
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
HYPOTÉZY Hypotéza je tvrzení (výrok) vyjařující vztah mezi proměnnými
HYPOTÉZY ● Hypotéza je tvrzrní (výrok) vyjařující vztah mezi proměnnými ● Hypotézy vychází z výzkumného problému. ● Hypotézy se stanoví na začátku výzkumu.
Proč s aplikací pracovat?. Aplikace Stopy mé Ekoškoly má jednoduché ovládání a snadno prezentovatelné výstupy. Zábavnější práci s analýzou Kvalitní a.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku Prezentace 10 min. ( po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Obecně použitelné odvození
Jak se pozná nejlepší strom?
Statistické testování – základní pojmy
NÁZEV ŠKOLY: ČÍSLO PROJEKTU: NÁZEV MATERIÁLU: TÉMA SADY: ROČNÍK:
Induktivní statistika
- váhy jednotlivých studií
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
Spojitá a kategoriální data Základní popisné statistiky
Úvod do statistického testování
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Neparametrické testy pro porovnání polohy
Aplikace Bayesovy věty v biomedicíně (Vzorový příklad)
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Pokročilé neparametrické metody Validační techniky
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
GENOVÝ STROM X DRUHOVÝ STROM
Jak se pozná nejlepší strom?
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Transkript prezentace:

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. P(t) = 1/4 e r1Qt + 1/4 e r2Qt + 1/4 e r3Qt + 1/4 e r4Qt Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ )

Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu AACCG p n o m = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 4 4 členů! B1B2 B3B4 B5 B6 B7 B8 MAXIMUM LIKELIHOOD P(t) = e Qt A G C T α εβ δ γ ζ π A π C π G π T

FELSENSTEINOVA ZÓNA A C B D AC BD p p pp q q q q qq Maximální parsimonie je nekonzistentní metoda pp q qq A C BD

Maximum likelihood je konzistentní metoda pokud substituční model odpovídá skutečnosti FELSENSTEINOVA ZÓNA

Co dalšího v modelu uvolnit? t1t1 t2t2 t3t3 t4t4 t5t5 JEŠTĚ LEPŠÍ MODEL P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e QXt P(t) = e QYt P(t) = e QZt P(t) = e QWt P(t) = e QVt P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG

PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin: 16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů

Co dalšího v modelu uvolnit? CAT (Phylobayes) Covarion (MrBayes) t1t1 t2t2 t3t3 t4t4 t5t5 P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e Q X t P(t) = e Q Y t P(t) = e Q Z t P(t) = e Q W t P(t) = e Q V t P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG JEŠTĚ LEPŠÍ MODEL

COVARION Penny a kol. 2001

Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat. KONSEZUÁLNÍ STROM

Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS

D E A B C BIPARTITIONS/SLITS

Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS

A B C D E A B C D E A B C D E Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech

A B C D E A B C D E A B C D E A B C D E MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů.

Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 5/7 EXTENDED MAJORITY RULE KONSENZUS

Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 3/7 EXTENDED MAJORITY RULE KONSENZUS

Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu? OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST

Každá data nám totiž poskytnou strom 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?

Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt). DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?

STATISTICKÁ PODPORA VĚTVENÍ

T1 T2 Rovnovážný stav Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu POSTERIORNÍ PRAVDĚPODOBNOSTI

POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

Základní princip Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom. RESAMPLING METODY

Z původního vzorku vybíráme s vracením Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět. BOOTSTRAP

Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom Bootstrapové alignmenty (n opakování) Alignment Bootstrappované alignmenty Stromy BOOTSTRAP

Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora) BOOTSTRAP

Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software:

Jiná resampling metoda Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení. JACKKNIFE

Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom Jackknife alignmenty (n opakování) Alignment Jackknifované alignmenty Stromy 50% jackknife JACKKNIFE Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu

TESTY TOPOLOGICKÝCH HYPOTÉZ L1L0 δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….

TESTY TOPOLOGICKÝCH HYPOTÉZ AU test L 1 L 2 L 3 L 4 L 5 L 6 Acatcga Bccgggt Cgcggga Vypočteme „site likelihoods“ L 1, L 2, L 3, L 4, L 5, L 6 L 1, L 2, L 3, L 4, L 5, L 6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L 1 *L 2 * L 2 * L 3 *L 4 * L 2 L0= L 1 *L 1 * L 6 * L 3 *L 4 * L 5 Spočítáme δ δ= lnL 1 -lnL 0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout

Akaike Information Criterion AIC i = -2lnL i + 2p i Bayesian Information Criterion BIC= -2ln(L i )+p i ln(n) L i ……………. Likelihood hypotézy p i ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC VÝBĚR MODELU

LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Programy Modeltest a Prottest Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely.

LIKELIHOOD RATIO TEST Χ 2 rozložení pro různé stupně volnosti (k)

GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.

GENOVÝ STROM X DRUHOVÝ STROM Pozor na záměnu orthologu a paralogu.

Rozdíl může způsobit také mezidruhový přenos polymorfismu GENOVÝ STROM X DRUHOVÝ STROM T = T2- T1 Ne: efektivní velikost populace. Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne

SINE Abdel-Halim Salem a kol PNAS Nesouhlas přítomnosti SINE s fylogenezí druhů může poukazovat na „incomplete lineage sorting“ – mezi dvěma blízkými speciačními událostmi nedošlo k vytřídění polymorfismu v populaci.