MOLEKULÁRNÍ TAXONOMIE

Slides:



Advertisements
Podobné prezentace
Statistické metody pro testování asociace genů a nemocí
Advertisements

Obecně použitelné odvození
4EK211 Základy ekonometrie Modely simultánních rovnic Problém identifikace strukturních simultánních rovnic Cvičení / Zuzana.
Testování neparametrických hypotéz
Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
Testování statistických hypotéz
Polymorfismy DNA a jejich využití ve forenzní genetice
Cvičení 6 – 25. října 2010 Heteroskedasticita
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Principy překladačů Vysokoúrovňové optimalizace Jakub Yaghob.
Testování závislosti kvalitativních znaků
Molekulární fylogenetika primárních endosymbiontů hmyzu
MOLEKULÁRNÍ TAXONOMIE
t-rozdělení, jeho použití
Získávání informací Získání informací o reálném systému
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Testování hypotéz přednáška.
MOLEKULÁRNÍ TAXONOMIE
Jak se pozná nejlepší strom?
Testování hypotéz vymezení důležitých pojmů
Shluková analýza.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Imunologické, mikrosatelity, SSCP, SINE
Odhady parametrů základního souboru
Využití v systematické biologii
Projekt HUGO – milníky - I
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Genetická diverzita hospodářských zvířat
Základy molekulární taxonomie J.Flegr, Praha 2008.
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Použití molekulárních znaků v systematice
Odhad metodou maximální věrohodnost
Princip maximální entropie
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
rozdělení metod využitelnost jednotlivých metod náročnost metod používání metod perspektivy.
GENETICKÁ A FENOTYPOVÁ
JAK NAJÍT NEJLEPŠÍ STROM
Normální rozdělení a ověření normality dat
PSY717 – statistická analýza dat
Genový tok a evoluční tahy
„AFLP, amplified fragment length polymorphism“
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Praktikum z genetiky rostlin JS Genetické mapování mutace lycopodioformis Arabidopsis thaliana Genetické mapování genu odolnosti k padlí.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
 Co je to molekulární fylogenetika a molekulární taxonomie  Zvláštnosti molekulárních znaků  Metody získávání experimentálních dat  Metody zpracovávání.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku Prezentace 10 min. ( po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování.
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Obecně použitelné odvození
Jak se pozná nejlepší strom?
NÁZEV ŠKOLY: ČÍSLO PROJEKTU: NÁZEV MATERIÁLU: TÉMA SADY: ROČNÍK:
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
Spojitá a kategoriální data Základní popisné statistiky
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Neparametrické testy pro porovnání polohy
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Pokročilé neparametrické metody Validační techniky
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
GENOVÝ STROM X DRUHOVÝ STROM
Jak se pozná nejlepší strom?
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek (9:50-11:20) 21. 2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA 27. 2. (16:30) - Alignment sekvencí + Databáze sekvencí a vyhledávání v nich (Marián Novotný) 7. 3. - Získávání nesekvenčních molekulárních dat - multilokusové metody (RAPD, RFPL aj.), mikrosatelity, minisatelity, izoenzymová a alozymová analýza, imunologické metody 14. 3. -  SNP, evoluce sekvencí, odhad evoluční vzálenosti 21. 3. - Fylogenetické stromy I. - Proteinové distance, konstrukce fylogenetických stromů z matice distancí, anatomie stromů 28. 3. - Fylogenetické stromy II. Rate heterogeneity, prohledávání prostoru stromů, maximální parsimonie 4. 4. - Fylogenetické stromy III. - Metoda maximum likelihood, Bayéská metoda Praktikum 7. 4.: Získávání sekvencí z veřejných databází (Karnkowska) Biologický čtvrtek 10. 4.: Čtení stromu života z genomových sekvencí 18 .4. - Fylogenetické stromy IV. - Multigenové analýzy, určení věrohodnosti větvení stromů, nalezení kořene, testy topologie, datování pomocí molekulárních hodin 25. 4. - Speciace a hybridizace, kryptické druhy, příklady (Radka Reifová) Praktikum 28. 4.: Tvorba alignmentu, tvorba stromů ze sekvencí DNA 2. 5. -  Identifikace jedinců, určování rodičovství, DNA barcoding Praktikum 5. 5.: Tvorba stromů ze sekvencí proteinů 9. 5. Vnitrodruhová fylogeneze, struktura populace a genový tok, fylogeografie, příklady – odevzdání nepovinného eseje Praktikum 12. 5.: multigenové analýzy, testy, distanční data, analýza migrace 23. 5. - Prezentace studentů

MAXIMUM LIKELIHOOD P(t) = 1/4 er1Qt + 1/4 er2Qt DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)

MAXIMUM LIKELIHOOD A G C T Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt

FELSENSTEINOVA ZÓNA p q q p q A C B D q p p p q q q Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D

FELSENSTEINOVA ZÓNA Maximum likelihood je konzistentní metoda pokud substituční model odpovídá skutečnosti

JEŠTĚ LEPŠÍ MODEL P(t) = eQ3t P(t) = eQ1t P(t) = eQ2t P(t) = eQ4t Co dalšího v modelu uvolnit? P(t) = eQ3t t1 t2 P(t) = eQ1t P(t) = eQ2t t3 P(t) = eQ4t P(t) = eQ5t t4 t5 ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG P(t) = eQXt P(t) = eQYt P(t) = eQZt P(t) = eQWt P(t) = eQVt

PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin: 16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů

JEŠTĚ LEPŠÍ MODEL P(t) = eQ3t P(t) = eQ1t P(t) = eQ2t P(t) = eQ4t Co dalšího v modelu uvolnit? CAT (Phylobayes) Covarion (MrBayes) P(t) = eQ3t t1 t2 P(t) = eQ1t P(t) = eQ2t t3 P(t) = eQ4t P(t) = eQ5t t4 t5 ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG P(t) = eQXt P(t) = eQYt P(t) = eQZt P(t) = eQWt P(t) = eQVt

COVARION

KONSEZUÁLNÍ STROM Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat.

STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D

BIPARTITIONS/SLITS B A E C D

STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D A B C D E

STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech B B A A E E C C D D A B C D E

MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů. B B B A A A E E E C C C D D D A B C D E

EXTENDED MAJORITY RULE KONSENZUS Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F 5/7 A B C D E F A B C D E F A B C D E F A B C D E F

EXTENDED MAJORITY RULE KONSENZUS Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F 3/7 A B C D E F A B C D E F A B C D E F A B C D E F

OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu?

PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY? Každá data nám totiž poskytnou strom 1 TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA 1 3 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA 2 4

DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ? Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt).

STATISTICKÁ PODPORA VĚTVENÍ

POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2

POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

RESAMPLING METODY Základní princip Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom.

BOOTSTRAP Z původního vzorku vybíráme s vracením Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět.

Bootstrapové alignmenty Bootstrappované alignmenty Stromy Bootstrapové alignmenty (n opakování) Alignment 515621 123456 A catcga B ccgggt C gcggga D gaacgt 364122 615343 414436 Rekonstruovaný strom

BOOTSTRAP Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora)

BOOTSTRAP Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software: http://www.mathstat.dal.ca/~tsusko/src/aBPn.exe

JACKKNIFE Jiná resampling metoda Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení.

JACKKNIFE 342 123456 A catcga 136 B ccgggt C gcggga D gaacgt 514 256 Jackknifované alignmenty Stromy Jackknife alignmenty (n opakování) Alignment 342 123456 A catcga B ccgggt C gcggga D gaacgt 136 514 256 Rekonstruovaný strom Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu

TESTY TOPOLOGICKÝCH HYPOTÉZ δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….

TESTY TOPOLOGICKÝCH HYPOTÉZ L1L2L3L4L5L6 A catcga B ccgggt C gcggga AU test Vypočteme „site likelihoods“ L1, L2, L3, L4, L5, L6 L1, L2, L3, L4, L5, L6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L1*L2* L2* L3*L4* L2 L0= L1*L1* L6* L3*L4* L5 Spočítáme δ δ= lnL1-lnL0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout

Bayesian Information Criterion VÝBĚR MODELU Akaike Information Criterion AICi = -2lnLi + 2pi Bayesian Information Criterion BIC= -2ln(Li)+piln(n) Li ……………. Likelihood hypotézy pi ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC

LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely. Programy Modeltest a Prottest

LIKELIHOOD RATIO TEST Χ2 rozložení pro různé stupně volnosti (k)

GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.

GENOVÝ STROM X DRUHOVÝ STROM Pozor na záměnu orthologu a paralogu.

GENOVÝ STROM X DRUHOVÝ STROM Rozdíl může způsobit také mezidruhový přenos polymorfismu Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne T = T2- T1 Ne: efektivní velikost populace.

JAK SPOJIT RŮZNÉ SADY DAT?

JAK SPOJIT RŮZNÉ SADY DAT? Mnoho stromů Mnoho alignmentů Jeden strom Jeden alignment

SUPER MATICE Gen 1 Gen 2 Gen 3 Gen 4 B C D E ? Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.

SUPER MATICE Také se jim říká ‘konkatenace’ Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…) Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu.

SUPER MATICE Gen 1 Gen 2 Gen 3 Gen 4 A B C D E ? Q1, α1, … Q2, α2, …

SUPERTREE Mnoho stromů Mnoho alignmentů Jeden strom Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů

Matrix Representation with Parsimony (Baum and Ragan, 1992) SUPERTREE Matrix Representation with Parsimony (Baum and Ragan, 1992) Uděláme ze stromů alignment (?!) Každá „bipartition“ představuje v alignmentu jeden sloupec

SUPERTREE A C D A * * * * B * * * - C * . . * D * . . . F E . . * - Z tohoto alignmentu udělej strom podle maximální parsimonie F A B C D E F

Neighbor-net (Bryant and Moulton, 2004) SÍŤ Neighbor-net (Bryant and Moulton, 2004) Je založena na neighbor-joining, ale umožňuje spojovat jeden taxon s více taxony.

SÍŤ Neighbor-net

ZAKOŘENĚNÍ STROMU

METODA OUTGROUPŮ Všechny zmíněné metody produkují nezakořeněný strom!!! Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny, kterou studujeme.

METODA OUTGROUPŮ Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete.

MIDPOINT ROOT Kořen umístí to poloviny nejdelší cesty stromem

Software SOFTWARE Distační metody – PAUP (spíše DNA), PHYLIP, MEGA, FreeTree, Neighbor-net Parsimonie – PAUP, PHYLIP, MEGA Maximum likelihood – PAUP (jen DNA), RAxML, Phyml, IQPNNI, TreePuzzle, PHYLIP Bayéská metoda – MrBayes Phylobayes Různé – Consel, TreePuzzle, AsaturA, SlowFaster