Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
MOLEKULÁRNÍ TAXONOMIE
Rozpis přednášek (9:50-11:20) Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA (16:30) - Alignment sekvencí + Databáze sekvencí a vyhledávání v nich (Marián Novotný) Získávání nesekvenčních molekulárních dat - multilokusové metody (RAPD, RFPL aj.), mikrosatelity, minisatelity, izoenzymová a alozymová analýza, imunologické metody SNP, evoluce sekvencí, odhad evoluční vzálenosti Fylogenetické stromy I. - Proteinové distance, konstrukce fylogenetických stromů z matice distancí, anatomie stromů Fylogenetické stromy II. Rate heterogeneity, prohledávání prostoru stromů, maximální parsimonie Fylogenetické stromy III. - Metoda maximum likelihood, Bayéská metoda Praktikum 7. 4.: Získávání sekvencí z veřejných databází (Karnkowska) Biologický čtvrtek : Čtení stromu života z genomových sekvencí Fylogenetické stromy IV. - Multigenové analýzy, určení věrohodnosti větvení stromů, nalezení kořene, testy topologie, datování pomocí molekulárních hodin Speciace a hybridizace, kryptické druhy, příklady (Radka Reifová) Praktikum : Tvorba alignmentu, tvorba stromů ze sekvencí DNA Identifikace jedinců, určování rodičovství, DNA barcoding Praktikum 5. 5.: Tvorba stromů ze sekvencí proteinů 9. 5. Vnitrodruhová fylogeneze, struktura populace a genový tok, fylogeografie, příklady – odevzdání nepovinného eseje Praktikum : multigenové analýzy, testy, distanční data, analýza migrace Prezentace studentů
2
MAXIMUM LIKELIHOOD P(t) = 1/4 er1Qt + 1/4 er2Qt
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt Vzdálenost (délka větve ) t A B L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ)
3
MAXIMUM LIKELIHOOD A G C T
Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu A C G p n o = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 44 členů! B8 B3 B4 B7 B6 B5 ζ B2 B1 A G C T α ε β δ γ m πA πC πG πT P(t) = eQt
4
FELSENSTEINOVA ZÓNA p q q p q A C B D q p p p q q q
Maximální parsimonie je nekonzistentní metoda A p B q q p q A C B D q D p C A C p p q q q B D
5
FELSENSTEINOVA ZÓNA Maximum likelihood je konzistentní metoda
pokud substituční model odpovídá skutečnosti
6
JEŠTĚ LEPŠÍ MODEL P(t) = eQ3t P(t) = eQ1t P(t) = eQ2t P(t) = eQ4t
Co dalšího v modelu uvolnit? P(t) = eQ3t t1 t2 P(t) = eQ1t P(t) = eQ2t t3 P(t) = eQ4t P(t) = eQ5t t4 t5 ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG P(t) = eQXt P(t) = eQYt P(t) = eQZt P(t) = eQWt P(t) = eQVt
7
PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin:
16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů
8
JEŠTĚ LEPŠÍ MODEL P(t) = eQ3t P(t) = eQ1t P(t) = eQ2t P(t) = eQ4t
Co dalšího v modelu uvolnit? CAT (Phylobayes) Covarion (MrBayes) P(t) = eQ3t t1 t2 P(t) = eQ1t P(t) = eQ2t t3 P(t) = eQ4t P(t) = eQ5t t4 t5 ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG P(t) = eQXt P(t) = eQYt P(t) = eQZt P(t) = eQWt P(t) = eQVt
9
COVARION
10
KONSEZUÁLNÍ STROM Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat.
11
STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D
12
BIPARTITIONS/SLITS B A E C D
13
STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D A B C D E
14
STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech B B A A E E C C D D A B C D E
15
MAJORITY RULE KONSENZUS
Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů. B B B A A A E E E C C C D D D A B C D E
16
EXTENDED MAJORITY RULE KONSENZUS
Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F 5/7 A B C D E F A B C D E F A B C D E F A B C D E F
17
EXTENDED MAJORITY RULE KONSENZUS
Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F 3/7 A B C D E F A B C D E F A B C D E F A B C D E F
18
OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST
Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu?
19
PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?
Každá data nám totiž poskytnou strom 1 TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA 1 3 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA 2 4
20
DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?
Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt).
21
STATISTICKÁ PODPORA VĚTVENÍ
22
POSTERIORNÍ PRAVDĚPODOBNOSTI
Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu T1 Rovnovážný stav T2
23
POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ
24
RESAMPLING METODY Základní princip
Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom.
25
BOOTSTRAP Z původního vzorku vybíráme s vracením
Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět.
26
Bootstrapové alignmenty
Bootstrappované alignmenty Stromy Bootstrapové alignmenty (n opakování) Alignment 515621 123456 A catcga B ccgggt C gcggga D gaacgt 364122 615343 414436 Rekonstruovaný strom
27
BOOTSTRAP Namapovat hodnoty bootstrapu na původní strom.
Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora)
28
BOOTSTRAP Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software:
29
JACKKNIFE Jiná resampling metoda
Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení.
30
JACKKNIFE 342 123456 A catcga 136 B ccgggt C gcggga D gaacgt 514 256
Jackknifované alignmenty Stromy Jackknife alignmenty (n opakování) Alignment 342 123456 A catcga B ccgggt C gcggga D gaacgt 136 514 256 Rekonstruovaný strom Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu
31
TESTY TOPOLOGICKÝCH HYPOTÉZ
δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….
32
TESTY TOPOLOGICKÝCH HYPOTÉZ
L1L2L3L4L5L6 A catcga B ccgggt C gcggga AU test Vypočteme „site likelihoods“ L1, L2, L3, L4, L5, L L1, L2, L3, L4, L5, L6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L1*L2* L2* L3*L4* L L0= L1*L1* L6* L3*L4* L5 Spočítáme δ δ= lnL1-lnL0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout
33
Bayesian Information Criterion
VÝBĚR MODELU Akaike Information Criterion AICi = -2lnLi + 2pi Bayesian Information Criterion BIC= -2ln(Li)+piln(n) Li ……………. Likelihood hypotézy pi ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC
34
LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely. Programy Modeltest a Prottest
35
LIKELIHOOD RATIO TEST Χ2 rozložení pro různé stupně volnosti (k)
36
GENOVÝ STROM X DRUHOVÝ STROM
Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.
37
GENOVÝ STROM X DRUHOVÝ STROM
Pozor na záměnu orthologu a paralogu.
38
GENOVÝ STROM X DRUHOVÝ STROM
Rozdíl může způsobit také mezidruhový přenos polymorfismu Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne T = T2- T1 Ne: efektivní velikost populace.
39
JAK SPOJIT RŮZNÉ SADY DAT?
40
JAK SPOJIT RŮZNÉ SADY DAT?
Mnoho stromů Mnoho alignmentů Jeden strom Jeden alignment
41
SUPER MATICE Gen 1 Gen 2 Gen 3 Gen 4
B C D E ? Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.
42
SUPER MATICE Také se jim říká ‘konkatenace’
Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…) Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu.
43
SUPER MATICE Gen 1 Gen 2 Gen 3 Gen 4 A B C D E ? Q1, α1, … Q2, α2, …
44
SUPERTREE Mnoho stromů Mnoho alignmentů Jeden strom
Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů
45
Matrix Representation with Parsimony (Baum and Ragan, 1992)
SUPERTREE Matrix Representation with Parsimony (Baum and Ragan, 1992) Uděláme ze stromů alignment (?!) Každá „bipartition“ představuje v alignmentu jeden sloupec
46
SUPERTREE A C D A * * * * B * * * - C * . . * D * . . . F E . . * -
Z tohoto alignmentu udělej strom podle maximální parsimonie F A B C D E F
47
Neighbor-net (Bryant and Moulton, 2004)
SÍŤ Neighbor-net (Bryant and Moulton, 2004) Je založena na neighbor-joining, ale umožňuje spojovat jeden taxon s více taxony.
48
SÍŤ Neighbor-net
49
ZAKOŘENĚNÍ STROMU
50
METODA OUTGROUPŮ Všechny zmíněné metody produkují nezakořeněný strom!!! Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny, kterou studujeme.
51
METODA OUTGROUPŮ Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete.
52
MIDPOINT ROOT Kořen umístí to poloviny nejdelší cesty stromem
53
Software SOFTWARE Distační metody – PAUP (spíše DNA), PHYLIP, MEGA, FreeTree, Neighbor-net Parsimonie – PAUP, PHYLIP, MEGA Maximum likelihood – PAUP (jen DNA), RAxML, Phyml, IQPNNI, TreePuzzle, PHYLIP Bayéská metoda – MrBayes Phylobayes Různé – Consel, TreePuzzle, AsaturA, SlowFaster
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.