Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek (9:50-11:20) 21. 2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA 27. 2. (16:30)

Podobné prezentace


Prezentace na téma: "MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek (9:50-11:20) 21. 2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA 27. 2. (16:30)"— Transkript prezentace:

1 MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek (9:50-11:20) Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA (16:30) - Alignment sekvencí + Databáze sekvencí a vyhledávání v nich (Marián Novotný) Získávání nesekvenčních molekulárních dat - multilokusové metody (RAPD, RFPL aj.), mikrosatelity, minisatelity, izoenzymová a alozymová analýza, imunologické metody SNP, evoluce sekvencí, odhad evoluční vzálenosti Fylogenetické stromy I. - Proteinové distance, konstrukce fylogenetických stromů z matice distancí, anatomie stromů Fylogenetické stromy II. Rate heterogeneity, prohledávání prostoru stromů, maximální parsimonie Fylogenetické stromy III. - Metoda maximum likelihood, Bayéská metoda  Praktikum 7. 4.: Získávání sekvencí z veřejných databází (Karnkowska)  Biologický čtvrtek : Čtení stromu života z genomových sekvencí Fylogenetické stromy IV. - Multigenové analýzy, určení věrohodnosti větvení stromů, nalezení kořene, testy topologie, datování pomocí molekulárních hodin Speciace a hybridizace, kryptické druhy, příklady (Radka Reifová)  Praktikum : Tvorba alignmentu, tvorba stromů ze sekvencí DNA Identifikace jedinců, určování rodičovství, DNA barcoding  Praktikum 5. 5.: Tvorba stromů ze sekvencí proteinů Vnitrodruhová fylogeneze, struktura populace a genový tok, fylogeografie, příklady – odevzdání nepovinného eseje  Praktikum : multigenové analýzy, testy, distanční data, analýza migrace Prezentace studentů

2 DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)….. P(t) = 1/4 e r1Qt + 1/4 e r2Qt + 1/4 e r3Qt + 1/4 e r4Qt Hodnoty parametrů buď spočítáme z dat (π) nebo dosadíme ty, které nám maximalizují likelihood (rychlostni α,β,γ,δ,ε,ζ a α parametr funkce Γ )

3 Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu AACCG p n o m = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 4 4 členů! B1B2 B3B4 B5 B6 B7 B8 MAXIMUM LIKELIHOOD P(t) = e Qt A G C T α εβ δ γ ζ π A π C π G π T

4 FELSENSTEINOVA ZÓNA A C B D AC BD p p pp q q q q qq Maximální parsimonie je nekonzistentní metoda pp q qq A C BD

5 Maximum likelihood je konzistentní metoda pokud substituční model odpovídá skutečnosti FELSENSTEINOVA ZÓNA

6 Co dalšího v modelu uvolnit? t1t1 t2t2 t3t3 t4t4 t5t5 JEŠTĚ LEPŠÍ MODEL P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e QXt P(t) = e QYt P(t) = e QZt P(t) = e QWt P(t) = e QVt P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG

7 PŘEPARAMETRIZOVÁNÍ Alignment 10 taxonů dlouhý 1000 aminokyselin: 16 délek větví, 16 x 190 x 1000 rychlostí záměn (Q pro větve a pozice) => Přes 3 milióny parametrů

8 Co dalšího v modelu uvolnit? CAT (Phylobayes) Covarion (MrBayes) t1t1 t2t2 t3t3 t4t4 t5t5 P(t) = e Q 2 t P(t) = e Q 5 t P(t) = e Q 3 t P(t) = e Q 1 t P(t) = e Q X t P(t) = e Q Y t P(t) = e Q Z t P(t) = e Q W t P(t) = e Q V t P(t) = e Q 4 t ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG JEŠTĚ LEPŠÍ MODEL

9 COVARION

10 Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat. KONSEZUÁLNÍ STROM

11 Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS

12 D E A B C BIPARTITIONS/SLITS

13 Obsahuje ty „bipartitions“/“splits“, které se vyskytují ve všech stromech A B C D E A B C D E A B C D E A B C D E STRIKTNÍ KONSENZUS

14 A B C D E A B C D E A B C D E Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech

15 A B C D E A B C D E A B C D E A B C D E MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů.

16 Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 5/7 EXTENDED MAJORITY RULE KONSENZUS

17 Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F 3/7 EXTENDED MAJORITY RULE KONSENZUS

18 Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? Je můj strom skutečně lepší než nějaký jiný? Je vůbec vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu? OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST

19 Každá data nám totiž poskytnou strom 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA TCCGAGCAA 2 TCCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY?

20 Přesycení (saturace) – příliš mnoho substitucí (a mnohonásobných!), aby byly patrné příbuzenské vztahy Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky Data mohou obsahovat zavádějící signál (artefakt). DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ?

21 STATISTICKÁ PODPORA VĚTVENÍ

22 T1 T2 Rovnovážný stav Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu POSTERIORNÍ PRAVDĚPODOBNOSTI

23 POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

24 Základní princip Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se, jestli dostaneme stejnou odpověď Udělat to mnohokrát (100 opakování) Naznačit výsledek na původní strom. RESAMPLING METODY

25 Z původního vzorku vybíráme s vracením Původní alignment: n sloupců Bootstrapový alignment: n sloupců Ale některé sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět. BOOTSTRAP

26 Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom Bootstrapové alignmenty (n opakování) Alignment Bootstrappované alignmenty Stromy BOOTSTRAP

27 Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 65% (slabé) 100% (absolutní podpora) BOOTSTRAP

28 Bootstrap se nechová jako statistická p-value. 95% bootstrap neznamená, že můžeme alternativní bipartition zavrhnout na hladině pravděpodobnosti 5%. Existuje metoda jak převádět BP na aBP (adjustedBP), které mají vlastnosti p-value. Simulace ukázala, že aBP jsou vyšší než BP. Bootstrap 80 odpovídá zhruba 95% a 90 odpovídá zhruba 98-99%. Software:

29 Jiná resampling metoda Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení. JACKKNIFE

30 Acatcga Bccgggt Cgcggga Dgaacgt Rekonstruovaný strom Jackknife alignmenty (n opakování) Alignment Jackknifované alignmenty Stromy 50% jackknife JACKKNIFE Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu

31 TESTY TOPOLOGICKÝCH HYPOTÉZ L1L0 δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….

32 TESTY TOPOLOGICKÝCH HYPOTÉZ AU test L 1 L 2 L 3 L 4 L 5 L 6 Acatcga Bccgggt Cgcggga Vypočteme „site likelihoods“ L 1, L 2, L 3, L 4, L 5, L 6 L 1, L 2, L 3, L 4, L 5, L 6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L 1 *L 2 * L 2 * L 3 *L 4 * L 2 L0= L 1 *L 1 * L 6 * L 3 *L 4 * L 5 Spočítáme δ δ= lnL 1 -lnL 0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout

33 Akaike Information Criterion AIC i = -2lnL i + 2p i Bayesian Information Criterion BIC= -2ln(L i )+p i ln(n) L i ……………. Likelihood hypotézy p i ……………. Počet parametrů modelu n ……………. Počet pozic alignmentu Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizovat AIC nebo BIC VÝBĚR MODELU

34 LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Programy Modeltest a Prottest Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely.

35 LIKELIHOOD RATIO TEST Χ 2 rozložení pro různé stupně volnosti (k)

36 GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.

37 GENOVÝ STROM X DRUHOVÝ STROM Pozor na záměnu orthologu a paralogu.

38 Rozdíl může způsobit také mezidruhový přenos polymorfismu GENOVÝ STROM X DRUHOVÝ STROM T = T2- T1 Ne: efektivní velikost populace. Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne

39 ? JAK SPOJIT RŮZNÉ SADY DAT?

40 Mnoho alignmentů Mnoho stromů Jeden strom Jeden alignment JAK SPOJIT RŮZNÉ SADY DAT?

41 SUPER MATICE ABCDEABCDE Gen 1Gen 2Gen 3Gen 4 ? Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.

42 Také se jim říká ‘konkatenace’ Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…) Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu. SUPER MATICE

43 ABCDEABCDE Gen 1Gen 2Gen 3Gen 4 ? Q 1, α 1, …Q 2, α 2, …Q 3, α 3, …Q 4, α 4, …

44 SUPERTREE Mnoho alignmentů Mnoho stromů Jeden strom Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů

45 Matrix Representation with Parsimony (Baum and Ragan, 1992) Uděláme ze stromů alignment (?!) Každá „bipartition“ představuje v alignmentu jeden sloupec SUPERTREE

46 A B C E D F A * * * * B * * * - C *.. * D *... E.. * - F.. *. A C D F Z tohoto alignmentu udělej strom podle maximální parsimonie SUPERTREE

47 Neighbor-net (Bryant and Moulton, 2004) Je založena na neighbor-joining, ale umožňuje spojovat jeden taxon s více taxony. SÍŤ

48 Neighbor-net

49 ZAKOŘENĚNÍ STROMU

50 Všechny zmíněné metody produkují nezakořeněný strom!!! Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny, kterou studujeme. METODA OUTGROUPŮ

51 Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete. METODA OUTGROUPŮ

52 MIDPOINT ROOT Kořen umístí to poloviny nejdelší cesty stromem

53 Software Distační metody – PAUP (spíše DNA), PHYLIP, MEGA, FreeTree, Neighbor-net Parsimonie – PAUP, PHYLIP, MEGA Maximum likelihood – PAUP (jen DNA), RAxML, Phyml, IQPNNI, TreePuzzle, PHYLIP Bayéská metoda – MrBayes Phylobayes Různé – Consel, TreePuzzle, AsaturA, SlowFaster SOFTWARE


Stáhnout ppt "MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek (9:50-11:20) 21. 2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA 27. 2. (16:30)"

Podobné prezentace


Reklamy Google