GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.
GENOVÝ STROM X DRUHOVÝ STROM Pozor na záměnu orthologu a paralogu.
GENOVÝ STROM X DRUHOVÝ STROM Rozdíl může způsobit také mezidruhový přenos polymorfismu Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne generací T = T2- T1 Ne: efektivní velikost populace.
GENOVÝ STROM X DRUHOVÝ STROM Nesouhlas přítomnosti SINE s fylogenezí druhů může poukazovat na „incomplete lineage sorting“ – mezi dvěma blízkými speciačními událostmi nedošlo k vytřídění polymorfismu v populaci. Abdel-Halim Salem a kol. 2003 PNAS
JAK SPOJIT RŮZNÉ SADY DAT?
JAK SPOJIT RŮZNÉ SADY DAT? Mnoho stromů Mnoho alignmentů Jeden strom Jeden alignment
SUPER MATICE A B C ? D E Gen 1 Gen 2 Gen 3 Gen 4 Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.
SUPER MATICE Také se jim říká ‘konkatenace’ Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…) Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu.
SUPER MATICE A B C D E ? Q1, α1, … Q2, α2, … Q3, α3, … Q4, α4, … Gen 1
SUPERTREE Mnoho stromů Mnoho alignmentů Jeden strom Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů
Matrix Representation with Parsimony (Baum and Ragan, 1992) SUPERTREE Matrix Representation with Parsimony (Baum and Ragan, 1992) Uděláme ze stromů alignment (?!) Každá „bipartition“ představuje v alignmentu jeden sloupec
SUPERTREE A * * * * B * * * - C * . . * D * . . . E . . * - F . . * . Z tohoto alignmentu udělej strom podle maximální parsimonie F A B C D E F
Neighbor-net (Bryant and Moulton, 2004) SÍŤ Neighbor-net (Bryant and Moulton, 2004) Je založena na neighbor-joining, ale umožňuje spojovat jeden taxon s více taxony.
SÍŤ Neighbor-net
ZAKOŘENĚNÍ STROMU
METODA OUTGROUPŮ Všechny zmíněné metody produkují nezakořeněný strom!!! Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny, kterou studujeme.
METODA OUTGROUPŮ Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete.
MIDPOINT ROOT Kořen umístí to poloviny nejdelší cesty stromem
MOLEKULÁRNÍ HODINY proč mohou fungovat µ - mutační rychlost (počet nově vzniklých mutací za jednotku času u jednoho jedince) µ*Ne – počet nově vzniklých mutací za jednotku času u v populaci (Ne = efektivní velikost populace) 1/Ne – pravděpodobnost fixace mutace Rychlost fixace nových mutací v populaci µ*Ne* 1/Ne = µ Nezávisí na velikosti populace!!!
ZDROJE CHYBY tikají nepravidelně
ZDROJE CHYBY tikají nepravidelně 95 %
tikají různě rychle u různých skupin ZDROJE CHYBY tikají různě rychle u různých skupin Martin a Palumbi, PNAS USA 90: 4087-4091, 1993 10 hlodavci psi koně husy primati medvědi divergence sekvencí (%/milion let) želvy 1 mloci velryby pstruzi žáby želvy mořské želvy žraloci 0,1 0,01 0,1 1 10 100 1000 10000 100000 tělesná hmotnost (kg)
REKONSTRUKCE FYLOGENEZE S TÍM POČÍTÁ v=ut ut Sekvence A Sekvence B Substituční rychlost Časový interval 0,2 B 0,2 B 0,1 0,05 0,3 C 0,2 0,1 X 0,13 D 0,1 D 0,25 C 0,4 0,383 A A
GLOBÁLNÍ HODINY v1=v2=t1μ v4=v5=t4μ v3=v6+v1=t2μ v8+v4=v7+v6+v1=t3μ Pokud platí globální hodiny a máme k dispozici alespoň jeden kalibrační bod, můžeme rozpřáhnout t(čas) a μ(substituční rychlost). Protože platí vztahy uvedené níže, nebudeme metodou maximum likelihood optimalizovat délky větví v1-v8 ale časy t1, t3 a t5 udávající hloubky uzlů a jednotnou globální substituční rychlost μ. Q Γ v1=v2=t1μ v4=v5=t4μ v3=v6+v1=t2μ v8+v4=v7+v6+v1=t3μ t1 t4 t2 t3 t2 je v tomto příkladu kalibrační bod
TEST ROVNOMĚRNOSTI CHODU MH Likelihood ratio test δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu , platnosti hodin (nulová hypotéza) Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely (v tomto případě 4).
LOKÁLNÍ HODINY Strom rozdělíme na několik oblastí a v každé předpokládáme platnost lokálních hodin. Pro každou oblast stromu potřebujeme kalibrační bod. μ2 μ1 t1 t4 t2 t3
RELAXOVANÉ HODINY v1=t1μ1 v2=t1μ2 v3=t2μ3 v4=t4μ4 v5=t4μ5 v6=(t2-t1)μ6 Aby byla umožněna různá substituční rychlost a abychom mohli počítat likelihood, přidělují se větvím v1-v8 jejich substituční rychlosti. Ty jsou buď navzájem nezávislé a tahají se z nějakého rozložení, nebo se substituční rychlost dceřiné větve odvíjí od rychlosti mateřské větve podle nějakého vztahu. v1=t1μ1 v2=t1μ2 v3=t2μ3 v4=t4μ4 v5=t4μ5 v6=(t2-t1)μ6 v7=(t3-t2)μ7 v8= (t3-t4)μ8 t1 t4 t2 t3
ZDROJE CHYBY kalibrace Kalibrační body (často fosílie) nutno interpretovat opatrně Datování fosílie je vždy nepřesné (konfidenční interval) Postavení fosílie na stromu je obtížné určit. Sedí někde na větvi ne přesně na uzlu Fosílie ukazují na spodní hranici vzniku skupiny a nevíme, jak dlouho se daná skupina organizmů vyskytovala předtím než je první známá fosílie.
ZDROJE CHYBY kalibrace Kalibrační body (často fosílie) nutno interpretovat opatrně Naopak např. vznik ostrova, na kterém skupina organizmů vznikla udává horní hranici jejího vzniku.
KONFIDENČNÍ INTERVALY 95 % KONFIDENČNÍ INTERVALY Parfrey a kol. PNAS 2010
PŘÍKLAD Epidemie HIV a hepatitidy C v nemocnici Al-Fateh v Benhazi, Libye - 1998
PŘÍKLAD
MOLEKULÁRNÍ HODINY – SHRNUTÍ Tikají nepravidelně, v jednotlivých genech a liniích jdou nestejně rychle Rychlost hodin se mění během evoluce Nutnost kalibrace a kalibrační body třeba interpretovat uvážlivě Výsledkem není jedna hodnota, ale interval. Intervaly bývají obvykle nepříjemně široké, ale i tak mohou někdy přinést odpověď na otázku. Čím více dat tím užší budou intervaly spolehlivosti Lepší široké intervaly, které obsahují skutečnou hodnotu (složitější modely) než užší intervaly, které jsou zcela špatně (jednoduché, nesprávně zvolené modely)