Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo nebereme v potaz různou frekvenci různých typů záměn, frekvenci nukleotidů, různou substituční rychlost v různých pozicích alignmentu… ODHAD POČTU SUBSTITUCÍ
PROTEINOVÉ MODELY D = -19/20 ln(1- 20/19 p) Poissonův model: p - procento rozdílných aminokyselin Obdoba nukleotidového Jukes-Cantorova modelu předpokládá stejnou frekvenci všech typů záměn a stejnou frekvenci aminokyselin. D = -3/4 ln(1- 4/3 p)
PROTEINOVÉ MODELY PAM 001 – rozdíly v sekvencích proteinů odpovídající D=0,01. Matice se dá přepočítat na vyšší D umocněním, např. D=0,1 ~ M 10 (PAM10)
Novější substituční matice odvozené ze skutečných proteinů WAG JTT mtREV PROTEINOVÉ MODELY
JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).
FYLOGENETICKÉ STROMY
Anatomie stromu Vnitřní větev Vnitřní uzel (poslední společný předek) Terminální větev Vrcholový uzel (současnost) ABCDEF
AB CDEF A B C D E F Zakořeněný a nezakořeněný
ABCDEF Jaký má tvar (topologii) Jaké má délky větví Jak věrohodné je jeho větvení Kde je jeho kořen Co chceme u stromu zjistit?Co chceme u stromu zjistit
JAK NAJÍT NEJLEPŠÍ STROM ?
Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza UPGMA, Neighbour-joining (distanční metody). Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Strom, který „nejlépe vysvětlí“ naše data. Jak se pozná nejlepší strom?
ABCD A- B0.5- C D VYCHÁZÍME Z MATICE DISTANCÍ A-B jsou taxony nebo jiné OTU (operation taxonomic units). Nejjednodušší algoritmickou metodou je shlukovací analýza UPGMA (Unweighted Pair Group Method with Arithmetic mean)
1) Najdeme v tabulce nejmenší hodnotu (v tomto případě d BC ) UPGMA ABCD A- B0.5- C D C B 2) Dvě OTU (druhy) s nejmenší vzájemnou vzdáleností spojíme do jedné OTU a vypočítáme vzdálenost této OTU od ostatních: D (BC)A = (D AB + D AC )/2 = (0,5 + 0,45)/2 = 0,475 D (BC)D = (D BD + D CD )/2 = (0,4 + 0,35)/2 = 0,375 (obecně: aritmetický průměr ze vzdáleností všech dvojic jednoduchých OTU (druhů) kde každý člen dvojice pochází z jedné ze spojovaných OTU)
3) Z přepočítaných hodnot vytvoříme novou tabulku. UPGMA ABCD A D C B 4) Celý postup opakujeme. Nejmenší distance je tentokrát mezi D a BC. Proto D připojíme k BC. Vypočítáme vzdálenost BCD od A. D (BCD)A = (D AB + D AC + D AD )/3 = (0,5 + 0,45 + 0,55)/3 = 0,5 D A
C B D A UPGMA Výpočet délek větví: D BC = 0,15 D (BC)D = 0,375 D (BCD)A = 0,5 D BC /2 D (BC)D /2 D (BC)D /2 - D BC /2 D (BCD)A /2 D (BCD)A /2 - D (BC)D /2
C B D A UPGMA Výpočet délek větví: D BC = 0,15 D (BC)D = 0,375 D (BCD)A = 0,5 D (BC)D /2 D (BC)D /2 - D BC /2 D (BCD)A /2 D (BCD)A /2 - D (BC)D /2 0,075
UPGMA Výpočet délek větví: D BC = 0,15 D (BC)D = 0,375 D (BCD)A = 0,5 C B D A D (BCD)A /2 D (BCD)A /2 - D (BC)D /2 0,075 0,1875 0,1125
C B D A UPGMA Výpočet délek větví: D BC = 0,15 D (BC)D = 0,375 D (BCD)A = 0,5 0,075 0,1875 0,1125 0,25 0,0625
UPGMA Je to nejjednodužší metoda konstrukce fylogenetických stromů umí strom zakořenit Předpokládá, že substituční rychlost je konstantní, takže distance (D) je přímo úměrná času (T), naprosto přesně platí molekulární hodiny Proto předpokládá, že distance a strom je ultramerický, všechny dnešní taxony „domutovaly“ stejně daleko C B D A
UPGMA Tyto předpoklady jsou však téměř vždy porušeny Pokud jsou předpoklady porušeny výrazně metoda se prostě splete a vytvoří nesprávný strom Má tendenci posouvat divergentnější sekvence blíže ke kořeni stromu – artefakt přitahování dlouhých větví (LBA) LBA je jedno z největších úskalí molekulární fylogenetiky
UPGMA C B D A 0,2 0,3 0,1 0,4 0,1 ABCD A- B0,8- C0,90,5- D0,60,40,5-
UPGMA C B D A 0,2 0,3 0,1 0,4 0,1 D B C A 0,2 0,05 0,383 0,13 0,2 0,25
Distanční metod nejprve změří distance pro všechny páry a pak vyberou topologii, do které se jim distance povede nejlépe napasovat. Skóre jsou třeba nejmenší čtverce. AB AC AD BC BD C D ABCD A- B0.5- C D Známe genetickou vzdálenost pro všechny páry sekvencí. Nejmenší čtverce (least squares)
AB AC AD BC BD C D ACDB Skóre 2. Vezmeme první topologii a vyzkoušíme, jak dobře do ní distance pasují. Měníme délky větví topologie tak aby pasovali co nejlépe. Nejlepší skóre si zapamatujeme. Q = ∑ ∑w ij (D ij - d ij ) 2 n i=1 j=1 Nejmenší čtverce (least squares)
AB AC AD BC BD C D Skóre 3. Vezmeme další topologii a určíme její skóre. Q = ∑ ∑w ij (D ij - d ij ) 2 n i=1 j=1 B C D 4. Projdeme všechny topologie, co nás napadnou. Tu s celkově nejlepším skóre vybereme. A Nejmenší čtverce (least squares)
C B D A 0,2 0,3 0,1 0,4 0,1 D B C A 0,2 0,05 0,383 0,13 0,2 0,25 Nejmenší čtverce (least squares) ABCD A- B0,8- C0,90,5- D0,60,40,5- Q 1 = (0,8-0,8) 2 +(0,9-0,9) 2 +(0,6-0,6) 2 +(0,5-0,5) 2 +(0,4-0,4) 2 +(0,5-0,5) 2 = 0,0 Q 2 = (0,8-0,763) 2 +(0,9-0,763) 2 +(0,6-0,763) 2 +(0,5-0,5) 2 +(0,4-0,4) 2 +(0,5-0,5) 2 = 0, Nejmenší čtverce garantují nalezení správného stromu jsou-li dobře spočítané distance.
Q = ∑ ∑ D ij n i=1 j=1 Délky větví na topologiích optimalizujeme úplně stejně jako v případě „nejmenších čtverců“, ale topologie vzájemně porovnáváme podle součtu délek všech větví. Vybereme tu s nejmenším součtem. Minimální evoluce (minimum evolution)
Q = ∑ ∑ D ij n i=1 j=1 Minimální evoluce (minimum evolution) C B D A 0,2 0,3 0,1 0,4 0,1 D B C A 0,2 0,05 0,383 0,13 0,2 0,25 12 Q 1 = 0,2+0,3+0,1+0,1+0,1+0,4= 1,2 Q 2 = 0,2+0,2+0,05+0,25+0,13+0,383=1,1213
Algoritmizovaná „minimum evolution“ postupně rozkládáme hvězdicový strom (star decomposition) shlukováním nejbližších taxonů tak, aby se v každém kroku co maximálně zmenšila celková délka stromu. Neighbor-joining
ABCD A- B0,8- C0,90,5- D0,60,40,5- D B C A u i = ∑ D ij /(n-2) n j: j ≠1 u A = 0,8/2+0,9/2+0,6/2=1,15 u B = 0,8/2+0,5/2+0,4/2=0,85 nD AB = D AB - u A – u B = 0,8-1,15-0,85=-1,2 ABCD A- B-1,2- C -1,3- D -1,2 -
Neighbor-joining D B C A ABCD A- B-1,2- C -1,3- D -1,2 - X D B C A X BCBC 0,2 0,3 v B = ½ D BC +1/2(u B - u C ) = ½ 0,5 +1/2(0,85 – 0,95) = 0,2 v c = ½ D BC +1/2(u C - u B ) = ½ 0,5 +1/2(0,95 – 0,85) = 0,3 D A(BC) = (D AB + D AC - D BC )/2 = 0,6
Neighbor-joining ABCD A- 0,6- D 0,2- u i = ∑ D ij /(n-2) n j: j ≠1 u A = 0,6/1+0,6/1=1,2 u BC = 0,6/1+0,2/1=0,8 u D = 0,6/1+0,2/1=0,8 D B C A X BCBC 0,2 0,3 v D = ½ D AD +1/2(u D - u A ) = ½ 0,6+1/2(0,8 – 1,2) = 0,1 0,5 0,1 v A = ½ D AD +1/2(u A - u D ) = ½ 0,6+1/2(1,2 – 0,8) = 0,5 0,1
Neighbor-joining D B C A 0,2 0,3 0,5 0,1 C B D A 0,2 0,3 0,1 0,4 0,1 = Neighbor-joining stejně jako nejmenší čtverce garantuje nalezení správného stromu jsou-li dobře spočítané distance.