SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p

Slides:



Advertisements
Podobné prezentace
Obecně použitelné odvození
Advertisements

Single Nucleotide Polymorphism
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Nalezení nejkratší vzdálenosti mezi uzly dopravní sítě Předmět: Teorie dopravy - cvičení.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Ekonomicko-matematické metody č. 11 Prof. RNDr. Jaroslav Ramík, CSc.
Redukce lůžek Existuje prostor pro redukci lůžek akutní péče?
© Institut biostatistiky a analýz SPEKTRÁLNÍ ANALÝZA Č ASOVÝCH Ř AD prof. Ing. Jiří Holčík, CSc.
Ekonomika organizací Pracovní výkon a jeho odměňování.
Mgr. Bedřich Myšička vrchní ředitel sekce ekonomické Sekce ekonomická 10. dubna 2014.
Petr Kielar Seminář o stavebním spoření Část VI: Podmínka rovnováhy a SKLV.
Práce se spojnicovým diagramem Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastMATEMATIKA - Finanční matematika a statistika.
Elektronické učební materiály - II. stupeň Matematika Autor: Mgr. Miluše Džuberová Sčítání a odčítání mnohočlenů jednočlen 3x 2 4y5z 3 4x 2 y + -5x 3 x.
Induktivní statistika
Seminář o stavebním spoření
Měření délky pevného tělesa
Obecně použitelné odvození
Objem a povrch kvádru a krychle
Indukce Definice: nalezení obecných zákonitostí z příkladů.
Zajištění obsluhy všech úseku dopravní sítě Předmět: Teorie dopravy - cvičení Ing. František Lachnit, Ph.D.
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Interpolace funkčních závislostí
FINANČNÍ ŘÍZENÍ Z HLEDISKA ÚČETNÍ EVIDENCE
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Stanovení kapacity úseku Chomutovky v km 17,2-18
MODELY TEORIE GRAFŮ.
Název: Trojúhelník Autor:Fyrbachová

2. cvičení
Výběrové metody (Výběrová šetření)
Hra k zopakování a procvičení učiva (Test znalostí)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základní jednorozměrné geometrické útvary
Maďarská metoda Kirill Šustov Michal Bednář Stanislav Běloch
SIMULAČNÍ MODELY.
Běžné reprezentace grafu
Poměr v základním tvaru.
SŠ-COPT Uherský Brod Mgr. Renáta Burdová
MATEMATIKA Poměr, úměra.
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
ZAL – 8. cvičení 2016.
Rovnice a graf přímé úměrnosti.
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Lenka Marková Název materiálu:
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Optimální pořadí násobení matic
XII. Binomické rozložení
3. přednáška Laplaceova transformace
Úvod do praktické fyziky
Teorie chyb a vyrovnávací počet 1
Lineární regrese.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Poměr v základním tvaru.
Matematická gramotnost napříč vzděláváním
Běžná pravděpodobnostní rozdělení
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
GENOVÝ STROM X DRUHOVÝ STROM
Jak se pozná nejlepší strom?
Modely obnovy stárnoucího zařízení
Teorie chyb a vyrovnávací počet 1
Provozováno Výzkumným ústavem pedagogickým v Praze.
Centrální limitní věta
Teorie chyb a vyrovnávací počet 1
Více náhodných veličin
Hra (AZ kvíz) ke zopakování či procvičení učiva:
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p Počet pozorovaných rozdílů 0,75 DNA p Skutečný počet substitucí na jednu pozici

PROPORCE ROZDÍLŮ NENÍ DOBRÁ MÍRA Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = 3/14….. p není aditivní Správná míra je počet substitucí…. D D = ut Sekvence A Sekvence B

MATICE P(t) = eQt Rychlostní (substitution rate matrix) A G C T -u u/3 Pravděpodobnostní (transition probability matrix) 4/3 ut 4/3 ut P(t) = eQt

ODHADEM Ds je p D=ut Sekvence A Sekvence B Sekvence A - AATGTAGGAATCGC Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) D=ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = počet neshodných míst/ délka sekvence je odhadem Ds.

General time reversible DALŠÍ MODELY GTR General time reversible + A G C T α ε β δ γ ζ Rovnovážné frekvence nukleotidů πA πC πG πT Parametry: frekvence (rychlost) záměn (αβγδεζ) a frekvence nukleotidů (πA πC πG πT) se odvozují z analyzovaných sekvencí zároveň s výpočtem D metodou maximum likelihood (přespříští přednáška).

PROTEINOVÉ MODELY D = -19/20 ln(1- 20/19 p) Poissonův model: p - procento rozdílných aminokyselin Obdoba nukleotidového Jukes-Cantorova modelu předpokládá stejnou frekvenci všech typů záměn a stejnou frekvenci aminokyselin. D = -3/4 ln(1- 4/3 p)

Q = lnP/t P=eD PROTEINOVÉ MODELY D=Qt PAM 001 – rozdíly v sekvencích proteinů odpovídající D=0,01. D=Qt Q = lnP/t P=eD

P=eD Px =exD PROTEINOVÉ MODELY PAM 001 – rozdíly v sekvencích proteinů odpovídající D=0,01. Matice se dá přepočítat na vyšší D umocněním, např. D=0,1 ~ M10 (PAM10) P=eD Px =exD

PAM 001

PAM 250 = (PAM 001)250

PROTEINOVÉ MODELY Novější substituční matice (Q) odvozené ze skutečných proteinů LG (LG-F) WAG (WAG-F) JTT (JTT-F) mtREV (mtREV-F)

ODKUD SE BEROU RELATIVNÍ RYCHLOSTI SUBSTITUCÍ DNA – z počtu pozorovaných záměn v našich sekvencích Proteiny – z velkých empirických souborů sekvecí Sekvence A Sekvence B Proč se to dělá pokaždé jinak?

FYLOGENETICKÉ STROMY

Anatomie stromu Vnitřní větev Vnitřní uzel (poslední společný předek) Terminální větev Vrcholový uzel, list (současnost) A B C D E F

Zakořeněný a nezakořeněný B C D E F

Různé formy zakreslení

Co chceme u stromu zjistit Co chceme u stromu zjistit? Jaký má tvar (topologii) Jaké má délky větví Jak věrohodné je jeho větvení Kde je jeho kořen A B C D E F

JAK NAJÍT NEJLEPŠÍ STROM ?

Jak se pozná nejlepší strom? Strom, který „nejlépe vysvětlí“ naše data. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza UPGMA, Neighbour-joining (distanční metody). Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií.

Vycházíme z matice distancí A-B jsou taxony nebo jiné OTU (operation taxonomic units). A B C D - 0.5 0.45 0.15 0.55 0.4 0.35 Nejjednodušší algoritmickou metodou je shlukovací analýza UPGMA (Unweighted Pair Group Method with Arithmetic mean)

UPGMA 1) Najdeme v tabulce nejmenší hodnotu (v tomto případě dBC) - 0.5 0.45 0.15 0.55 0.4 0.35 2) Dvě OTU (druhy) s nejmenší vzájemnou vzdáleností spojíme do jedné OTU a vypočítáme vzdálenost této OTU od ostatních: D(BC)A = (DAB + DAC)/2 = (0,5 + 0,45)/2 = 0,475 D(BC)D = (DBD + DCD)/2 = (0,4 + 0,35)/2 = 0,375 (obecně: aritmetický průměr ze vzdáleností všech dvojic jednoduchých OTU (druhů), kde každý člen dvojice pochází z jedné ze spojovaných OTU) B C

UPGMA 3) Z přepočítaných hodnot vytvoříme novou tabulku. BC D - 0.475 0.55 0.375 4) Celý postup opakujeme. Nejmenší distance je tentokrát mezi D a BC. Proto D připojíme k BC. Vypočítáme vzdálenost BCD od A. D(BCD)A = (DAB + DAC + DAD)/3 = (0,5 + 0,45 + 0,55)/3 = 0,5 B C D A

UPGMA B C D A DBC = 0,15 D(BC)D = 0,375 D(BCD)A = 0,5 Výpočet délek větví: DBC = 0,15 DBC/2 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 DBC/2 D(BCD)A/2 - D(BC)D/2 C D(BC)D/2 D D(BCD)A/2 A

UPGMA B C D A DBC = 0,15 D(BC)D = 0,375 D(BCD)A = 0,5 Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B D(BC)D/2 - DBC/2 0,075 D(BCD)A/2 - D(BC)D/2 C D(BC)D/2 D D(BCD)A/2 A

UPGMA B C D A DBC = 0,15 D(BC)D = 0,375 D(BCD)A = 0,5 Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 D(BCD)A/2 - D(BC)D/2 C 0,1875 D D(BCD)A/2 A

UPGMA B C D A DBC = 0,15 D(BC)D = 0,375 D(BCD)A = 0,5 Výpočet délek větví: DBC = 0,15 0,075 D(BC)D = 0,375 D(BCD)A = 0,5 B 0,1125 0,075 C 0,0625 0,1875 D 0,25 A

UPGMA Je to nejjednodužší metoda konstrukce fylogenetických stromů umí strom zakořenit Předpokládá, že substituční rychlost je konstantní, takže distance (D) je přímo úměrná času (T), naprosto přesně platí molekulární hodiny Proto předpokládá, že distance a strom je ultramerický, všechny dnešní taxony „dosubstituovaly“ stejně daleko B C D A

UPGMA Tyto předpoklady jsou však téměř vždy porušeny Pokud jsou předpoklady porušeny výrazně metoda se prostě splete a vytvoří nesprávný strom Má tendenci posouvat divergentnější sekvence blíže ke kořeni stromu – artefakt přitahování dlouhých větví (LBA) LBA je jedno z největších úskalí molekulární fylogenetiky

UPGMA 0,2 B 0,1 A B C D - 0,8 0,9 0,5 0,6 0,4 0,3 C 0,1 0,1 D 0,4 A

UPGMA 0,2 B 0,2 B 0,1 0,05 0,3 C 0,2 0,1 0,13 D 0,1 0,25 D C 0,4 0,383 A A

Nejmenší čtverce (least squares) 1. Známe genetickou vzdálenost pro všechny páry sekvencí. A B A B C D - 0.5 0.45 0.15 0.55 0.4 0.35 A C A D B C B D C D

Nejmenší čtverce (least squares) B 2. Vezmeme první topologii a vyzkoušíme, jak dobře do ní distance pasují. Měníme délky větví topologie tak aby pasovali co nejlépe. Nejlepší skóre si zapamatujeme. A C A D B C B D C D A C D B Q = ∑ ∑wij (Dij - dij)2 n n i=1 j=1 Skóre

Nejmenší čtverce (least squares) 3. Vezmeme další topologii a určíme její skóre. A B A C A D 4. Projdeme všechny topologie, co nás napadnou. Tu s celkově nejlepším skóre vybereme. B C B D C D A B D Q = ∑ ∑wij (Dij - dij)2 n n i=1 j=1 C Skóre

Nejmenší čtverce (least squares) 0,2 1 2 0,2 B B 0,1 0,05 A B C D - 0,8 0,9 0,5 0,6 0,4 0,3 0,1 C 0,2 0,13 D 0,1 D 0,25 C 0,4 0,383 A A Q1= (0,8-0,8)2+(0,9-0,9)2+(0,6-0,6)2+(0,5-0,5)2 +(0,4-0,4)2+(0,5-0,5)2= 0,0 Q2= (0,8-0,763)2+(0,9-0,763)2+(0,6-0,763)2 +(0,5-0,5)2+(0,4-0,4)2+(0,5-0,5)2= 0,046707 Nejmenší čtverce garantují nalezení správného stromu jsou-li dobře spočítané distance.

Minimální evoluce (minimum evolution) Délky větví na topologiích optimalizujeme úplně stejně jako v případě „nejmenších čtverců“, ale topologie vzájemně porovnáváme podle součtu délek všech větví. Q = ∑ ∑ Dij n n i=1 j=1 Vybereme tu s nejmenším součtem.

Minimální evoluce (minimum evolution) 0,2 1 2 0,2 B B 0,1 0,05 Q = ∑ ∑ Dij n n i=1 j=1 0,3 0,1 C 0,2 0,13 D 0,1 D 0,25 C 0,4 0,383 A A Q1= 0,2+0,3+0,1+0,1+0,1+0,4= 1,2 Q2= 0,2+0,2+0,05+0,25+0,13+0,383=1,213

Neighbor-joining Algoritmizovaná „minimum evolution“ postupně rozkládáme hvězdicový strom (star decomposition) shlukováním nejbližších taxonů tak, aby se v každém kroku co maximálně zmenšila celková délka stromu.

Neighbor-joining ui = ∑ Dij /(n-2) B A C D n j: j ≠1 0,8 0,9 0,5 0,6 0,4 A C D ui = ∑ Dij /(n-2) n j: j ≠1 A B C D - -1,2 -1,3 uA = 0,8/2+0,9/2+0,6/2=1,15 uB = 0,8/2+0,5/2+0,4/2=0,85 nDAB = DAB- uA – uB = 0,8-1,15-0,85=-1,2

Neighbor-joining B A X C D vB = ½ DBC+1/2(uB - uC) = -1,2 -1,3 X C D vB = ½ DBC+1/2(uB - uC) = ½ 0,5+1/2(0,85 – 0,95) = 0,2 B A 0,2 X BC vc = ½ DBC+1/2(uC - uB) = ½ 0,5+1/2(0,95 – 0,85) = 0,3 0,3 C D DA(BC) = (DAB + DAC - DBC)/2 = 0,6

Neighbor-joining ui = ∑ Dij /(n-2) B A X C D n BC D - 0,6 0,2 0,2 0,5 X BC 0,3 0,1 C 0,1 D ui = ∑ Dij /(n-2) n j: j ≠1 vA = ½ DAD+1/2(uA - uD) = ½ 0,6+1/2(1,2 – 0,8) = 0,5 uA = 0,6/1+0,6/1=1,2 uD = 0,6/1+0,2/1=0,8 vD = ½ DAD+1/2(uD - uA) = ½ 0,6+1/2(0,8 – 1,2) = 0,1 vX(BC) = (DA(BC) + DD(BC) - DAD)/2 = 0,1

= Neighbor-joining B B A C D C D A 0,2 B B A 0,1 = 0,2 0,3 0,1 0,1 C 0,5 0,3 0,1 D 0,1 C D 0,4 A Neighbor-joining stejně jako nejmenší čtverce garantuje nalezení správného stromu jsou-li dobře spočítané distance.