Obecně použitelné odvození

Slides:



Advertisements
Podobné prezentace
Obecně použitelné odvození
Advertisements

JAK NAJÍT NEJLEPŠÍ STROM
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační.
Číslo projektu:CZ.1.07/1.5.00/ Název školy:SOU a ZŠ Planá, Kostelní 129, Planá Vzdělávací oblast: Ekonomie Předmět:Finanční gramotnost Tematický.
:-) Asymptotická složitost algoritmů Autor: Antonín DANĚK Semestrální projekt 1 – Y14TED.
Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Redukce lůžek Existuje prostor pro redukci lůžek akutní péče?
Význam diferenciálních rovnic převzato od Doc. Rapanta.
Aritmetický průměr Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastMATEMATIKA - Finanční matematika a statistika Datum.
ORGANIZACE PŘIJÍMACÍHO ŘÍZENÍ 2016/2017 část I. - Přihláška na SŠ
Seminář o stavebním spoření
Obecně použitelné odvození
Měření síly.
Jak se pozná nejlepší strom?
Interpolace funkčních závislostí
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Rozhodování 1.
Lineární funkce - příklady
Úloha bodového systému
Vlastnosti zvuku - test z teorie
Faktorová analýza cíl faktorové analýzy základní pojmy, postup
PRŮMĚRNÁ RYCHLOST SLOVNÍ ÚLOHY
úlohy lineárního programování
Digitální učební materiál zpracovaný v rámci projektu
Výběrové metody (Výběrová šetření)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
8.1.2 Podprostory.
Zavedení pojmu přímá úměrnost.
Soustava dvou lineárních rovnic se dvěma neznámými
Maďarská metoda Kirill Šustov Michal Bednář Stanislav Běloch
První matematická lekce
NÁZEV ŠKOLY: S0Š Net Office, spol. s r.o, Orlová Lutyně
Oblast: Dobré životní podmínky zvířat
Poměr v základním tvaru.
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
MATEMATIKA Soustavy dvou lineárních rovnic o dvou neznámých.
PRŮMĚRNÁ RYCHLOST SLOVNÍ ÚLOHY
Sekvencování DNA.
První matematická lekce
Stavební fakulta ČVUT, B407
BIBS Informatika pro ekonomy přednáška 2
Jak postupovat při měření?
Pravděpodobnost a statistika
Optimální pořadí násobení matic
3. přednáška Laplaceova transformace
Úvod do praktické fyziky
NÁZEV ŠKOLY: S0Š Net Office, spol. s r.o, Orlová Lutyně
Teorie chyb a vyrovnávací počet 1
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
Lineární regrese.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Zavedení pojmu přímá úměrnost.
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
Poměr v základním tvaru.
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak se pozná nejlepší strom?
Dynamické programování Úloha batohu neomezená
Analýza informačního systému
Lineární funkce a její vlastnosti
Lineární rovnice Druhy řešení.
Teorie chyb a vyrovnávací počet 1
Více náhodných veličin
Teorie chyb a vyrovnávací počet 2
Dělitelnost přirozených čísel
Grafy kvadratických funkcí
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Obecně použitelné odvození Jukes-Cantor Obecně použitelné odvození A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 G u/3 u/3 -u u/3 C u/3 u/3 u/3 -u T 4/3 ut 4/3 ut JC K2P D = ut = -3/4 ln(1- 4/3 p) D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q)

P(t)=eQt, průměrná relativní rychlost=1 pak D=t DALŠÍ MODELY GTR General time reversible + A G C T α ε β δ γ ζ Rovnovážné frekvence nukleotidů πA πC πG πT Parametry: frekvence (rychlost) záměn (αβγδεζ) a frekvence nukleotidů (πA πC πG πT) se odvozují z analyzovaných sekvencí zároveň s výpočtem D metodou maximum likelihood (příští přednáška). P(t)=eQt, průměrná relativní rychlost=1 pak D=t

SITE RATE HETEROGENEITY 8 Sekvence A Sekvence B Sekvence A Sekvence B 1/4 8 = 1/4 D = -3/4 ln(1- 4/3 p) Pokud p se blíží ¾ pak D se blíží 8

SITE RATE HETEROGENEITY 8 Sekvence A Sekvence B ½ ½ Sekvence A Sekvence B 1/8 4/8 r1=2 r2=0 5/8 D = -3/4 ln(1- 4/3 p) p= 3/8 → D=0,52 ( )1/2 2 8 +( )1/2 8 8 =(1/4)1/2 +(1)1/2 = 5/8 pi = 0,5 …v praxi další neznámá i

SITE RATE HETEROGENEITY r1 r2 r3 r4 r5 r6 P(t) = eQt P(t) = erQt Taxon A C C C T G G Taxon B A C T T G A ∞ P(t) = ∫0 f(r) erQt Jin a Nei model D = -3/4 α[1-(1- 4/3 p)-1/α] u/3 -u α=0,5 p=0,5 pak D=3 α=10 p=0,5 pak D=0,87

SITE RATE HETEROGENEITY r1 r2 r3 r4 r5 r6 P(t) = eQt P(t) = erQt Taxon A C C C T G G Taxon B A C T T G A ∞ P(t) = ∫0 f(r) erQt P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt P(t) = 1/4 e0,0334Qt + 1/4 e0,2519Qt + 1/4 e0,8203Qt + 1/4 e2,8994Qt

JAK NAJÍT NEJLEPŠÍ STROM

Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

SKÓROVÁNÍ STROMŮ

Q = ∑ ∑wij (Dij - dij)2 NEJMENŠÍ ČTVERCE A B A C A D B C B D C D A B D n n i=1 j=1 C Skóre

KOLIK JE MOŽNÝCH STROMŮ? Počet možných topologií strmě roste

POČET TOPOLOGIÍ STRMNĚ ROSTE Pro zakořeněné topologie (2n-3)!! nezakořeněné topologie (2n-5)!! (2*5-3)!! = 3*5*7 = 105 Faktoriál lichých čísel Stáří vesmíru 4,7*1017 sekund, procesor 3,4*109 operací/s 1027 operací za dobu trvání vesmíru Počet zakořeněných topologií pro různé množství taxonů

JAK PROHLEDÁVAT STROMOVÝ PROSTOR Vztahuje se nejen na maximální parsimonii, ale na téměř všechny nealgoritmické metody (nejmenší čtverce, minimální evoluce, maximum likelihood...)

HEURISTICKÉ HLEDÁNÍ

Nearest-Neighbour Interchange JAK KRÁČET? NNI Nearest-Neighbour Interchange

Subtree Pruning and Regrafting JAK KRÁČET? SPR Subtree Pruning and Regrafting

Tree Bisection and Reconnection JAK KRÁČET? TBR Tree Bisection and Reconnection

Heuristické hledání 11 10 8

KDE ZAČÍT A NEBÝT ÚPLNĚ MIMO? Taxon addition Pořadí v jakém jsou taxony přidávány ovlivní výsledek

GLOBÁLNÍ A LOKÁLNÍ MAXIMA Globální maximum je zde Začne zde Skončí zde

GLOBÁLNÍ A LOKÁLNÍ MAXIMA Globální maximum je zde

BRANCH AND BOUND SEARCH

BRANCH AND BOUND SEARCH

MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG

MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG G G G Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG G G G G C C C C G C G C

2 2 1 MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 2 2 G G G G G G G G C C C C G 1 C G C G C

1 2 2 MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 1 2 G A G A G A G G G A A G 2 G A A A A G

MAXIMÁLNÍ PARSIMONIE Fitchův algoritmus {C} {A} {C} {C} {A} {G} {C, A}* {C} {A, G}* {C, A, G}* {C, A}

MAXIMÁLNÍ PARSIMONIE Fitchův algoritmus {T} {G} {T} {T} {G} {C} {T, G}* {T} {G, C}* {T, G, C}* {T, G} XYXXYZ = 3 změny YXXXXX = 1 změna

MAXIMÁLNÍ PARSIMONIE Varianty parsimonie Camin-Sokal parsimonie – známe původní stav, změny možné jen jedním směrem, reverze se nedějí (SINE elementy) Dollo parsimonie – daný (komplexní) znak může vzniknou jen jednou, ztrácet se může opakovaně v různých liniích Vážená parsimonie – různým typům záměn přisuzuje různou váhu

MAXIMÁLNÍ PARSIMONIE Parsimonie je znaková metoda – vychází přímo ze znaků (např. pozic alignmentu). Skóre stromu nám říká, jaký je nejmenší počet změn ve všech znacích, ke kterému muselo dojít, pokud by evoluce proběhla podle dané topologie. Základní varianta parsimonie považuje všechny typy změn za stejně pravděpodobné. Parsimonie nebere v úvahu substituční saturaci. Pravděpodobnost záměny nezávisí na délce větve.

INCONSISTENCE PARSIMONIE q A C B D Uvažujme, že evoluce proběhla podle stromu vlevo. Na stromu se vyskytovaly větve dvou různých délek, kterým odpovídají pravděpodobnosti změny p a q.

LONG BRANCH ATTRACTION p B q q q D p C A C p p q q q B D