Obecně použitelné odvození

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

LOGISTICKÉ SYSTÉMY 14/15.
Obecně použitelné odvození
OBECNÉ OPTIMALIZAČNÍ MODELY
Stavový prostor. • Existují úlohy, pro které není k dispozici univerzální algoritmus řešení • různé hry • problém batohu, problém obchodního cestujícího.
Prohledávání stavového prostoru
Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
Analytické nástroje GIS
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Přednáška 12 Diferenciální rovnice
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Algoritmy I Cvičení č. 4.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Získávání informací Získání informací o reálném systému
Statistická mechanika - Boltzmannův distribuční zákon
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Systémy pro podporu managementu 2
Jak se pozná nejlepší strom?
Shluková analýza.
MOLEKULÁRNÍ TAXONOMIE
Stanovení genetické vzdálenosti
Časová složitost algoritmů
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Saatyho metoda – určuje, kolikrát je jedno kritérium významnější než druhé – zobecnění, více rozlišuje mezi kritérii Počet bodů Popis 1 Kritéria stejně.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ
Předpoklady a historické souvislosti
Úvod do gradientové analýzy
Bioinformatika Predikce genů, Fylogenetická analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Výpočet plochy pomocí metody Monte Carlo
Odhad metodou maximální věrohodnost
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
rozdělení metod využitelnost jednotlivých metod náročnost metod používání metod perspektivy.
ŘÍZENÍ DOPRAVY POMOCÍ SW AGENTŮ Richard Lipka, DSS
Časová analýza stochastických sítí - PERT
JAK NAJÍT NEJLEPŠÍ STROM
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
5. Kvantitativní kladistika kódování znaku pro kladistickou analýzu algoritmy konstrukce fylogenetických stromů na základě maximální parsimonie optimalizační.
Vyhledávání vzorů (template matching)
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Základy zpracování geologických dat R. Čopjaková.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku Prezentace 10 min. ( po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování.
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Dvourozměrné geometrické útvary
Jak se pozná nejlepší strom?
Dvourozměrné geometrické útvary
Dvourozměrné geometrické útvary
ZAL – 6. cvičení 2016.
Dvourozměrné geometrické útvary
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
ÚVOD DO FYLOGENETICKÉ ANALÝZY I..
Výpočetní složitost algoritmů
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Dvourozměrné geometrické útvary
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak se pozná nejlepší strom?
Algoritmizace a datové struktury (14ASD)
Transkript prezentace:

Obecně použitelné odvození Jukes-Cantor Obecně použitelné odvození A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 G u/3 u/3 -u u/3 C u/3 u/3 u/3 -u T 4/3 ut 4/3 ut JC K2P D = ut = -3/4 ln(1- 4/3 p) D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q)

General time reversible P(t)=eQt, celková relativní rychlost=1 pak D=t DALŠÍ MODELY GTR General time reversible + A G C T α ε β δ γ ζ Rovnovážné frekvence nukleotidů πA πC πG πT Parametry: frekvence (rychlost) záměn (αβγδεζ) a frekvence nukleotidů (πA πC πG πT) se odvozují z analyzovaných sekvencí zároveň s výpočtem D metodou maximum likelihood (přednáška 4. 4.). P(t)=eQt, celková relativní rychlost=1 pak D=t

SITE HETEROGENEITY P(t) = eQt P(t) = erQt P(t) = ∫0 f(r) erQt r1 r2 r3 r4 r5 r6 P(t) = eQt P(t) = erQt Taxon A C C C T G G Taxon B A C T T G A ∞ P(t) = ∫0 f(r) erQt Jin a Nei model D = -3/4 α[1-(1- 4/3 p)-1/α] u/3 -u α=0,5 p=0,5 pak D=3 α=10 p=0,5 pak D=0,87

SITE HETEROGENEITY P(t) = eQt P(t) = erQt P(t) = ∫0 f(r) erQt r1 r2 r3 r4 r5 r6 P(t) = eQt P(t) = erQt Taxon A C C C T G G Taxon B A C T T G A ∞ P(t) = ∫0 f(r) erQt P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt P(t) = 1/4 e0,0334Qt + 1/4 e0,2519Qt + 1/4 e0,8203Qt + 1/4 e2,8994Qt

JAK NAJÍT NEJLEPŠÍ STROM

Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

SKÓROVÁNÍ STROMŮ

Q = ∑ ∑wij (Dij - dij)2 NEJMENŠÍ ČTVERCE A B A C A D B C B D C D A B D n n i=1 j=1 C Skóre

KOLIK JE MOŽNÝCH STROMŮ? Počet možných topologií strmě roste

POČET TOPOLOGIÍ STRMNĚ ROSTE Pro zakořeněné topologie (2n-3)!! nezakořeněné topologie (2n-5)!! (2*5-3)!! = 3*5*7 = 105 Faktoriál lichých čísel Stáří vesmíru 4,7*1017 sekund, procesor 3,4*109 operací/s 1027 operací za dobu trvání vesmíru Počet zakořeněných topologií pro různé množství taxonů

JAK PROHLEDÁVAT STROMOVÝ PROSTOR Vztahuje se nejen na maximální parsimonii, ale na téměř všechny nealgoritmické metody (nejmenší čtverce, minimální evoluce, maximum likelihood...)

HEURISTICKÉ HLEDÁNÍ

Nearest-Neighbour Interchange JAK KRÁČET? NNI Nearest-Neighbour Interchange

Subtree Pruning and Regrafting JAK KRÁČET? SPR Subtree Pruning and Regrafting

Tree Bisection and Reconnection JAK KRÁČET? TBR Tree Bisection and Reconnection

Heuristické hledání 11 10 8

KDE ZAČÍT A NEBÝT ÚPLNĚ MIMO? Taxon addition Pořadí v jakém jsou taxony přidávány ovlivní výsledek

GLOBÁLNÍ A LOKÁLNÍ MAXIMA Globální maximum je zde Začne zde Skončí zde

GLOBÁLNÍ A LOKÁLNÍ MAXIMA Globální maximum je zde

BRANCH AND BOUND SEARCH

BRANCH AND BOUND SEARCH

MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG

MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG G G G Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG G G G G C C C C G C G C

2 2 1 MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 2 2 G G G G G G G G C C C C G 1 C G C G C

1 2 2 MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 1 2 G A G A G A G G G A A G 2 G A A A A G

MAXIMÁLNÍ PARSIMONIE Fitchův algoritmus {C} {A} {C} {C} {A} {G} {C, A}* {C} {A, G}* {C, A, G}* {C, A}

MAXIMÁLNÍ PARSIMONIE Fitchův algoritmus {T} {G} {T} {T} {G} {C} {T, G}* {T} {G, C}* {T, G, C}* {T, G} XYXXYZ = 3 změny YXXXXX = 1 změna

MAXIMÁLNÍ PARSIMONIE Varianty parsimonie Camin-Sokal parsimonie – známe původní stav, změny možné jen jedním směrem, reverze se nedějí (SINE elementy) Dollo parsimonie – daný (komplexní) znak může vzniknou jen jednou, ztrácet se může opakovaně v různých liniích Vážená parsimonie – různým typům záměn přisuzuje různou váhu

MAXIMÁLNÍ PARSIMONIE Parsimonie je znaková metoda – vychází přímo ze znaků (např. pozic alignmentu). Skóre stromu nám říká, jaký je nejmenší počet změn ve všech znacích, ke kterému muselo dojít, pokud by evoluce proběhla podle dané topologie. Parsimonie nebere v úvahu substituční saturaci. Pravděpodobnost záměny nezávisí na délce větve. Základní varianta parsimonie považuje všechny typy změn za stejně pravděpodobné.

INCONSISTENCE PARSIMONIE q A C B D Uvažujme, že evoluce proběhla podle stromu vlevo. Na stromu se vyskytovaly větve dvou různých délek, kterým odpovídají pravděpodobnosti změny p a q.

LONG BRANCH ATTRACTION p B q q q D p C A C p p q q q B D