Obecně použitelné odvození

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

LOGISTICKÉ SYSTÉMY 14/15.
Výrazy s proměnnou Jana Hajíčková 2.ročník, M-Z/ZŠ.
PLANARITA A TOKY V SÍTÍCH
OBECNÉ OPTIMALIZAČNÍ MODELY
Prohledávání stavového prostoru
Znalostní fuzzy systém pro evaluaci společenské odpovědnosti firmy.
Single Nucleotide Polymorphism
ENERGIE KLASTRŮ VODY ZÍSKANÁ EVOLUČNÍMI ALGORITMY
Některé pojmy teorie grafů I. Příklad: log p ABC = u 0 + u A + u B + u C + u AB + u AC A B C.
Zarovnávání biologických sekvencí
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Algoritmy I Cvičení č. 4.
Odpovědi na otázky Praha 2007 Bc. Dalibor Barri ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra mikroelektroniky.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Metody řazení s lineární časovou složitostí
LOGISTICKÉ SYSTÉMY 7/14.
Získávání informací Získání informací o reálném systému
Heuristické metody Heuristiky dělíme na primární a duální.
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Jak se pozná nejlepší strom?
TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM
MOLEKULÁRNÍ TAXONOMIE
Stanovení genetické vzdálenosti
Časová složitost algoritmů
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Saatyho metoda – určuje, kolikrát je jedno kritérium významnější než druhé – zobecnění, více rozlišuje mezi kritérii Počet bodů Popis 1 Kritéria stejně.
KIV/PRO Cvičení Částečný součet v posloupnosti Najděte maximální částečný součet v posloupnosti Vstup: – Reálná čísla Výstup: – Maximální.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ
Téma 7, ODM, prostorové a příčně zatížené prutové konstrukce
Bioinformatika Predikce genů, Fylogenetická analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Neuronové sítě Jiří Iša
Odhad metodou maximální věrohodnost
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Rozpoznávání v řetězcích
rozdělení metod využitelnost jednotlivých metod náročnost metod používání metod perspektivy.
ŘÍZENÍ DOPRAVY POMOCÍ SW AGENTŮ Richard Lipka, DSS
Časová analýza stochastických sítí - PERT
JAK NAJÍT NEJLEPŠÍ STROM
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
5. Kvantitativní kladistika kódování znaku pro kladistickou analýzu algoritmy konstrukce fylogenetických stromů na základě maximální parsimonie optimalizační.
Vstup: Úplný graf G=(V,E), ohodnocení hran d:E → R + Výstup: Nejkratší Hamiltonovská cesta HC v grafu G Najdi minimální kostru K grafu G Pokud K neobsahuje.
Vyhledávání vzorů (template matching)
Les, stromy a kostry Kružnice: sled, který začíná a končí ve stejném vrcholu, ostatní vrcholy jsou různé Souvislý graf: mezi každými dvěma vrcholy existuje.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Neuronové sítě.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku Prezentace 10 min. ( po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování.
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Obecně použitelné odvození
Jak se pozná nejlepší strom?
Dvourozměrné geometrické útvary
ZAL – 6. cvičení 2016.
Dvourozměrné geometrické útvary
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
Výpočetní složitost algoritmů
Jak získáváme znaky pomocí sekvenace unikátních lokusů
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak se pozná nejlepší strom?
Algoritmizace a datové struktury (14ASD)
Transkript prezentace:

Obecně použitelné odvození Jukes-Cantor Obecně použitelné odvození A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 G u/3 u/3 -u u/3 C u/3 u/3 u/3 -u T 4/3 ut 4/3 ut JC K2P D = ut = -3/4 ln(1- 4/3 p) D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q)

General time reversible P(t)=eQt, celková rychlost=1 pak D=t DALŠÍ MODELY GTR General time reversible + A G C T α ε β δ γ ζ Rovnovážné frekvence nukleotidů πA πC πG πT Parametry: frekvence (rychlost) záměn (αβγδεζ) a frekvence nukleotidů (πA πC πG πT) se odvozují z analyzovaných sekvencí zároveň s výpočtem D metodou maximum likelihood (přednáška 4. 4.). P(t)=eQt, celková rychlost=1 pak D=t

SITE HETEROGENEITY P(t) = eQt P(t) = erQt P(t) = ∫0 f(r) erQt r1 r2 r3 r4 r5 r6 P(t) = eQt P(t) = erQt Taxon A C C C T G G Taxon B A C T T G A ∞ P(t) = ∫0 f(r) erQt Jin a Nei model D = -3/4 α[1-(1- 4/3 p)-1/α] u/3 -u α=0,5 p=0,5 pak D=3 α=10 p=0,5 pak D=0,87

SITE HETEROGENEITY P(t) = eQt P(t) = erQt P(t) = ∫0 f(r) erQt r1 r2 r3 r4 r5 r6 P(t) = eQt P(t) = erQt Taxon A C C C T G G Taxon B A C T T G A ∞ P(t) = ∫0 f(r) erQt P(t) = 1/4 er1Qt + 1/4 er2Qt + 1/4 er3Qt + 1/4 er4Qt P(t) = 1/4 e0,0334Qt + 1/4 e0,2519Qt + 1/4 e0,8203Qt + 1/4 e2,8994Qt

JAK NAJÍT NEJLEPŠÍ STROM

Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

SKÓROVÁNÍ STROMŮ

Q = ∑ ∑wij (Dij - dij)2 NEJMENŠÍ ČTVERCE A B A C A D B C B D C D A B D n n i=1 j=1 C Skóre

KOLIK JE MOŽNÝCH STROMŮ? Počet možných topologií strmě roste

POČET TOPOLOGIÍ STRMNĚ ROSTE Pro zakořeněné topologie (2n-3)!! nezakořeněné topologie (2n-5)!! (2*5-3) = 3*5*7 = 105 Faktoriál lichých čísel Stáří vesmíru 4,7*1017 sekund, procesor 3,4*109 operací/s 1027 operací za dobu trvání vesmíru Počet zakořeněných topologií pro různé množství taxonů

JAK PROHLEDÁVAT STROMOVÝ PROSTOR Vztahuje se nejen na maximální parsimonii, ale na téměř všechny nealgoritmické metody (nejmenší čtverce, minimální evoluce, maximum likelihood...)

HEURISTICKÉ HLEDÁNÍ

Nearest-Neighbour Interchange JAK KRÁČET? NNI Nearest-Neighbour Interchange

Subtree Pruning and Regrafting JAK KRÁČET? SPR Subtree Pruning and Regrafting

Tree Bisection and Reconnection JAK KRÁČET? TBR Tree Bisection and Reconnection

Heuristické hledání 11 10 8

KDE ZAČÍT A NEBÝT ÚPLNĚ MIMO? Taxon addition Pořadí v jakém jsou taxony přidávány ovlivní výsledek

GLOBÁLNÍ A LOKÁLNÍ MAXIMA Globální maximum je zde Začne zde Skončí zde

GLOBÁLNÍ A LOKÁLNÍ MAXIMA Globální maximum je zde

BRANCH AND BOUND SEARCH

BRANCH AND BOUND SEARCH

MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG

MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG G G G Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG G G G G C C C C G C G C

2 2 1 MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 2 2 G G G G G G G G C C C C G 1 C G C G C

1 2 2 MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 1 2 G A G A G A G G G A A G 2 G A A A A G

MAXIMÁLNÍ PARSIMONIE Fitchův algoritmus {C} {A} {C} {C} {A} {G} {C, A}* {C} {A, G}* {C, A, G}* {C, A}

MAXIMÁLNÍ PARSIMONIE Fitchův algoritmus {T} {G} {T} {T} {G} {C} {T, G}* {T} {G, C}* {T, G, C}* {T, G} XYXXYZ = 3 změny YXXXXX = 1 změna

MAXIMÁLNÍ PARSIMONIE Varianty parsimonie Camin-Sokal parsimonie – známe původní stav, změny možné jen jedním směrem, reverze se nedějí (SINE elementy) Dollo parsimonie – daný (komplexní) znak může vzniknou jen jednou, ztrácet se může opakovaně v různých liniích Vážená parsimonie – různým typům záměn přisuzuje různou váhu

MAXIMÁLNÍ PARSIMONIE Parsimonie je znaková metoda – vychází přímo ze znaků (např. pozic alignmentu). Skóre stromu nám říká, jaký je nejmenší počet změn ve všech znacích, ke kterému muselo dojít, pokud by evoluce proběhla podle dané topologie. Parsimonie nebere v úvahu substituční saturaci. Pravděpodobnost záměny nezávisí na délce větve. Základní varianta parsimonie považuje všechny typy změn za stejně pravděpodobné.

INCONSISTENCE PARSIMONIE q A C B D Uvažujme, že evoluce proběhla podle stromu vlevo. Na stromu se vyskytovaly větve dvou různých délek, kterým odpovídají pravděpodobnosti změny p a q.

LONG BRANCH ATTRACTION p B q q q D p C A C p p q q q B D