JAK NAJÍT NEJLEPŠÍ STROM

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Grafové algoritmy.
LOGISTICKÉ SYSTÉMY 14/15.
VÝPOČET OC.
Obecně použitelné odvození
OBECNÉ OPTIMALIZAČNÍ MODELY
Prohledávání stavového prostoru
Aplikace teorie grafů Základní pojmy teorie grafů
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Některé pojmy teorie grafů I. Příklad: log p ABC = u 0 + u A + u B + u C + u AB + u AC A B C.
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Algoritmy I Cvičení č. 4.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Metody řazení s lineární časovou složitostí
Heuristické metody Heuristiky dělíme na primární a duální.
Systémy pro podporu managementu 2
Teorie psychodiagnostiky a psychometrie
Jak se pozná nejlepší strom?
Shluková analýza.
MOLEKULÁRNÍ TAXONOMIE
1) Určete odchylku přímek AC a CC´
Matice.
Využití v systematické biologii
ČÍSELNÉ SOUSTAVY Desítková Dvojková.
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
KIV/PRO Cvičení Otrávené fazole Mějme pytlíků fazolí – V každém je 1717 – fazolí – Jeden pytlík obsahuje otrávené fazole.
Saatyho metoda – určuje, kolikrát je jedno kritérium významnější než druhé – zobecnění, více rozlišuje mezi kritérii Počet bodů Popis 1 Kritéria stejně.
KIV/PRO Cvičení Částečný součet v posloupnosti Najděte maximální částečný součet v posloupnosti Vstup: – Reálná čísla Výstup: – Maximální.
Shluková analýza.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ
Bioinformatika Predikce genů, Fylogenetická analýza
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Výpočet plochy pomocí metody Monte Carlo
Rozhodovací stromy.
Odhad metodou maximální věrohodnost
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Zpracování neurčitosti Fuzzy přístupy RNDr. Jiří Dvořák, CSc.
Rozpoznávání v řetězcích
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
rozdělení metod využitelnost jednotlivých metod náročnost metod používání metod perspektivy.
Časová analýza stochastických sítí - PERT
Opakování lekce 4,5,
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
5. Kvantitativní kladistika kódování znaku pro kladistickou analýzu algoritmy konstrukce fylogenetických stromů na základě maximální parsimonie optimalizační.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Vstup: Úplný graf G=(V,E), ohodnocení hran d:E → R + Výstup: Nejkratší Hamiltonovská cesta HC v grafu G Najdi minimální kostru K grafu G Pokud K neobsahuje.
Vyhledávání vzorů (template matching)
Les, stromy a kostry Kružnice: sled, který začíná a končí ve stejném vrcholu, ostatní vrcholy jsou různé Souvislý graf: mezi každými dvěma vrcholy existuje.
FEL ČVUT, katedra ekonomiky, manažerství a humanitních věd © Oldřich Starý, 2012 Finanční management Analýza projektu.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Hledání silně souvislý komponent Silně souvislá komponenta orientovaného grafu G= (V,E) je maximální množina uzlů UV taková že ∀ u,v ∈ V : u je dosažitelné.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Obecně použitelné odvození
Množina bodů dané vlastnosti
Jak se pozná nejlepší strom?
ZAL – 6. cvičení 2016.
Soustava dvou lineárních rovnic se dvěma neznámými
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
Algoritmizace a programování
Jak získáváme znaky pomocí sekvenace unikátních lokusů
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak se pozná nejlepší strom?
Soustava dvou lineárních rovnic se dvěma neznámými
Transkript prezentace:

JAK NAJÍT NEJLEPŠÍ STROM

Jak se pozná nejlepší strom? Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody).

SKÓROVÁNÍ STROMŮ

NEJMENŠÍ ČTVERCE Q = ∑ ∑wij (Dij - dij)2 A B A C A D B C B D C D A B D n n i=1 j=1 C Skóre

MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG

MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG G G G Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG G G G G C C C C G C G C

2 2 1 MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 2 2 G G G G G G G G C C C C G 1 C G C G C

1 2 2 MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG Postup maximální parsimonie předvedu na příkladu z předchozího slidu. Příbuzenské vztahy mezi 4 taxony můžeme znázornit 3 způsoby (stromy, topologiemi). Která odpovídá skutečnosti? MP považuje za pravdivou tu, která vysvětlí přítomnost znaků pomocí nejmenšího počtu mutací. Ukážeme si to na 1 znaku. Ten nabývá u našich taxonů těchto podob. Předpokládejme, že u předků se vyskytovaly G…. MAXIMÁLNÍ PARSIMONIE ACCTGGATGC ACTTGAATGC ACTTCGATGG ACTTCAAGGG 1 2 G A G A G A G G G A A G 2 G A A A A G

MAXIMÁLNÍ PARSIMONIE Fitchův algoritmus {C} {A} {C} {C} {A} {G} {C, A}* {C} {A, G}* {C, A, G}* {C, A}

MAXIMÁLNÍ PARSIMONIE Fitchův algoritmus {T} {G} {T} {T} {G} {C} {T, G}* {T} {G, C}* {T, G, C}* {T, G} XYXXYZ = 3 změny YXXXXX = 1 změna

MAXIMÁLNÍ PARSIMONIE Parsimonie a délky větví

MAXIMÁLNÍ PARSIMONIE Varianty parsimonie Camin-Sokal parsimonie – známe původní stav, změny možné jej jedním směrem, reverze se nedějí (SINE elementy) Dollo parsimonie – daný (komplexní) znak může vzniknou jen jednou, ztrácet se může opakovaně v různých liniích Vážená parsimonie – různým typům záměn přisuzuje různou váhu

MAXIMÁLNÍ PARSIMONIE Parsimonie je znaková metoda – vychází přímo ze znaků (např. pozic alignmentu). Skóre stromu nám říká, jaký je nejmenší počet změn ve všech znacích, ke kterému muselo dojít, pokud by evoluce proběhla podle dané topologie. Parsimonie nebere v úvahu substituční saturaci. Základní varianta parsimonie považuje všechny typy změn za stejně pravděpodobné.

JAK PROHLEDÁVAT STROMOVÝ PROSTOR Vztahuje se nejen na maximální parsimonii, ale na téměř všechny nealgoritmické metody (nejmenší čtverce, minimální evoluce, maximum likelihood...)

POČET MOŽNÝCH TOPOLOGIÍ STRMNĚ ROSTE

POČET TOPOLOGIÍ STRMNĚ ROSTE Pro zakořeněné topologie (2n-3)!! nezakořeněné topologie (2n-5)!! (2*5-3) = 3*5*7 = 105 Faktoriál lichých čísel Počet zakořeněných topologií pro různé množství taxonů

HEURISTICKÉ HLEDÁNÍ

KDE ZAČÍT A NEBÝT ÚPLNĚ MIMO? Taxon addition Pořadí v jakém jsou taxony přidávány ovlivní výsledek

Nearest-Neighbour Interchange JAK KRÁČET? NNI Nearest-Neighbour Interchange

Subtree Pruning and Regrafting JAK KRÁČET? SPR Subtree Pruning and Regrafting

Tree Bisection and Reconnection JAK KRÁČET? TBR Tree Bisection and Reconnection

Heuristické hledání 11 10 8

GLOBÁLNÍ A LOKÁLNÍ MAXIMA Globální maximum je zde Začne zde Skončí zde

GLOBÁLNÍ A LOKÁLNÍ MAXIMA Globální maximum je zde

BRANCH AND BOUND SEARCH

BRANCH AND BOUND SEARCH

INCONSISTENCE PARSIMONIE q A C B D Uvažujme, že evoluce proběhla podle stromu vlevo. Na stromu se vyskytovaly větve dvou různých délek, kterým odpovídají pravděpodobnosti záměn p a q.

INCONSISTENCE PARSIMONIE Znaky, které zjišťujeme mohou nabývat dvou forem 0 a 1. Pro každou (ze 3 možných) topologií “hlasuje” jeden vzor znaků A – X B – X C – Y D – Y A – X B – Y C – X D – Y A – X B – Y C – Y D – X A (X) C (Y) A (X) A (X) C (Y) B (Y) B (X) D (Y) D (Y) D (X) B (Y) C (X) Parsimonie vybere topologii, jejíž vzor v množině znaků převáží

INCONSISTENCE PARSIMONIE Pravděpodobnost vzoru 0011 bude následující 1 p p 1 1 ½(1-p)(1-q)(1-q)pq q q q 1

INCONSISTENCE PARSIMONIE Pravděpodobnost vzoru 0011 bude následující 1 p p 1 1 ½(1-p)(1-q)(1-q)pq ½(1-p)(1-q)q(1-p)(1-q) q q q 1

INCONSISTENCE PARSIMONIE Pravděpodobnost vzoru 0011 bude následující 1 p p 1 1 ½(1-p)(1-q)(1-q)pq ½(1-p)(1-q)q(1-p)(1-q) q q q 1

INCONSISTENCE PARSIMONIE Pravděpodobnost vzoru 0011 bude následující 1 p p 1 1 ½(1-p)(1-q)(1-q)pq ½(1-p)(1-q)q(1-p)(1-q) ½pq(1-q)pq q q q 1

INCONSISTENCE PARSIMONIE Pravděpodobnost vzoru 0011 bude následující 1 p p 1 1 ½(1-p)(1-q)(1-q)pq ½(1-p)(1-q)q(1-p)(1-q) ½pq(1-q)pq ½pq(1-q)(1-p)(1-q) q q q 1 P1100= ½ [(1-p)(1-q)2pq+ (1-p) 2(1-q) 2 q+ p 2 q 3+ pq(1-q) 2(1-p)] PXXYY= [(1-p)(1-q)2pq+ (1-p) 2(1-q) 2 q+ p 2 q 3+ pq(1-q) 2(1-p)]

INCONSISTENCE PARSIMONIE A – X B – X C – Y D – Y A – X B – Y C – X D – Y A – X B – Y C – Y D – X A (X) C (Y) A (X) A (X) C (Y) B (Y) B (X) D (Y) D (Y) D (X) B (Y) C (X) PXXYY= [(1-p)(1-q)2pq+ (1-p) 2(1-q) 2 q+ p 2 q 3+ pq(1-q) 2(1-p)] PXYXY = …… PXYYX = …… PXYXY - PXYYX > 0

INCONSISTENCE PARSIMONIE A – X B – X C – Y D – Y A – X B – Y C – X D – Y A – X B – Y C – Y D – X A (X) C (Y) A (X) A (X) C (Y) B (Y) B (X) D (Y) D (Y) D (X) B (Y) C (X) PXXYY= [(1-p)(1-q)2pq+ (1-p) 2(1-q) 2 q+ p 2 q 3+ pq(1-q) 2(1-p)] PXYXY = …… PXYYX = …… PXXYY - PXYXY > 0 q(1-q) > p2

LONG BRANCH ATTRACTION p B q q q D p C A C p p q q q B D