Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
NEJKRATŠÍ CESTY MEZI VŠEMI UZLY
Obecně použitelné odvození
Stavový prostor. • Existují úlohy, pro které není k dispozici univerzální algoritmus řešení • různé hry • problém batohu, problém obchodního cestujícího.
Single Nucleotide Polymorphism
Lineární model posteriorní hustota pravděpodobnosti lineární model:
Aplikace teorie grafů Základní pojmy teorie grafů
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Některé pojmy teorie grafů I. Příklad: log p ABC = u 0 + u A + u B + u C + u AB + u AC A B C.
ADT Strom.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
Získávání informací Získání informací o reálném systému
Odhad genetických parametrů
Varianty výzkumu Kroky výzkumu Výběrový soubor
Jak se pozná nejlepší strom?
Firma a nejistota Aplikace rozhodování v podmínkách rizika a nejistoty na firmu Teorie firmy.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
TI 7.1 NEJKRATŠÍ CESTY Nejkratší cesty - kap. 6. TI 7.2 Nejkratší cesty z jednoho uzlu Seznámíme se s následujícími pojmy: w-vzdálenost (vzdálenost na.
ORIENTOVANÉ GRAFY V této části se seznámíme s následujícími pojmy:
MOLEKULÁRNÍ TAXONOMIE
Systémy pro podporu managementu 2
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Účel procedury: První a závazný krok jakékoli seriozní komparativní studie. Umožňuje vyloučit možnost, že distribuce studovaného znaku (vlastnosti, vzorce.
Lineární regrese.
Lineární regresní analýza
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Princip maximální entropie
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Odvození zarovnání více řetězců z párového zarovnání, SP-skóre Ondřej Kazík 2008.
JAK NAJÍT NEJLEPŠÍ STROM
Doc. Josef Kolář (ČVUT)Prohledávání grafůGRA, LS 2010/11, Lekce 4 1 / 15Doc. Josef Kolář (ČVUT)Prohledávání stavového prostoruGRA, LS 2013/14, Lekce 11.
Vstup: Úplný graf G=(V,E), ohodnocení hran d:E → R + Výstup: Nejkratší Hamiltonovská cesta HC v grafu G Najdi minimální kostru K grafu G Pokud K neobsahuje.
Vyhledávání vzorů (template matching)
„AFLP, amplified fragment length polymorphism“
Systémy. Definice systému Systém je množina navzájem souvisejících prvků a vztahů mezi nimi.
Ziheng Yang Bill Pearson Aidan Budd Nick Goldman.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
>gi| |ref|NC_ | Pan paniscus mitochondrion, complete genome GTTTATGTAGCTTACCCCCTTAAAGCAATACACTGAAAATGTTTCGACGGGTTTATATCACCCCATAAAC AAACAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCGTCCCGTGAG.
Typy výzkumu  Kvantitativní  Kvalitativní  Smíšený  První zkoumá kolik lidí si co myslí atd …  Druhý co přesně si lidé myslí  Třetí je kombinací.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Hledání silně souvislý komponent Silně souvislá komponenta orientovaného grafu G= (V,E) je maximální množina uzlů UV taková že ∀ u,v ∈ V : u je dosažitelné.
Teorie portfolia Markowitzův model.
Metodologie molekulární fylogeneze a taxonomie hmyzu Bi7770 Andrea Tóthová MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE CZ.1.07/2.2.00/
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
NEJKRATŠÍ CESTY Nejkratší cesty - kap. 6.
Obecně použitelné odvození
Varianty výzkumu Kroky výzkumu Výběrový soubor
R. Jakubíková J.Korbel J.Novák Monte Carlo.
Jak se pozná nejlepší strom?
STROMY A KOSTRY Stromy a kostry - odst. 3.2.
MODULARIZACE VÝUKY EVOLUČNÍ A EKOLOGICKÉ BIOLOGIE
Fylogenetická evoluční analýza
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Domácí úkol Pro molekulu morfinu (vzorec si najděte na Internetu) vytvořte: FSR (kořen = atom N) SAR SSSR Popište složitost jednotlivých kroků algoritmu.
Ústav lékařské informatiky, 2. LF UK
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
příklad: hody hrací kostkou
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Jak se pozná nejlepší strom?
7. Kontingenční tabulky a χ2 test
Testování hypotéz - pojmy
Transkript prezentace:

Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza (distanční metody). Strom, který nejlépe „vysvětlí“ alignment našich sekvencí. Jak se pozná nejlepší strom?

HEURISTICKÉ HLEDÁNÍ

LONG BRANCH ATTRACTION A C B D AC BD p p p p q q q q qq Maximální parsimonie je nekonzistentní metoda pp q qq A C BD

PRINCIP LIKELIHOODU Rádi bychom věděli jaká je pravděpodobnost hypotézy (stromu) při datech (alignmentu), která pozorujeme. P (Hypotézy|Data) = P(H|D) Bayéský teorém říká P(H|D) = P(H) x P (D|H) / P(D) P (D|H) …… to je likelihood hypotézy (pravděpodobnost, že bychom pozorovali skutečná data pokud by hypotéza byla pravdivá) Hmm, divný…. a nemůžeš nám to ukázat na příkladu

O PATRO VÝŠ SLYŠÍTE ZVUKY… Co to ____ může být? Kamarád povídá: „Máš na půdě skřítky a hrajou tam kuželky“. Vy na to:„Skřítci jsou jen v pohádkách“. On na to: „No jo, ale kdyby tam byli a hráli, znělo by to přesně takhle“. Vy: „Monent, skočím si pro kalkulačku“

PRO SKŘÍTKOVOU HYPOTÉZU PLATÍ… P(H) = P (Skřítci co umí hrát kuželky ) = velmi malá Předchozí znalosti nám říkají, že pravděpodobnost existence skřítků (natož aby hrávali kuželky) je velmi malá Přesto…. P(D|H) = P( Slyšet zvuky kdyby skřítci hráli ) = velká Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… P(H|D) = P(H) x P (D|H) = malá x velká = malá Např. 0, x 1,0 = 0,000001

JEŠTĚ NĚCO O LIKELIHOODU… Pokud nemáme žádné informace o apriorních pravděpodobnostech hypotéz, které testujeme, pak likelihood P(D|H) je způsob, jak porovnávat alternativní hypotézy. Pokud P(D|H 1 ) > P(D|H 2 ) potom dáme přednost hypotéze H 1 Příklad: Pokud víte, že na půdě je hodně pavouků a kun [ P(H pavouci ) ~P(H kuny ) ] a slyšíte na půdě zvuky, pravděpodobnost, že byste slyšeli zvuky běhajících pavouků je MENŠÍ než pravděpodobnost, že byste slyšeli zvuky běhajících kun. Jinými slovy P(Hluky|H pavouci ) << P(Hluky|H kuny ) Kdyby skřítci byli a hráli, témeř jistě byste je slyšeli. Ale… Likelihood kun dělajících na půdě hluk je vyšší než likelihood pavouků dělajících hluk

JAK POČÍTAT LIKELIHOOD A POROVNÁVAT HYPOTÉZY Hypotéza…pravděpodobnost, že při hodu mincí padne panna je 0,4 ( p=0,4 ) Potřebujeme data: PPOOPOPPOOO Spočítejme likelihood…. Pravděpodobnost že se stane A a B P A&B = P A x P B Pravděpodobnost že se stane A nebo B P A nebo B = P A + P B

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t)

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t)

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(C|T,t)…..

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: Jukes-Cantor Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(C|T,t)….. P ii = ¼ + ¾ e -ut P ij = ¼ - ¼ e -ut

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) + P(C|C,t) + P(C|T,t)….. A G C T α εβ δ γ ζ

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR Vzdálenost (délka větve ) A B t KONEČNĚ FYLOGENEZE L = P(A|C,t) a P(C|C,t) a P(C|T,t)….. P(A|C,t) = e δt P(C|C,t) = e -(ε+α+δ)t P(C|T,t) = e αt

STROMY Velmi zjednodušený příklad Jen dva znaky 0 a 1 a na větvích platí následující pravděpodobnosti P 0->1 = 0.1 a P 0->0 = 0.9 P 1->0 = 0.1 a P 1->1 = 0.9 Jaká je pravděpodobnost následujícího scénáře se 3 druhy a 2 pozicemi alignmentu. Druh A 0 0 Druh B 1 0 Druh C 1 0

STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 CBA CBA 0 0 Pro jednoduchost předpokládejme, že předek měl 0 nebo 0,9 0,1 0,9 0,1 0,9 P cesta1 = P 0->0A a P 0->1BC a P 1->1B a P 1->1C P cesta1 = 0,9 x 0,1 x 0,9 x 0,9 = 0,0729 P cesta2 = P 0->0A a P 0->0BC a P 0->1B a P 0->1C P cesta2 = 0,9 x 0,9 x 0,1 x 0,1 = 0,0081 Likelihood tohoto stromu pro pozici 1 je P cesta1 + P cesta2 = 0,081 Pravděpodobnost že se stane A a B P A&B = P A x P B Pravděpodobnost že se stane A nebo B P A nebo B = P A + P B

STROMY Druh A 0 0 Druh B 1 0 Druh C 1 0 CBA CBA 0 1 Pro jednoduchost předpokládejme, že předek měl 0 nebo 0,9 0,1 0,9 0,1 P cesta1 = P 0->0A a P 0->0BC a P 0->0B a P 0->0C P cesta1 = 0,9 x 0,9 x 0,9 x 0,9 = 0,6561 P cesta2 = P 0->0A a P 0->1BC a P 1->0B a P 1->0C P cesta2 = 0,9 x 0,1 x 0,1 x 0,1 = 0,0009 Likelihood tohoto stromu pro pozici 2 je P cesta1 + P cesta2 = 0,657 Likelihood tohoto stromu pro cely alignment je L 1 x L 2 = 0,053217

A 2 A 3 C 4 C 5 G γ β δ α SEKVENCE

Musíme to sčítat likelihoody všech možných kombinací (4 nukleotidy nebo 20 aminokyselin) na každém vnitřním uzlu AACCG p n o m = P(m = A) x P(n = A | m = A, B1) x … + P(m = C) x P(n = A | m = C, B1) x … … 4 4 členů! B1B2 B3B4 B5 B6 B7 B8 SEKVENCE P(A|C,B1) = e δt A G C T α εβ δ γ ζ π A π C π G π T

V parsimonii jsme brali v potaz pouze nevhodnější stavy na vnitřních uzlech. V likelihoodu musíme uvažovat všechny možnosti Používáme pravděpodobnostní substituční modely, které korigují na substituční saturaci Všímáme si délek větví (ovlivňuje pravděpodobnosti), pokaždé je musíme optimalizovat – to je velmi náročné 20 ROZDÍLY OPROTI PARSIMONII

HEURISTICKÉ HLEDÁNÍ

Likelihood vs. parsimonie Swofford et al,. Systematic Biology, 2001 LONG BRANCH ATTRACTION

Prob (H D) = Prob (H) Prob (D H) H BAYÉSKÁ METODA

T1 T2 Pravděpodobnost přechodu z T1 na T2 závisí na Prob (T2 D) Prob (T1 D) Rovnovážný stav MARCOV CHAIN MONTE CARLO

T1 T2 Rovnovážný stav Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu POSTERIORNÍ PRAVDĚPODOBNOSTI

26 Postup lze hodnotit vynesením likelihoodů do grafu lnL generace Burn-in Rovnovážná distribuce hypotéz (stromů) MARKOV CHAIN V AKCI

27 Občas může nastat problém (zejména u složitějších modelů, které si musí hrát s větším množstvím parametrů) lnL 0 generace sakra MARKOV CHAIN V AKCI

STATISTICKÁ PODPORA VĚTVENÍ

POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ