Dva vybrané problémy z oblasti struktur podmíněné nezávislosti Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

GENEROVÁNÍ PSEUDONÁHODNÝCH ČÍSEL
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
Statistická indukce Teorie odhadu.
Fakulta životního prostředí Katedra informatiky a geoinformatiky
MARKOVSKÉ ŘETĚZCE.
Lineární funkce a její vlastnosti
A5M33IZS – Informační a znalostní systémy Datová analýza I.
Základy informatiky přednášky Kódování.
Škola:Gymnázium Václava Hlavatého, Louny, Poděbradova 661, příspěvková organizace Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Inovace výuky Číslo.
ADT Strom.
Lineární algebra.
Úvod do Teorie množin.
Teorie pravděpodobnosti
Optimalizační úlohy i pro nadané žáky základních škol
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Fakulta životního prostředí Katedra informatiky a geoinformatiky
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Teorie informace.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
ORIENTOVANÉ GRAFY V této části se seznámíme s následujícími pojmy:
Formulace a vlastnosti úloh lineárního programování
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Nechť (, , P) je pravděpodobnostní prostor:
1. Derivace Derivace je míra rychlosti změny funkce.
POČET PRAVDĚPODOBNOSTI
Matematické metody v ekonomice a řízení II 4. Metoda PERT
VLASTNOSTI GRAFŮ Vlastnosti grafů - kap. 3.
Vybraná rozdělení spojité náhodné veličiny
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
ZÁKLADY TEORIE PRAVDĚPODOBNOSTI
Relace, operace, struktury
Základy zpracování geologických dat
Množiny.
Automaty a gramatiky.
Vektorové prostory.
Barvení grafů Platónská tělesa
II. Analýza poptávky Přehled témat
Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce
Normální rozdělení a ověření normality dat
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Metody sociálního výzkumu 5. blok Denní studium LS 2007/
(Popis náhodné veličiny)
Doc. Josef Kolář (ČVUT)Prohledávání grafůGRA, LS 2010/11, Lekce 4 1 / 15Doc. Josef Kolář (ČVUT)NP-úplné problémyGRA, LS 2012/13, Lekce 13 1 / 14 NP-ÚPLNÉ.
Využití Hilbertovy báze k ověření shodnosti strukturálních a kombinatorických imsetů Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
REPREZENTACE 3D SCÉNY JANA ŠTANCLOVÁ Obrázky (popř. slajdy) převzaty od RNDr. Josef Pelikán, CSc., KSVI MFF UK.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Hynek Jemelík Gymnázium, Brno, tř. Kpt. Jaroše 14.
Funkce. Funkce - definice Funkce je zobrazení, které každému číslu z podmnožiny množiny reálných čísel R přiřazuje právě jedno reálné číslo. Funkci značíme.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Definiční obor a obor hodnot
Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky
C-síť (circle – net) Petr Kolman.
Monte Carlo Typy MC simulací
Spojitá a kategoriální data Základní popisné statistiky
1 Lineární (vektorová) algebra
Lineární funkce a její vlastnosti
ANALÝZA A KLASIFIKACE DAT
Grafy kvadratických funkcí
Induktivní statistika
Definiční obory. Množiny řešení. Intervaly.
Grafy kvadratických funkcí
Transkript prezentace:

Dva vybrané problémy z oblasti struktur podmíněné nezávislosti Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)

1) Úvod do stuktur PN 2) Praxe: Bayesovské sítě 3) Teorie: Problém shodnosti množin strukturálních a kombinatorických imsetů

Motivace – podmíněná nezávislost  Nepodmíněná nezávislost: Diskrétní n.v. Spojité n.v.  Podmíněná nezávislost: Diskrétní n.v. Spojité n.v.

Motivace – podmíněná nezávislost N náhodných veličin X 1, X 2, …, X N a nějaké jejich rozdělení P Seznam všech podmíněných i nepodmíněných nezávislostí mezi nimi

Popis PN pomocí seznamu  Seznam musí splňovat určitá pravidla, např.  Tudíž je zbytečné skladovat v paměti celý seznam!  Neexistuje konečný počet pravidel schopný rozhodnout, zda něco je či není seznam.  Seznam je nepřehledný.

Popis PN pomocí grafů X1 X2 X3 X4X5 X6 X1X1 X3X3 X2X2 X4X4

Popis PN pomocí grafů  Výhody: Názornost, čitelné i pro laika Každý graf je pravděpodobnostně reprezentovatelný (dokonce diskrétní n.v.)  Nevýhody: Ne každé rozdělení je reprezentovatelné pomocí grafů (početní argument)

Popis PN pomocí imsetů Seznam PN popíšeme pomocí zobrazení z P({1,2,…,N}) do Z Př. pro N=3 (3 náhodné veličiny) {}{1}{2}{3}{1,2}{1,3}{2,3}{1,2,3}

Popis PN pomocí imsetů  Nevýhody: Méně intuitivní, těžší vyčíst nezávislosti Ne každý imset je reprezentovatelný Vyšší paměťová náročnost (oproti grafu)  Výhody: Libovolný seznam PN reprezentovatelný imsetem Méně paměťově náročné než seznam PN Grafovou reprezentaci lze na imsety snadno převést

Popis PN pomocí orientovaných acyklických grafů

Příklad – zavlažování Prší Mokrá tráva Zavla žovač Oblačno

Příklad – zavlažování OBL AKA TF 0.5 Prší Mokrá tráva Zavla žovač Oblačno

Příklad – zavlažování OBL AKA TF 0.5 DÉŠŤTF O=T O=F Prší Mokrá tráva Zavla žovač Oblačno ZÁVLA HA TF O=T O=F0.5

Příklad – zavlažování ZÁVLAH A TF O=T O=F0.5 OBL AKA TF 0.5 TRÁVATF P=TZ=T P=TZ=F P=FZ=T P=FZ=F01 PRŠÍTF O=T O=F Prší Mokrá tráva Zavla žovač Oblačno

Příklad – zavlažování P T Z O Počet parametrů nemusí exponenciálně růst s počtem náhodných veličin! Závisí na počtu rodičů pro jednotlivé vrcholy.

1. Použití – Propagation of evidence Jaká je pst, že je oblačno, když je mokrá tráva? Prší Mokrá tráva Zavla žovač Oblačno

1. Použití – Propagation of evidence Jaká je pst, že je oblačno, když je mokrá tráva? Prší Mokrá tráva Zavla žovač Oblačno

2. Použití – Odhad parametrů ZÁVLA HA TF O=T?? O=F?? OBL AKA TF ?? PRŠÍTF O=T?? O=F?? Prší Mokrá tráva Zavla žovač Oblačno TRÁVATF P=TZ=T?? P=TZ=F?? P=FZ=T?? P=FZ=F??

3. použití – Odhad závislosti velečin OBLAČNOPRŠÍZÁVLAHAMOKRÁ TRÁVA TRUEFALSE TRUEFALSE TRUEFALSETRUEFALSE TRUEFALSE TRUE FALSETRUE FALSETRUEFALSE …………

Odhad grafu Známe:  data: nezávislé realizace BS  někdy příčinné uspořádání Neznáme:  graf (strukturu PN)  podmíněné pravděpodobnosti Řešení:  Testy PN  maximalizace kritéria (AIC, BIC, apostiorní pst.)

Příklad – 1.LF UK

Markovsky ekvivalentní třída grafů Některé šipky mohou být otočeny, aniž by došlo ke změně struktury PN. Na základě dat můžeme nalézt pouze třídu grafů (závislostních modelů). Déšť Mokrá Tráva Déšť Mokrá Tráva

Problém s počtem pozorování  Teorie asymtoticky algoritmy fungují Janžura, Nielsen (2003) - WUPES pozorování pro 10 binárních veličin  Praxe v medicíně – pacientů přesto jsou BS běžně používány

Structure Learning - Simulation  3 binární veličiny, m od 100 do 1000  pro každé m, udělej 100x nageneruj BS nageneruj vzorek o velikosti m použij algoritmus na odhad grafu  spočti pro každé m kolikrát ses trefil To by mělo dát odpověď na otázku: “Existuje šance na odhad správného modelu na základě takto malého počtu dat?”

To Do List:  software: free, open source, easy to use, fast, separated API  more simulation: theory x practice  popularization of structural learning  Czech literature: maybe my PhD. thesis

Literatura:  Castillo E. et al. (1997): Expert Systems and Probabilistic Network Models, Springer Verlag.  Neapolitan R. (2003): Learning Bayesian Networks, Prentice Hall  Neapolitan R. E. (2003): Learning Bayesian Networks, Prentice Hall.  Janžura N., Nielsen J. (2003): A numerical method for learning Bayesian Networks from Statistical Data, WUPES.

Popis PN pomocí imsetů

Elementární imsety E N Elementárním imsetem rozumíme zobrazení, jež přiřadí 1 množinám a -1 množinám a a nulu ostatním prvkům z potenční množiny, přičemž {i},{j} a C jsou disjunktní podmnožiny množiny {1,…,N}.

Příklad - E 3 {}{1}{2}{3}{1,2}{1,3}{2,3}{1,2,3}

Kombinatorické imsety C N Kombinatorickým imsetem nazveme každou nezápornou celočíselnou kombinaci elementárních imsetů. {}{1}{2}{3}{1,2}{1,3}{2,3}{1,2,3}

Strukturální imsety S N Strukturálním imsetem nazveme každou nezápornou reálnou kombinaci elementárních imsetů, jež je imsetem. Zjevně každý kombinatorický imset je i strukturálním imsetem neboli

Platí C N = S N ??? Existuje strukturální imset, který by nebyl kombinatorický? Otázku zodpovíme pro N<5, pro jiná N zatím není známa. Tato otázka je klíčovým problémem reprezentace pomocí imsetů.

Příklad na to, že by nemuselo E’ = {[1,2],[2,1]} nezáporná reálná kombinace (S) 1/3*[1,2] + 1/3*[2,1] = [1,1] ovšem [1,1] zjevně nelze získat jako nezápornou celočíselnou kombinaci (C)

Stupeň imsetu Stupeň imsetu je součtem koeficientů v kombinaci elementárních imsetů: Př.:u = 1*e 1 + 2*e 2 + 0,5*e 3 deg(u) = 3,5 Platí:

Postup ověření: Konvexní kužel generovaný E N lze popsat jako průnik jistých poloprostorů, které pro N<6 spočteme Fourier-Motzkinovou eleminací. Imsety S N jsou celočíselnými body v tomto kuželu. Stačí je tedy (po jednotlivých stupních) projít a ujistit se, že všechny jsou součtem imsetu stupně o 1 nižšího a elementárního imsetu.

Trik – celočíselná Hilbertova báze Důkaz v [Schrivjer] nám zaručuje, že pokud nějaký imset v S N - C N existuje, potom alespoň jeden takovýto leží v mnohostěnu:

Výsledky  N=3 Bez problémů v několika sekundách ověříme, že C 3 = S 3  N=4 Je potřeba využít dalších vlastností strukturálních imsetů, opět C 4 = S 4  N=5 Víme pouze to, že pokud existuje prvek Hilbertovy báze mimo E 5, pak je jeho stupeň alespoň 5

Literatura:  Studený M. (2001): On the mathematical description of probabilistic conditional independence structures, doktorská práce, ÚTIA AV ČR.  Studený M. (2004): On Probabilistic Independence Structures, Springer.  Studený, Bouckhaert, Kočka (2000): Extreme Supermodular Set Functions, výzkumná zpráva, UTIA AV ČR.  Schrijver A. (1998): Theory of Linear and Integral Programming, John Wiley.