1 MUDIM Mgr. Petr Šimeček
2 Nevíte, co dělat s daty?
3 Veličin je příliš mnoho?
4 Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?
5 Použijte MUDIM!
6 Přehled MUDIM co to je jak je implementován jak a nač se používá Aplikace na konkrétní data heuristiky na hledání modelu
7 Co je to MUDIM? Systém pro praktické výpočty v oblasti mnohorozměrných diskrétních modelů využívající předchozí teorii. Objektově orientovaný systém. Volně šiřitelný, neustále se vyvíjející kód.
8 Z pohledu programátora Jádro systému je napsáno v C++ rychlost použitelnost pod různými systémy (UNIX, Windows) OOP Front-endem je prostředí R (MUDIM je balíček pro R) snadná ovladatelnost možnost využití funkcí jazyka R
9 Z pohledu uživatele
10 Příklad datového souboru. VEK;BMI.CLASS;CHLST.LEVEL;DIABET ;PIVO.MN;HT;LIH.MN;SMOKING;TRI G.LEVEL;VINO.MN;HYPLIP 3;1;2;2;1;2;9;3;1;4;2 1;2;1;2;1;1;7;1;1;5;2 2;3;2;2;2;2;8;1;1;5;2 4;1;2;2;2;1;7;3;1;4;2 1;3;3;2;2;2;7;1;3;4;2 1;1;2;2;1;2;7;3;2;5;2 3;2;2;2;1;2;8;3;1;5;2...
11 Typy distribucí TabulkaModelData Distribuce
12 Co MUDIM zatím umí? Načtení a analýza dat, popis dat jako XML. Marginalizace. Výpočet entropie, KL-divergence, sdružené informace. Sestavení modelu. Převod modelu zpět na kontingenční tabulku.
13 Aplikace na data: Medicínská data (VDHT) z EuroMISE: 184 pacientů 11 sledovaných proměnných věk (4) BMI (3) cholesterol (3) diabetes (2) konzumace piva (3) hypertenze (2) konzumace lihovin (3) kouření (3) triglyceridy (3) konzumace vína (3) hyperlipidemie (2)
14 Marginály o 2 proměnných seřazené podle informace 1 PIVO.MN VINO.MN LIH.MN VINO.MN PIVO.MN SMOKING TRIG.LEVEL VINO.MN SMOKING VINO.MN BMI.CLASS LIH.MN SMOKING TRIG.LEVEL BMI.CLASS VINO.MN BMI.CLASS TRIG.LEVEL PIVO.MN LIH.MN LIH.MN TRIG.LEVEL BMI.CLASS CHLST.LEVEL CHLST.LEVEL TRIG.LEVEL
15 Marginály o 2 proměnných seřazené podle p-hodnoty PIVO.MN VINO.MN LIH.MN VINO.MN PIVO.MN SMOKING TRIG.LEVEL VINO.MN SMOKING VINO.MN HT HYPLIP BMI.CLASS LIH.MN SMOKING TRIG.LEVEL BMI.CLASS HT BMI.CLASS VINO.MN BMI.CLASS TRIG.LEVEL PIVO.MN LIH.MN LIH.MN TRIG.LEVEL
16 Marginály o 3 proměnných seřazené podle informace PIVO.MN LIH.MN VINO.MN PIVO.MN SMOKING VINO.MN BMI.CLASS LIH.MN VINO.MN PIVO.MN TRIG.LEVEL VINO.MN BMI.CLASS PIVO.MN VINO.MN LIH.MN TRIG.LEVEL VINO.MN LIH.MN SMOKING VINO.MN VEK LIH.MN VINO.MN CHLST.LEVEL PIVO.MN VINO.MN VEK PIVO.MN VINO.MN
17 DAG model (HUGIN, vylepšený PC algoritmus)
18 UG model (MIM, maximalizace AIC přes určitou množinu modelů)
19 MUDIM–hledání modelu jednoduché metody založené na skládání modelu z dvojic či trojic s maximální informací rozmanité heuristiky založené na maximalizaci informace statistických testech a kritériích p-hodnota inf. kritéria: BIC, AIC
20 Jednoduché metody: 1) Nagenerují se všechny marginály o daném (nízkém) počtu proměnných. 2) Seřadí se podle informace a vybere se několik „nejlepších“ 1,…, n 3) Z nich se poskládá model (buďto přímo nebo zkoušíme všechny možné permutace): i 1 ► … ► i n Informace v modelu z dat VDHT: dvojice: 0, (13%) trojice: 0, (23%)
21 Heuristika prof. Jirouška: Vstup: Seznam distribucí 1 (x K 1 ),…, n (x K n ) Počáteční proměnná X m Inicializace: L:={m}; k:=1; Výpočet: 1) Nalezni maximum MI i ( X j,X K i ⋂ L ) přes všechna i=1,…,n a j ∈ K i ∖ L 2) k := j (X (K i ⋂ L) ⋃ {j} ) 3) k:=k+1; L:=L ⋃ {j}; Výstup: 1 ► … ► k
22 Výsledek pro data VDHT: "PIVO.MN" "PIVO.MN""VINO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "PIVO.MN""VINO.MN" "SMOKING" "PIVO.MN""LIH.MN" "BMI.CLASS" "VINO.MN""BMI.CLASS" "TRIG.LEVEL" "PIVO.MN""BMI.CLASS" "VEK" "BMI.CLASS""VEK" "CHLST.LEVEL" "BMI.CLASS""TRIG.LEVEL" "HT" "LIH.MN" "HT""HYPLIP" "VEK""CHLST.LEVEL" "DIABET" Informace v modelu z dat VDHT: (28%)
23 Ekvivalentní Bayesovská síť
24 Heuristika založená na p-hodnotě "PIVO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "VINO.MN" "PIVO.MN" "SMOKING" "PIVO.MN" "VINO.MN" "TRIG.LEVEL" "VINO.MN" "SMOKING" "HT" "HYPLIP" "BMI.CLASS" "LIH.MN" "HT" Informace v modelu z dat VDHT: (18%)
25 Ekvivalentní Bayesovská síť
26 Děkuji za pozornost.