Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?

Podobné prezentace


Prezentace na téma: "1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?"— Transkript prezentace:

1 1 MUDIM Mgr. Petr Šimeček

2 2 Nevíte, co dělat s daty?

3 3 Veličin je příliš mnoho?

4 4 Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?

5 5 Použijte MUDIM!

6 6 Přehled MUDIM  co to je  jak je implementován  jak a nač se používá Aplikace na konkrétní data  heuristiky na hledání modelu

7 7 Co je to MUDIM? Systém pro praktické výpočty v oblasti mnohorozměrných diskrétních modelů využívající předchozí teorii. Objektově orientovaný systém. Volně šiřitelný, neustále se vyvíjející kód.

8 8 Z pohledu programátora Jádro systému je napsáno v C++  rychlost  použitelnost pod různými systémy (UNIX, Windows)  OOP Front-endem je prostředí R (MUDIM je balíček pro R)  snadná ovladatelnost  možnost využití funkcí jazyka R

9 9 Z pohledu uživatele

10 10 Příklad datového souboru. VEK;BMI.CLASS;CHLST.LEVEL;DIABET ;PIVO.MN;HT;LIH.MN;SMOKING;TRI G.LEVEL;VINO.MN;HYPLIP 3;1;2;2;1;2;9;3;1;4;2 1;2;1;2;1;1;7;1;1;5;2 2;3;2;2;2;2;8;1;1;5;2 4;1;2;2;2;1;7;3;1;4;2 1;3;3;2;2;2;7;1;3;4;2 1;1;2;2;1;2;7;3;2;5;2 3;2;2;2;1;2;8;3;1;5;2...

11 11 Typy distribucí TabulkaModelData Distribuce

12 12 Co MUDIM zatím umí? Načtení a analýza dat, popis dat jako XML. Marginalizace. Výpočet entropie, KL-divergence, sdružené informace. Sestavení modelu. Převod modelu zpět na kontingenční tabulku.

13 13 Aplikace na data: Medicínská data (VDHT) z EuroMISE: 184 pacientů 11 sledovaných proměnných  věk (4)  BMI (3)  cholesterol (3)  diabetes (2)  konzumace piva (3)  hypertenze (2)  konzumace lihovin (3)  kouření (3)  triglyceridy (3)  konzumace vína (3)  hyperlipidemie (2)

14 14 Marginály o 2 proměnných seřazené podle informace 1 PIVO.MN VINO.MN 0.1035639662 2 LIH.MN VINO.MN 0.1033253179 3 PIVO.MN SMOKING 0.0501680456 4 TRIG.LEVEL VINO.MN 0.0479919630 5 SMOKING VINO.MN 0.0407428609 6 BMI.CLASS LIH.MN 0.0406078729 7 SMOKING TRIG.LEVEL 0.0333677289 8 BMI.CLASS VINO.MN 0.0297638042 9 BMI.CLASS TRIG.LEVEL 0.0271423642 10 PIVO.MN LIH.MN 0.0263946970 11 LIH.MN TRIG.LEVEL 0.0261251669 12 BMI.CLASS CHLST.LEVEL 0.0247206356 13 CHLST.LEVEL TRIG.LEVEL 0.0230026513...

15 15 Marginály o 2 proměnných seřazené podle p-hodnoty PIVO.MN VINO.MN 0.0000001 LIH.MN VINO.MN 0.0000001 PIVO.MN SMOKING 0.0010023 TRIG.LEVEL VINO.MN 0.0014372 SMOKING VINO.MN 0.0047150 HT HYPLIP 0.0047559 BMI.CLASS LIH.MN 0.0048194 SMOKING TRIG.LEVEL 0.0153906 BMI.CLASS HT 0.0166960 BMI.CLASS VINO.MN 0.0270964 BMI.CLASS TRIG.LEVEL 0.0406237 PIVO.MN LIH.MN 0.0455452 LIH.MN TRIG.LEVEL 0.0474556...

16 16 Marginály o 3 proměnných seřazené podle informace PIVO.MN LIH.MN VINO.MN 0.351246592 PIVO.MN SMOKING VINO.MN 0.218012608 BMI.CLASS LIH.MN VINO.MN 0.190633269 PIVO.MN TRIG.LEVEL VINO.MN 0.186371743 BMI.CLASS PIVO.MN VINO.MN 0.178264765 LIH.MN TRIG.LEVEL VINO.MN 0.170400340 LIH.MN SMOKING VINO.MN 0.167947946 VEK LIH.MN VINO.MN 0.165079855 CHLST.LEVEL PIVO.MN VINO.MN 0.158811169 VEK PIVO.MN VINO.MN 0.157437308...

17 17 DAG model (HUGIN, vylepšený PC algoritmus)

18 18 UG model (MIM, maximalizace AIC přes určitou množinu modelů)

19 19 MUDIM–hledání modelu jednoduché metody založené na skládání modelu z dvojic či trojic s maximální informací rozmanité heuristiky založené na  maximalizaci informace  statistických testech a kritériích  p-hodnota  inf. kritéria: BIC, AIC

20 20 Jednoduché metody: 1) Nagenerují se všechny marginály o daném (nízkém) počtu proměnných. 2) Seřadí se podle informace a vybere se několik „nejlepších“  1,…,  n 3) Z nich se poskládá model (buďto přímo nebo zkoušíme všechny možné permutace):  i 1 ► … ►  i n Informace v modelu z dat VDHT: dvojice: 0,4462232 (13%) trojice: 0,7987135 (23%)

21 21 Heuristika prof. Jirouška: Vstup:  Seznam distribucí  1 (x K 1 ),…,  n (x K n )  Počáteční proměnná X m Inicializace: L:={m}; k:=1; Výpočet: 1) Nalezni maximum MI  i ( X j,X K i ⋂ L ) přes všechna i=1,…,n a j ∈ K i ∖ L 2)  k :=  j (X (K i ⋂ L) ⋃ {j} ) 3) k:=k+1; L:=L ⋃ {j}; Výstup:  1 ► … ►  k

22 22 Výsledek pro data VDHT: "PIVO.MN" "PIVO.MN""VINO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "PIVO.MN""VINO.MN" "SMOKING" "PIVO.MN""LIH.MN" "BMI.CLASS" "VINO.MN""BMI.CLASS" "TRIG.LEVEL" "PIVO.MN""BMI.CLASS" "VEK" "BMI.CLASS""VEK" "CHLST.LEVEL" "BMI.CLASS""TRIG.LEVEL" "HT" "LIH.MN" "HT""HYPLIP" "VEK""CHLST.LEVEL" "DIABET" Informace v modelu z dat VDHT: 0.9623275 (28%)

23 23 Ekvivalentní Bayesovská síť

24 24 Heuristika založená na p-hodnotě "PIVO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "VINO.MN" "PIVO.MN" "SMOKING" "PIVO.MN" "VINO.MN" "TRIG.LEVEL" "VINO.MN" "SMOKING" "HT" "HYPLIP" "BMI.CLASS" "LIH.MN" "HT" Informace v modelu z dat VDHT: 0.630544 (18%)

25 25 Ekvivalentní Bayesovská síť

26 26 Děkuji za pozornost.


Stáhnout ppt "1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?"

Podobné prezentace


Reklamy Google