Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?

Podobné prezentace


Prezentace na téma: "1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?"— Transkript prezentace:

1 1 MUDIM Mgr. Petr Šimeček

2 2 Nevíte, co dělat s daty?

3 3 Veličin je příliš mnoho?

4 4 Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?

5 5 Použijte MUDIM!

6 6 Přehled MUDIM  co to je  jak je implementován  jak a nač se používá Aplikace na konkrétní data  heuristiky na hledání modelu

7 7 Co je to MUDIM? Systém pro praktické výpočty v oblasti mnohorozměrných diskrétních modelů využívající předchozí teorii. Objektově orientovaný systém. Volně šiřitelný, neustále se vyvíjející kód.

8 8 Z pohledu programátora Jádro systému je napsáno v C++  rychlost  použitelnost pod různými systémy (UNIX, Windows)  OOP Front-endem je prostředí R (MUDIM je balíček pro R)  snadná ovladatelnost  možnost využití funkcí jazyka R

9 9 Z pohledu uživatele

10 10 Příklad datového souboru. VEK;BMI.CLASS;CHLST.LEVEL;DIABET ;PIVO.MN;HT;LIH.MN;SMOKING;TRI G.LEVEL;VINO.MN;HYPLIP 3;1;2;2;1;2;9;3;1;4;2 1;2;1;2;1;1;7;1;1;5;2 2;3;2;2;2;2;8;1;1;5;2 4;1;2;2;2;1;7;3;1;4;2 1;3;3;2;2;2;7;1;3;4;2 1;1;2;2;1;2;7;3;2;5;2 3;2;2;2;1;2;8;3;1;5;2...

11 11 Typy distribucí TabulkaModelData Distribuce

12 12 Co MUDIM zatím umí? Načtení a analýza dat, popis dat jako XML. Marginalizace. Výpočet entropie, KL-divergence, sdružené informace. Sestavení modelu. Převod modelu zpět na kontingenční tabulku.

13 13 Aplikace na data: Medicínská data (VDHT) z EuroMISE: 184 pacientů 11 sledovaných proměnných  věk (4)  BMI (3)  cholesterol (3)  diabetes (2)  konzumace piva (3)  hypertenze (2)  konzumace lihovin (3)  kouření (3)  triglyceridy (3)  konzumace vína (3)  hyperlipidemie (2)

14 14 Marginály o 2 proměnných seřazené podle informace 1 PIVO.MN VINO.MN LIH.MN VINO.MN PIVO.MN SMOKING TRIG.LEVEL VINO.MN SMOKING VINO.MN BMI.CLASS LIH.MN SMOKING TRIG.LEVEL BMI.CLASS VINO.MN BMI.CLASS TRIG.LEVEL PIVO.MN LIH.MN LIH.MN TRIG.LEVEL BMI.CLASS CHLST.LEVEL CHLST.LEVEL TRIG.LEVEL

15 15 Marginály o 2 proměnných seřazené podle p-hodnoty PIVO.MN VINO.MN LIH.MN VINO.MN PIVO.MN SMOKING TRIG.LEVEL VINO.MN SMOKING VINO.MN HT HYPLIP BMI.CLASS LIH.MN SMOKING TRIG.LEVEL BMI.CLASS HT BMI.CLASS VINO.MN BMI.CLASS TRIG.LEVEL PIVO.MN LIH.MN LIH.MN TRIG.LEVEL

16 16 Marginály o 3 proměnných seřazené podle informace PIVO.MN LIH.MN VINO.MN PIVO.MN SMOKING VINO.MN BMI.CLASS LIH.MN VINO.MN PIVO.MN TRIG.LEVEL VINO.MN BMI.CLASS PIVO.MN VINO.MN LIH.MN TRIG.LEVEL VINO.MN LIH.MN SMOKING VINO.MN VEK LIH.MN VINO.MN CHLST.LEVEL PIVO.MN VINO.MN VEK PIVO.MN VINO.MN

17 17 DAG model (HUGIN, vylepšený PC algoritmus)

18 18 UG model (MIM, maximalizace AIC přes určitou množinu modelů)

19 19 MUDIM–hledání modelu jednoduché metody založené na skládání modelu z dvojic či trojic s maximální informací rozmanité heuristiky založené na  maximalizaci informace  statistických testech a kritériích  p-hodnota  inf. kritéria: BIC, AIC

20 20 Jednoduché metody: 1) Nagenerují se všechny marginály o daném (nízkém) počtu proměnných. 2) Seřadí se podle informace a vybere se několik „nejlepších“  1,…,  n 3) Z nich se poskládá model (buďto přímo nebo zkoušíme všechny možné permutace):  i 1 ► … ►  i n Informace v modelu z dat VDHT: dvojice: 0, (13%) trojice: 0, (23%)

21 21 Heuristika prof. Jirouška: Vstup:  Seznam distribucí  1 (x K 1 ),…,  n (x K n )  Počáteční proměnná X m Inicializace: L:={m}; k:=1; Výpočet: 1) Nalezni maximum MI  i ( X j,X K i ⋂ L ) přes všechna i=1,…,n a j ∈ K i ∖ L 2)  k :=  j (X (K i ⋂ L) ⋃ {j} ) 3) k:=k+1; L:=L ⋃ {j}; Výstup:  1 ► … ►  k

22 22 Výsledek pro data VDHT: "PIVO.MN" "PIVO.MN""VINO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "PIVO.MN""VINO.MN" "SMOKING" "PIVO.MN""LIH.MN" "BMI.CLASS" "VINO.MN""BMI.CLASS" "TRIG.LEVEL" "PIVO.MN""BMI.CLASS" "VEK" "BMI.CLASS""VEK" "CHLST.LEVEL" "BMI.CLASS""TRIG.LEVEL" "HT" "LIH.MN" "HT""HYPLIP" "VEK""CHLST.LEVEL" "DIABET" Informace v modelu z dat VDHT: (28%)

23 23 Ekvivalentní Bayesovská síť

24 24 Heuristika založená na p-hodnotě "PIVO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "VINO.MN" "PIVO.MN" "SMOKING" "PIVO.MN" "VINO.MN" "TRIG.LEVEL" "VINO.MN" "SMOKING" "HT" "HYPLIP" "BMI.CLASS" "LIH.MN" "HT" Informace v modelu z dat VDHT: (18%)

25 25 Ekvivalentní Bayesovská síť

26 26 Děkuji za pozornost.


Stáhnout ppt "1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?"

Podobné prezentace


Reklamy Google