1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?

Slides:



Advertisements
Podobné prezentace
Testování neparametrických hypotéz
Advertisements

Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Kvantitativní metody výzkumu v praxi
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Programová rozhraní pro grafické adaptéry
A5M33IZS – Informační a znalostní systémy Datová analýza I.
Kalmanuv filtr pro zpracování signálů a navigaci
Lineární regresní analýza Úvod od problému
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
Analýza dat Jiří Slabý Nástroje pro analýzu dat SQL SERVER - součást Small Business serveruSQL SERVER - součást Small Business serveru Kontingenční tabulkyKontingenční.
Získávání informací Získání informací o reálném systému
Dlouhodobá maturitní práce studentů Tomáše Kurce & Jana Kuželky
Verze Modul OCENĚNÍ DaMaSk
Řešení dynamických problémů s podmínkami Pavel Surynek Univerzita Karlova v Praze Matematicko-fyzikální fakulta.
Testování hypotéz (ordinální data)
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
ALGO – Algoritmizace 2. cvičení
Seminář C cvičení STL, Trolltech Ing. Jan Mikulka.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Relační databáze.
Simulační modely a programové vybavení. Vývoj simulačních programů  Původně pouze strojový kód –Příliš dlouhé, náročné na programátora, obtížné hledání.
Data s diskrétním rozdělením
Možnosti modelování požadavků na informační systém
Algoritmizace a programování Objektově orientované programování - 16 Mgr. Josef Nožička IKT Algoritmizace a programování
IB111 Programování a algoritmizace
Obecný lineární model Fitované hodnoty and regresní residuály
Dokumentace informačního systému
REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Test dobré shody Fisherův přesný test McNemar test
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
doc. RNDr. František STANĚK, Ph.D.
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Základy práce na PC Ing. Jan Roubíček.
Databázové modelování
Metodika objektového přístupu při tvorbě překladačů. Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
ALGO – Algoritmizace 4. cvičení 1.ročník, ZS Ing. Zdena DOBEŠOVÁ, Ph.D.
© 2000 VEMA počítače a projektování spol. s r. o..
Rozpoznávání v řetězcích
Distribuce Linuxu Petr Novák. Obsah Distribuce - typy a trendy Konkrétní systémy: – Pro začátečníky: Ubuntu Fedora OpenSuSE PCLinuxOS – Pro pokročilejší:
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
Biostatistika 8. přednáška
Biostatistika 1. přednáška Aneta Hybšová
OPERAČNÍ SYSTÉMY.
ALGORITMIZACE A ZÁKLADY PROGRAMOVÁNÍ
Optimalizace versus simulace 8.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.
ČVUT – fakulta stavební Geografické informační systémy IDRISI Software pro GIS a analýzu obrazu Pelinková Martina
Návrh a implementace algoritmů pro údržbu,
Workshop pro výzkumné pracovníky 16. – , Brno Rozvoj moderních dopravních inteligentních systémů Ing. Petr Holcner, Ph.D. Mikroskopický model.
1. cvičení
Postup při empirickém kvantitativním výzkumu
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Přednáška 2 Etapy výzkumu, přístup k datům
Aplikovaná statistika 2.
1 Dopravní simulace Lekce 1:Úvod. 2 Představení Ondřej Přibyl, Ph.D. Schůzky: Konzultační hodiny: dohodou.
Delphi – práce se základními komponentami (2. hodina) OB21-OP-EL-KON-DOL-M-4-008B Orbis pictus 21. století.
Neparametrické testy  neparametrické pořadové testy  Chí-kvadrát kontingenční tabulky test dobré shody.
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
SOFTWARE Operační systémy.
Ukládání dat biodiverzity a jejich vizualizace
Operační systémy Emanuel Soule.
2. Jak si snadno vytvořit nový vzor pomocí bloků.
Lineární optimalizační model
ANALÝZA A KLASIFIKACE DAT
Název produktu.
Transkript prezentace:

1 MUDIM Mgr. Petr Šimeček

2 Nevíte, co dělat s daty?

3 Veličin je příliš mnoho?

4 Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?

5 Použijte MUDIM!

6 Přehled MUDIM  co to je  jak je implementován  jak a nač se používá Aplikace na konkrétní data  heuristiky na hledání modelu

7 Co je to MUDIM? Systém pro praktické výpočty v oblasti mnohorozměrných diskrétních modelů využívající předchozí teorii. Objektově orientovaný systém. Volně šiřitelný, neustále se vyvíjející kód.

8 Z pohledu programátora Jádro systému je napsáno v C++  rychlost  použitelnost pod různými systémy (UNIX, Windows)  OOP Front-endem je prostředí R (MUDIM je balíček pro R)  snadná ovladatelnost  možnost využití funkcí jazyka R

9 Z pohledu uživatele

10 Příklad datového souboru. VEK;BMI.CLASS;CHLST.LEVEL;DIABET ;PIVO.MN;HT;LIH.MN;SMOKING;TRI G.LEVEL;VINO.MN;HYPLIP 3;1;2;2;1;2;9;3;1;4;2 1;2;1;2;1;1;7;1;1;5;2 2;3;2;2;2;2;8;1;1;5;2 4;1;2;2;2;1;7;3;1;4;2 1;3;3;2;2;2;7;1;3;4;2 1;1;2;2;1;2;7;3;2;5;2 3;2;2;2;1;2;8;3;1;5;2...

11 Typy distribucí TabulkaModelData Distribuce

12 Co MUDIM zatím umí? Načtení a analýza dat, popis dat jako XML. Marginalizace. Výpočet entropie, KL-divergence, sdružené informace. Sestavení modelu. Převod modelu zpět na kontingenční tabulku.

13 Aplikace na data: Medicínská data (VDHT) z EuroMISE: 184 pacientů 11 sledovaných proměnných  věk (4)  BMI (3)  cholesterol (3)  diabetes (2)  konzumace piva (3)  hypertenze (2)  konzumace lihovin (3)  kouření (3)  triglyceridy (3)  konzumace vína (3)  hyperlipidemie (2)

14 Marginály o 2 proměnných seřazené podle informace 1 PIVO.MN VINO.MN LIH.MN VINO.MN PIVO.MN SMOKING TRIG.LEVEL VINO.MN SMOKING VINO.MN BMI.CLASS LIH.MN SMOKING TRIG.LEVEL BMI.CLASS VINO.MN BMI.CLASS TRIG.LEVEL PIVO.MN LIH.MN LIH.MN TRIG.LEVEL BMI.CLASS CHLST.LEVEL CHLST.LEVEL TRIG.LEVEL

15 Marginály o 2 proměnných seřazené podle p-hodnoty PIVO.MN VINO.MN LIH.MN VINO.MN PIVO.MN SMOKING TRIG.LEVEL VINO.MN SMOKING VINO.MN HT HYPLIP BMI.CLASS LIH.MN SMOKING TRIG.LEVEL BMI.CLASS HT BMI.CLASS VINO.MN BMI.CLASS TRIG.LEVEL PIVO.MN LIH.MN LIH.MN TRIG.LEVEL

16 Marginály o 3 proměnných seřazené podle informace PIVO.MN LIH.MN VINO.MN PIVO.MN SMOKING VINO.MN BMI.CLASS LIH.MN VINO.MN PIVO.MN TRIG.LEVEL VINO.MN BMI.CLASS PIVO.MN VINO.MN LIH.MN TRIG.LEVEL VINO.MN LIH.MN SMOKING VINO.MN VEK LIH.MN VINO.MN CHLST.LEVEL PIVO.MN VINO.MN VEK PIVO.MN VINO.MN

17 DAG model (HUGIN, vylepšený PC algoritmus)

18 UG model (MIM, maximalizace AIC přes určitou množinu modelů)

19 MUDIM–hledání modelu jednoduché metody založené na skládání modelu z dvojic či trojic s maximální informací rozmanité heuristiky založené na  maximalizaci informace  statistických testech a kritériích  p-hodnota  inf. kritéria: BIC, AIC

20 Jednoduché metody: 1) Nagenerují se všechny marginály o daném (nízkém) počtu proměnných. 2) Seřadí se podle informace a vybere se několik „nejlepších“  1,…,  n 3) Z nich se poskládá model (buďto přímo nebo zkoušíme všechny možné permutace):  i 1 ► … ►  i n Informace v modelu z dat VDHT: dvojice: 0, (13%) trojice: 0, (23%)

21 Heuristika prof. Jirouška: Vstup:  Seznam distribucí  1 (x K 1 ),…,  n (x K n )  Počáteční proměnná X m Inicializace: L:={m}; k:=1; Výpočet: 1) Nalezni maximum MI  i ( X j,X K i ⋂ L ) přes všechna i=1,…,n a j ∈ K i ∖ L 2)  k :=  j (X (K i ⋂ L) ⋃ {j} ) 3) k:=k+1; L:=L ⋃ {j}; Výstup:  1 ► … ►  k

22 Výsledek pro data VDHT: "PIVO.MN" "PIVO.MN""VINO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "PIVO.MN""VINO.MN" "SMOKING" "PIVO.MN""LIH.MN" "BMI.CLASS" "VINO.MN""BMI.CLASS" "TRIG.LEVEL" "PIVO.MN""BMI.CLASS" "VEK" "BMI.CLASS""VEK" "CHLST.LEVEL" "BMI.CLASS""TRIG.LEVEL" "HT" "LIH.MN" "HT""HYPLIP" "VEK""CHLST.LEVEL" "DIABET" Informace v modelu z dat VDHT: (28%)

23 Ekvivalentní Bayesovská síť

24 Heuristika založená na p-hodnotě "PIVO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "VINO.MN" "PIVO.MN" "SMOKING" "PIVO.MN" "VINO.MN" "TRIG.LEVEL" "VINO.MN" "SMOKING" "HT" "HYPLIP" "BMI.CLASS" "LIH.MN" "HT" Informace v modelu z dat VDHT: (18%)

25 Ekvivalentní Bayesovská síť

26 Děkuji za pozornost.