1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?

Slides:

Advertisements

Podobné prezentace

Testování neparametrických hypotéz

Advertisements

Přednáška č. 3 Normalizace dat, Datová a funkční analýza

Kvantitativní metody výzkumu v praxi

 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.

Programová rozhraní pro grafické adaptéry

A5M33IZS – Informační a znalostní systémy Datová analýza I.

Kalmanuv filtr pro zpracování signálů a navigaci

Lineární regresní analýza Úvod od problému

Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.

FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU

Analýza dat Jiří Slabý Nástroje pro analýzu dat SQL SERVER - součást Small Business serveruSQL SERVER - součást Small Business serveru Kontingenční tabulkyKontingenční.

Získávání informací Získání informací o reálném systému

Dlouhodobá maturitní práce studentů Tomáše Kurce & Jana Kuželky

Verze Modul OCENĚNÍ DaMaSk

Řešení dynamických problémů s podmínkami Pavel Surynek Univerzita Karlova v Praze Matematicko-fyzikální fakulta.

Testování hypotéz (ordinální data)

Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.

ALGO – Algoritmizace 2. cvičení

Seminář C cvičení STL, Trolltech Ing. Jan Mikulka.

Vyhledávání podobností v datech s využitím singulárního rozkladu

Relační databáze.

Simulační modely a programové vybavení. Vývoj simulačních programů  Původně pouze strojový kód –Příliš dlouhé, náročné na programátora, obtížné hledání.

Data s diskrétním rozdělením

Možnosti modelování požadavků na informační systém

Algoritmizace a programování Objektově orientované programování - 16 Mgr. Josef Nožička IKT Algoritmizace a programování

IB111 Programování a algoritmizace

Obecný lineární model Fitované hodnoty and regresní residuály

Dokumentace informačního systému

REGIONÁLNÍ ANALÝZA Cvičení 3 Evropský sociální fond

Biostatistika 6. přednáška

Další spojitá rozdělení pravděpodobnosti

Test dobré shody Fisherův přesný test McNemar test

DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.

doc. RNDr. František STANĚK, Ph.D.

Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,

Základy práce na PC Ing. Jan Roubíček.

Databázové modelování

Metodika objektového přístupu při tvorbě překladačů. Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.

ALGO – Algoritmizace 4. cvičení 1.ročník, ZS Ing. Zdena DOBEŠOVÁ, Ph.D.

© 2000 VEMA počítače a projektování spol. s r. o..

Rozpoznávání v řetězcích

Distribuce Linuxu Petr Novák. Obsah Distribuce - typy a trendy Konkrétní systémy: – Pro začátečníky: Ubuntu Fedora OpenSuSE PCLinuxOS – Pro pokročilejší:

Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.

Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.

Biostatistika 8. přednáška

Biostatistika 1. přednáška Aneta Hybšová

OPERAČNÍ SYSTÉMY.

ALGORITMIZACE A ZÁKLADY PROGRAMOVÁNÍ

Optimalizace versus simulace 8.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.

Algoritmy a struktury neuropočítačů ASN - P14 Hopfieldovy sítě Asociativní paměti rekonstrukce původních nezkreslených vzorů předkládají se neúplné nebo.

ČVUT – fakulta stavební Geografické informační systémy IDRISI Software pro GIS a analýzu obrazu Pelinková Martina

Návrh a implementace algoritmů pro údržbu,

Workshop pro výzkumné pracovníky 16. – , Brno Rozvoj moderních dopravních inteligentních systémů Ing. Petr Holcner, Ph.D. Mikroskopický model.

Postup při empirickém kvantitativním výzkumu

Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.

Přednáška 2 Etapy výzkumu, přístup k datům

Aplikovaná statistika 2.

1 Dopravní simulace Lekce 1:Úvod. 2 Představení Ondřej Přibyl, Ph.D. Schůzky: Konzultační hodiny: dohodou.

Delphi – práce se základními komponentami (2. hodina) OB21-OP-EL-KON-DOL-M-4-008B Orbis pictus 21. století.

Neparametrické testy  neparametrické pořadové testy  Chí-kvadrát kontingenční tabulky test dobré shody.

SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.

Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)

SOFTWARE Operační systémy.

Ukládání dat biodiverzity a jejich vizualizace

Operační systémy Emanuel Soule.

2. Jak si snadno vytvořit nový vzor pomocí bloků.

Lineární optimalizační model

ANALÝZA A KLASIFIKACE DAT

Název produktu.

Transkript prezentace:

1 MUDIM Mgr. Petr Šimeček

2 Nevíte, co dělat s daty?

3 Veličin je příliš mnoho?

4 Váš statistik prohlásil, že pokud mu nedodáte hypotézy, tak nemá co by testoval?

5 Použijte MUDIM!

6 Přehled MUDIM  co to je  jak je implementován  jak a nač se používá Aplikace na konkrétní data  heuristiky na hledání modelu

7 Co je to MUDIM? Systém pro praktické výpočty v oblasti mnohorozměrných diskrétních modelů využívající předchozí teorii. Objektově orientovaný systém. Volně šiřitelný, neustále se vyvíjející kód.

8 Z pohledu programátora Jádro systému je napsáno v C++  rychlost  použitelnost pod různými systémy (UNIX, Windows)  OOP Front-endem je prostředí R (MUDIM je balíček pro R)  snadná ovladatelnost  možnost využití funkcí jazyka R

9 Z pohledu uživatele

10 Příklad datového souboru. VEK;BMI.CLASS;CHLST.LEVEL;DIABET ;PIVO.MN;HT;LIH.MN;SMOKING;TRI G.LEVEL;VINO.MN;HYPLIP 3;1;2;2;1;2;9;3;1;4;2 1;2;1;2;1;1;7;1;1;5;2 2;3;2;2;2;2;8;1;1;5;2 4;1;2;2;2;1;7;3;1;4;2 1;3;3;2;2;2;7;1;3;4;2 1;1;2;2;1;2;7;3;2;5;2 3;2;2;2;1;2;8;3;1;5;2...

11 Typy distribucí TabulkaModelData Distribuce

12 Co MUDIM zatím umí? Načtení a analýza dat, popis dat jako XML. Marginalizace. Výpočet entropie, KL-divergence, sdružené informace. Sestavení modelu. Převod modelu zpět na kontingenční tabulku.

13 Aplikace na data: Medicínská data (VDHT) z EuroMISE: 184 pacientů 11 sledovaných proměnných  věk (4)  BMI (3)  cholesterol (3)  diabetes (2)  konzumace piva (3)  hypertenze (2)  konzumace lihovin (3)  kouření (3)  triglyceridy (3)  konzumace vína (3)  hyperlipidemie (2)

14 Marginály o 2 proměnných seřazené podle informace 1 PIVO.MN VINO.MN LIH.MN VINO.MN PIVO.MN SMOKING TRIG.LEVEL VINO.MN SMOKING VINO.MN BMI.CLASS LIH.MN SMOKING TRIG.LEVEL BMI.CLASS VINO.MN BMI.CLASS TRIG.LEVEL PIVO.MN LIH.MN LIH.MN TRIG.LEVEL BMI.CLASS CHLST.LEVEL CHLST.LEVEL TRIG.LEVEL

15 Marginály o 2 proměnných seřazené podle p-hodnoty PIVO.MN VINO.MN LIH.MN VINO.MN PIVO.MN SMOKING TRIG.LEVEL VINO.MN SMOKING VINO.MN HT HYPLIP BMI.CLASS LIH.MN SMOKING TRIG.LEVEL BMI.CLASS HT BMI.CLASS VINO.MN BMI.CLASS TRIG.LEVEL PIVO.MN LIH.MN LIH.MN TRIG.LEVEL

16 Marginály o 3 proměnných seřazené podle informace PIVO.MN LIH.MN VINO.MN PIVO.MN SMOKING VINO.MN BMI.CLASS LIH.MN VINO.MN PIVO.MN TRIG.LEVEL VINO.MN BMI.CLASS PIVO.MN VINO.MN LIH.MN TRIG.LEVEL VINO.MN LIH.MN SMOKING VINO.MN VEK LIH.MN VINO.MN CHLST.LEVEL PIVO.MN VINO.MN VEK PIVO.MN VINO.MN

17 DAG model (HUGIN, vylepšený PC algoritmus)

18 UG model (MIM, maximalizace AIC přes určitou množinu modelů)

19 MUDIM–hledání modelu jednoduché metody založené na skládání modelu z dvojic či trojic s maximální informací rozmanité heuristiky založené na  maximalizaci informace  statistických testech a kritériích  p-hodnota  inf. kritéria: BIC, AIC

20 Jednoduché metody: 1) Nagenerují se všechny marginály o daném (nízkém) počtu proměnných. 2) Seřadí se podle informace a vybere se několik „nejlepších“  1,…,  n 3) Z nich se poskládá model (buďto přímo nebo zkoušíme všechny možné permutace):  i 1 ► … ►  i n Informace v modelu z dat VDHT: dvojice: 0, (13%) trojice: 0, (23%)

21 Heuristika prof. Jirouška: Vstup:  Seznam distribucí  1 (x K 1 ),…,  n (x K n )  Počáteční proměnná X m Inicializace: L:={m}; k:=1; Výpočet: 1) Nalezni maximum MI  i ( X j,X K i ⋂ L ) přes všechna i=1,…,n a j ∈ K i ∖ L 2)  k :=  j (X (K i ⋂ L) ⋃ {j} ) 3) k:=k+1; L:=L ⋃ {j}; Výstup:  1 ► … ►  k

22 Výsledek pro data VDHT: "PIVO.MN" "PIVO.MN""VINO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "PIVO.MN""VINO.MN" "SMOKING" "PIVO.MN""LIH.MN" "BMI.CLASS" "VINO.MN""BMI.CLASS" "TRIG.LEVEL" "PIVO.MN""BMI.CLASS" "VEK" "BMI.CLASS""VEK" "CHLST.LEVEL" "BMI.CLASS""TRIG.LEVEL" "HT" "LIH.MN" "HT""HYPLIP" "VEK""CHLST.LEVEL" "DIABET" Informace v modelu z dat VDHT: (28%)

23 Ekvivalentní Bayesovská síť

24 Heuristika založená na p-hodnotě "PIVO.MN" "PIVO.MN""VINO.MN" "LIH.MN" "VINO.MN" "PIVO.MN" "SMOKING" "PIVO.MN" "VINO.MN" "TRIG.LEVEL" "VINO.MN" "SMOKING" "HT" "HYPLIP" "BMI.CLASS" "LIH.MN" "HT" Informace v modelu z dat VDHT: (18%)

25 Ekvivalentní Bayesovská síť

26 Děkuji za pozornost.