A5M33IZS – Informační a znalostní systémy Datová analýza I.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Analýza spolehlivosti tlakové nádoby metodou Monte Carlo Jakub Nedbálek Katedra Aplikované Matematiky, Fakulta Elektrotechniky a Informatiky VŠB - Technická.
TEORIE ROZHODOVÁNÍ A TEORIE HER
Dynamické systémy.
Dualita úloh lineárního programování a analýza citlivosti
Ekvivalence silových soustav a statická rovnováha tělesa
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
A5M33IZS – Informační a znalostní systémy Testování modelů.
Limitní věty.
Vzájemná poloha přímek
Plošná interpolace (aproximace)
Základy informatiky přednášky Kódování.
Lineární regresní analýza Úvod od problému
TEORIE HER A ROZHODOVACÍ MODELY
Ústav technologie, mechanizace a řízení staveb
A5M33IZS – Informační a znalostní systémy Úvod do problematiky expertních systémů.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Lineární algebra.
Informatika pro ekonomy II přednáška 1
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Soustava lineárních nerovnic
Fakulta životního prostředí Katedra informatiky a geoinformatiky
kvantitativních znaků
Prezentace produktu Microsoft Excel. ČAS Vrátí číslo, které představuje určitý čas. Toto číslo vrácené funkcí ČAS je desetinné číslo v rozmezí od 0 do.
F U N K C E.
Formulace a vlastnosti úloh lineárního programování
VY_32_INOVACE_21-10 TEST č. 1.
Tlumené kmity pružná síla brzdná síla?.
Lineární regrese.
POČET PRAVDĚPODOBNOSTI
Pravděpodobnost. Náhodný pokus.
Funkce více proměnných.
Lineární zobrazení.
Další spojitá rozdělení pravděpodobnosti
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Rozhodovací stromy.
Odhad metodou maximální věrohodnost
Diferenciální počet funkcí více proměnných
1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Základy zpracování geologických dat
Gradientní metody Metoda největšího spádu (volný extrém)
Vektorové prostory.
Nelinearity s hysterezí Přerušení platnosti relace vytváří dvě různé charakteristiky, jejichž platnost je podmíněna směrem pohybu Hystereze přepínače x.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Simplexová metoda pro známé počáteční řešení úlohy LP
2. Vybrané základní pojmy matematické statistiky
Náhodný vektor Litschmannová, 2007.
Statistická významnost a její problémy
Využití Hilbertovy báze k ověření shodnosti strukturálních a kombinatorických imsetů Petr Šimeček(MFF UK) Milan Studený(ÚTIA AV ČR)
Kvadratické nerovnice
Databázové systémy Normalizace dat.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
Úvod do databázových systémů
Definiční obor a obor hodnot
Soustava lineárních rovnic
Základy zpracování geologických dat Rozdělení pravděpodobnosti
ANALÝZA A KLASIFIKACE DAT
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Soustava lineárních nerovnic
Funkce více proměnných.
Ústav lékařské informatiky, 2. LF UK
ANALÝZA A KLASIFIKACE DAT
Lineární regrese.
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT
Grafy kvadratických funkcí
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

A5M33IZS – Informační a znalostní systémy Datová analýza I

Skládání příspěvků pravidel u ES typu Prospector E 1 -> H O(H/E 1 ) E 2 -> H O(H/E 2 ) } O(H/E 1,E 2 ) = O(H/E 1 ) * O(H/E 2 ) O(H) Předpoklad: Náhodné veličiny E 1 a E 2 jsou podmíněně nezávislé při dané hodnotě H. E1E1 E2E2 / H

Frekvenční (kontigenční) tabulka: Statistická data: Sdružené pravděpodobnostní rozložení:

Struktura závislosti na množině náhodných veličin { A, B, C } : A, B, C vzájemně nezávislé A, B, C po dvojicích nezávislé A B / C B C / A A, B závislé, C na nich nezávislá a další

Danou množinu náhodných veličin potřebujeme rozdělit na podmnožiny vzájemně (silně) závislých náhodných veličin.... Snížení dimenze pravděpodobnostního rozložení (rozložení frekvencí). … tak, aby z nich bylo možné zrekonstruovat původní rozložení (s minimální ztrátou informace).

Dva problémy: nalézt co nejmenší množinu co nejjednodušších marginálních rozložení (množinu minimálních postačujících statistik) Bishop, Fienberg, Holland: “ Discrete Multivariate Analysis: Theory and Practice ”, The MIT Press Cambridge, 1975 k dané množině marginálních rozložení nalézt příslušné sdružené rozložení (množinu minimálních postačujících statistik) Problém v teorii pravděpodobnosti známý jako „Marginální problém ” Jiroušek R.: “ Metody integrace znalostí v pravděpodobnostních expertních systémech ”, sborník Aplikace umělé inteligence AI ’ 89, Praha, 1989

Marginální problém I {A, B, C} je množina (binárních) náhodných veličin {p(A), p(B), p(C)} je množina marginálních rozložení frekvencí K danému sdruženému rozložení frekvencí/pravděpodobností se libovolné marginální rozložení frekvencí/pravděpodobností určí jednoznačně, naopak tomu tak není. Existuje nekonečně mnoho sdružených pravděpodobnostních rozložení, které vyhovují danému systému marginálních rozložení.

Marginální problém II Které z těch nekonečně mnoha sdružených pravděpodobnostních rozložení je to “ správné ” ? KRITÉRIUM Jak ho nalézt? Nemůžeme testovat toto KRITERIUM na všech kandidátech - je jich nekonečně mnoho. Kritérií i metod existuje několik. Často se jako kritérium používá Princip maxima entropie (princip scházejícího důvodu). Vezmeme to sdružené pravděpodobnostní rozložení, které má maximum entropie při využití veškeré dostupné informace. METODA

Princip maxima entropie Množina všech náhodných veličin, které se účastní našeho problému. Daná množina marginálních pravděpododbnostních rozložení. Množina všech takových vektorů. Informační (shannonovská) entropie: Vektor nějakých hodnot náhodných veličin X 1 až X N. Daný systém jejích podmnožin Množina všech sdružených pravděpodobnostních rozložení nad množinou S takových, že pro podmnožiny S 1 až S k je množina všech odpovídajících marginálních rozložení rovna množině Princip maxima entropie:

Princip maxima entropie II Silviu Guiasu, Abe Shenitzer: Princip maxima entropie, Pokroky matematiky, fyziky a astronomie, ročník 31 (1986), č. 4 Silviu Guiasu, Abe Shenitzer: The Principle of Maximum Entropy, The Mathematical Intelligencer, Vol. 7, No. 1, pp

Metoda Lagrangeových multiplikátorů (Cheeseman 1983) omezení Řešení marginálního problému jako hledání vázaného extrému kritérium

Metoda Lagrangeových multiplikátorů II (Cheeseman 1983)

Iterační metoda (IPFP - Iterative Proportional Fitting Procedure) (Deming & Stephan, 1940) Množiny všech náhodných veličin, které se účastní našeho problému. Daná množina marginálních pravděpododbnostních rozložení. Daný systém jejích podmnožin (východisko: rovnoměrná distribuce na S) pro Pro objasnění - nechť

IPFP II Deming & Stephan 1940 Teprve 1975 (Cziszár) důkaz konvergence: Je-li systém marginálních distribucí konsistentní, t.j.je neprázdná, IPFP konverguje a pro limitní distribuci platí

IPFP - příklad pro

Základy datové analýzy I A=a 1 A=a 2 B=b 1 B=b 2 B=b 3 C=c 1 C=c 2 Logaritmicko-lineární model:

b1b1 a1a1 a2a2 a3a3 b2b2 b3b3 c1c1 c2c2 Efekt nultého řádu:

Hlavní efekty (efekty prvního řádu): b1b1 a1a1 a2a2 a3a3 b2b2 b3b3 c1c1 c2c2

Interakce prvního řádu (efekty druhého řádu): b1b1 a1a1 a2a2 a3a3 b2b2 b3b3 c1c1 c2c2

Efekt třetího řádu: b1b1 a1a1 a2a2 a3a3 b2b2 b3b3 c1c1 c2c2 3 3

b1b1 a1a1 a2a2 a3a3 b2b2 b3b3 c1c1 c2c2

A, B, C jsou vzájemně nezávislé náhodné veličiny právě, když platí: Určíme marginální rozložení:

tímto vztahem vydělíme pravou stranu rovnice a dostaneme a tedy rovněž neboli