ANALÝZA A KLASIFIKACE DAT

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

MARKOVSKÉ ŘETĚZCE.
A5M33IZS – Informační a znalostní systémy Datová analýza I.
Odhady parametrů základního souboru
Jiří Gazárek, Martin Havlíček Analýza nezávislých komponent (ICA) v datech fMRI, a ICA necitlivá ke zpoždění.
Kalmanuv filtr pro zpracování signálů a navigaci
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Ústav technologie, mechanizace a řízení staveb
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
Lineární algebra.
Robustní vyrovnání Věra Pavlíčková, únor 2014.
LOGISTICKÉ SYSTÉMY 8/14.
Regresní analýza a korelační analýza
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
také Gaussovo rozdělení (normal or Gaussian distribution)
Základy ekonometrie Cvičení září 2010.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
ANALÝZA VÝSLEDKŮ LINEÁRNÍHO OPTIMALIZAČNÍHO MODELU
Lineární regresní analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Gradientní metody Metoda největšího spádu (volný extrém)
II. Analýza poptávky Přehled témat
SIGNÁLY A LINEÁRNÍ SYSTÉMY
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Náhodný vektor Litschmannová, 2007.
Normální rozdělení a ověření normality dat
Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Optimalizace versus simulace 8.přednáška. Obecně o optimalizaci  Maximalizovat nebo minimalizovat omezujících podmínkách.  Maximalizovat nebo minimalizovat.
(Popis náhodné veličiny)
SIGNÁLY A LINEÁRNÍ SYSTÉMY
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Aritmetický průměr - střední hodnota
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Simplexová metoda.
Spojitá náhodná veličina
Ing. Milan Houška KOSA PEF ČZU v Praze
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
ČASOVÉ ŘADY (SIGNÁLY A LINEÁRNÍ SYSTÉMY )
ANALÝZA A KLASIFIKACE DAT
Klasifikace a rozpoznávání
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Příklad (investiční projekt)
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT
Medián, modus Medián Pro medián náhodné veličiny x platí: Modus
2. Vybrané základní pojmy matematické statistiky
Induktivní statistika
ANALÝZA A KLASIFIKACE DAT
Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná
Transkript prezentace:

ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

ANALÝZA NEZÁVISLÝCH KOMPONENT

ANALÝZA NEZÁVISLÝCH KOMPONENT PRINCIP METODY x1 s1 s1 s2 s2 x2 x1(t) = a11.s1(t) + a12.s2(t) x2(t) = a21.s1(t) + a22.s2(t) Úloha spočívá v nalezení originálních neznámých signálů z jednotlivých zdrojů s1(t) a s2(t) máme-li k dispozici pouze zaznamenané signály x1(t) a x2(t).

ANALÝZA NEZÁVISLÝCH KOMPONENT PRINCIP METODY x1 s1 s1 s2 s2 x2 ICA umožňuje určit koeficienty aij za předpokladu, že známé signály jsou dány lineárních kombinací zdrojových a za předpokladu statistické nezávislosti zdrojů v každém čase t.

ANALÝZA NEZÁVISLÝCH KOMPONENT MODEL DAT nechť x =T(x1,x2,…, xm) je m-rozměrný náhodný vektor (s nulovou střední hodnotou E(x)=0). xi = ai1orig.s1orig + ai2orig.s2orig+…+ aimorig.smorig i = 1,2,…,m nebo x = Aorig.sorig sorig je vektor orginálních skrytých nezávislých komponent a s1orig jsou nezávislé komponenty (předpoklad vzájemně statisticky nezávislosti); Aorig je transformační matice

ANALÝZA NEZÁVISLÝCH KOMPONENT MODEL DAT definice s = W.x, cíl: nalézt lineární transformaci (koeficienty transformační matice W tak, aby vypočítané nezávislé komponenty si byly vzájemně statisticky nezávislé [W = A-1] [p(s1,s2,…,sm) = p1(s1).p2(s2)… pm(sm)]

ANALÝZA NEZÁVISLÝCH KOMPONENT OMEZENÍ pouze jedna originální nezávislá komponenta může mít normální rozložení pravděpodobnosti (pokud má více zdrojů normální rozložení není ICA schopna tyto zdroje ze vstupních dat extrahovat); pro dané m-rozměrné obrazové vektory je ICA schopna najít pouze m nezávislých komponent; nelze obecně určit polaritu nezávislých komponent; nelze určit pořadí nezávislých komponent (?!)

ANALÝZA NEZÁVISLÝCH KOMPONENT OMEZENÍ

ODHAD NEZÁVISLÝCH KOMPONENT optimalizace pomocí zvolené optimalizační (účelové, kriteriální, objektové) funkce  a) nalézt kriteriální funkci b) vybrat optimalizační algoritmus ad a) možnost ovlivnit statistické vlastnosti metody; ad b) spojitá optimalizační úloha s „rozumnou“ kriteriální funkcí – gradientní metoda, Newtonova metoda – ovlivňujeme rychlost výpočtu (konvergenci), nároky na paměť,…

ODHAD NEZÁVISLÝCH KOMPONENT ZÁKLADNÍ ÚVAHA nechť existuje m nezávislých náhodných veličin s určitými pravděpodobnostními rozděleními (jejich součet za dosti obecných podmínek konverguje s rostoucím počtem sčítanců k normálnímu rozdělení – centrální limitní věta); o vektoru x (který máme k dispozici) předpokládáme, že vznikl součtem nezávislých komponent sorig  jednotlivé náhodné veličiny xi mají pravděpodobnostní rozdělení, které je „bližší“ normálnímu než rozdělení jednotlivých komponent siorig

ODHAD NEZÁVISLÝCH KOMPONENT ZÁKLADNÍ ÚVAHA odhad nezávislých komponent si probíhá tak, že hledáme takové řádkové vektory wi transformační matice W, aby pravděpodobnostní rozdělení součinu wi.x bylo „co nejvíce nenormální“  tj. nalézt takovou transformační matici W, aby proměnné wi.x měly pravděpodobnostní rozdělení, které se co nejvíce liší od normálního potřeba nalézt míru náhodné veličiny, která by mohla být použita pro kvantifikaci míry (podobnost, vzdálenost) nenormality

ODHAD NEZÁVISLÝCH KOMPONENT POUŽÍVANÉ MÍRY NENORMALITY koeficient špičatosti negativní normalizovaná entropie; aproximace negativní normalizované entropie;

ODHAD NEZÁVISLÝCH KOMPONENT KOEFICIENT ŠPIČATOSTI kurt(s) = E{s4} – 3(E{s2}) 2 Gaussovo rozložení má koeficient špičatosti roven nule, zatímco pro jiná rozložení (ne pro všechna) je koeficient nenulový. Při hledání nezávislých komponent hledáme extrém, resp. kvadrát koeficientu špičatosti veličiny s = wi.x

ODHAD NEZÁVISLÝCH KOMPONENT KOEFICIENT ŠPIČATOSTI výhody: rychlost a relativně jednoduchá implementace; nevýhody: malá robustnost vůči odlehlým hodnotám (pokud v průběhu měření získáme několik hodnot, které se liší od skutečných, výrazně se změní KŠ a tím i nezávislé komponenty nebudou odhadnut korektně); existence náhodných veličin s nulovým KŠ, ale nenormálním rozdělením;

ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE (NNE, negentropy) Informační entropie - množství informace náhodné veličiny pro diskrétní náhodnou veličinu s je H(s) = -i P(s=ai).log2P(s=ai), kde P(s=ai) je pravděpodobnost, že náhodná veličina S je rovna hodnotě ai. pro spojitou proměnnou platí

ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE entropie je tím větší, čím jsou hodnoty náhodné veličiny méně predikovatelné; pro normální rozdělení má entropie největší hodnotu ve srovnání v dalšími rozděleními NNE J(s) = H(sgauss) – H(s), kde sgauss je náhodná veličiny s normálním rozdělením

ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE výhody: přesné vyjádření nenormality; dobrá robustnost vůči odlehlým hodnotám; nevýhody: časově náročný výpočet  snaha o vhodnou aproximaci NNE aby byly zachovány její výhody a současně byl výpočet nenáročný

ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE použití momentů vyšších řádů kde s je náhodná veličina s nulovou střední hodnotou a jednotkovým rozptylem nevýhoda: opět menší robustnost vůči odlehlým hodnotám

J(s)  [E{G(s)} - E{G(sgauss)}]2 ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE Použití tzv. p-nekvadratických funkcí kde ki>0 je konstanta, Gi jsou šikovně navržené nelineární funkce a sgauss je normální náhodná proměnná, která spolu s s má nulovou střední hodnotu a jednotkový rozptyl. Je-li použita pouze jedna funkce G, pak je J(s)  [E{G(s)} - E{G(sgauss)}]2

ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE doporučujeme: kde a11,2 nebo

ODHAD NEZÁVISLÝCH KOMPONENT PŘÍKLAD POUŽITÍ

ODHAD NEZÁVISLÝCH KOMPONENT PŘÍKLAD POUŽITÍ

ODHAD NEZÁVISLÝCH KOMPONENT PŘÍKLAD POUŽITÍ

ODHAD NEZÁVISLÝCH KOMPONENT PŘÍKLAD POUŽITÍ

ODHAD NEZÁVISLÝCH KOMPONENT PŘÍKLAD POUŽITÍ

„VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE“ Příprava nových učebních materiálů oboru Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 „VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE“ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ