© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Dualita úloh lineárního programování a analýza citlivosti
MARKOVSKÉ ŘETĚZCE.
PA081 Programování numerických výpočtů Přednáška 2.
Jiří Gazárek, Martin Havlíček Analýza nezávislých komponent (ICA) v datech fMRI, a ICA necitlivá ke zpoždění.
Kalmanuv filtr pro zpracování signálů a navigaci
Lineární regresní analýza Úvod od problému
ZÁKLADY EKONOMETRIE 2. cvičení KLRM
Ústav technologie, mechanizace a řízení staveb
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
3. PRINCIP MAXIMÁLNÍ VĚROHODNOSTI
Lineární algebra.
Robustní vyrovnání Věra Pavlíčková, únor 2014.
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
také Gaussovo rozdělení (normal or Gaussian distribution)
Základy ekonometrie Cvičení září 2010.
STANOVENÍ NEJISTOT PŘI VÝPOŠTU KONTAMINACE ZASAŽENÉHO ÚZEMÍ
Lineární regrese.
Regrese Aproximace metodou nejmenších čtverců
Lineární regresní analýza
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
SIGNÁLY A SOUSTAVY V MATEMATICKÉ BIOLOGII
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Stabilita diskrétního regulačního obvodu
II. Analýza poptávky Přehled témat
SIGNÁLY A LINEÁRNÍ SYSTÉMY
Simplexová metoda pro známé počáteční řešení úlohy LP
2. Vybrané základní pojmy matematické statistiky
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Normální rozdělení a ověření normality dat
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc.
© Institut biostatistiky a analýz ZPRACOVÁNÍ A ANALÝZA BIOSIGNÁL Ů FREKVENČNÍ SPEKTRUM SPOJITÝCH SIGNÁLŮ.
SIGNÁLY A LINEÁRNÍ SYSTÉMY
ANALÝZA A KLASIFIKACE DAT
SIGNÁLY A LINEÁRNÍ SYSTÉMY
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Úvod do praktické fyziky Seminář pro I.ročník F J. Englich, ZS 2003/04.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Aritmetický průměr - střední hodnota
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
© Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík, CSc.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Simplexová metoda.
Ing. Milan Houška KOSA PEF ČZU v Praze
ČASOVÉ ŘADY (SIGNÁLY A LINEÁRNÍ SYSTÉMY )
ANALÝZA A KLASIFIKACE DAT
Klasifikace a rozpoznávání
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
Lineární optimalizační model
ANALÝZA A KLASIFIKACE DAT
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Lineární regrese.
ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT
Medián, modus Medián Pro medián náhodné veličiny x platí: Modus
2. Vybrané základní pojmy matematické statistiky
ANALÝZA A KLASIFIKACE DAT
Distribuční funkce diskrétní náhodná proměnná spojitá náhodná proměnná
Transkript prezentace:

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

© Institut biostatistiky a analýz IX. METODA FUKUNAGY - KOONTZE

© Institut biostatistiky a analýz PROBLÉMY A PODMÍNKY PCA algoritmus dokáže najít popis obrazů s optimálně redukovaným počtem příznaků s hlediska střední kvadratické odchylky aproximace  disperzní matice  preference příznaků s největším rozptylem  autokorelační matice  sice lepší situace, ale může být i tak dost bezcenná z hlediska klasifikace

© Institut biostatistiky a analýz PROBLÉMY A PODMÍNKY PCA algoritmus dokáže najít popis obrazů s optimálně redukovaným počtem příznaků s hlediska střední kvadratické odchylky aproximace  disperzní matice  preference příznaků s největším rozptylem  autokorelační matice  sice lepší situace, ale může být i tak dost bezcenná z hlediska klasifikace JAK NA TO?

© Institut biostatistiky a analýz PROBLÉMY A PODMÍNKY PCA algoritmus dokáže najít popis obrazů s optimálně redukovaným počtem příznaků s hlediska střední kvadratické odchylky aproximace  disperzní matice  preference příznaků s největším rozptylem  autokorelační matice  sice lepší situace, ale může být i tak dost bezcenná z hlediska klasifikace JAK NA TO?  výběr příznaků podle charakteristických čísel uspořádaných vzestupně

© Institut biostatistiky a analýz PROBLÉMY A PODMÍNKY PCA algoritmus dokáže najít popis obrazů s optimálně redukovaným počtem příznaků s hlediska střední kvadratické odchylky aproximace  disperzní matice  preference příznaků s největším rozptylem  autokorelační matice  sice lepší situace, ale může být i tak dost bezcenná z hlediska klasifikace JAK NA TO?  výběr příznaků podle charakteristických čísel uspořádaných vzestupně  v dichotomickém případě – třeba rozklad podle Fukunagy a Koontze

© Institut biostatistiky a analýz PRINCIP  vychází z normalizace autokorelační funkce;  výstupem normalizace situace popsaná vztahem (y’) = E, E je jednotková matice a y’ reprezentuje obraz, pro který platí y’ = U.y, kde U je matice normalizační transformace

© Institut biostatistiky a analýz PRINCIP  pro autokorelační matici transformovaných příznaků platí  s tím můžeme psát U.(y). T U = E

© Institut biostatistiky a analýz PRINCIP  připomínka:  tedy pro dichotomickou situaci je (y) = P(ω 1 ).  ω1 (y) + P(ω 2 ).  ω2 (y), kde je autokorelační matice pro prvky z r-té třídy

© Institut biostatistiky a analýz  rovnici U.(y). T U = E s tím můžeme psát ve tvaru S 1 + S 2 = E, kde S r = P(ω r ).U.  ωr (y). T U, r = 1,2. PRINCIP

© Institut biostatistiky a analýz  pro charakteristická čísla λ i (1) a charakteristické vektory v i (1) matice S 1 z definice platí S 1.v i (1) = λ i (1).v i (1), i = 1, 2, …, m.  obdobně pro matici S 2 S 2.v i (2) = (E-S 1 ).v i (2) = λ i (2).v i (2), i = 1, 2, …, m; odkud po úpravách S 1.v i (1) = (1 - λ i (2) ).v i (2), i = 1, 2, …, m. PRINCIP

© Institut biostatistiky a analýz  z toho pak srovnáním je v i (1) = v i (2), i = 1, 2, …, m a λ i (1) = 1 - λ i (2). Protože z vlastností matic jsou jejich vlastní čísla λ i (r) 0,1, r=1,2; i=1,…,m, jsou vlastní čísla matice S 1 podle indexu i uspořádána vzestupně a matice S 2 sestupně. Tedy nejdůležitější příznaky pro popis jedné třídy jsou současně nejméně důležité pro popis druhé třídy.  bázový souřadnicový systém vybíráme z vektorů v 1 (1), v 2 (1),… pro třídu ω 1 a v m (1), v m-1 (1), … pro třídu ω 2. PRINCIP

© Institut biostatistiky a analýz MATICE U NORMALIZAČNÍ TRANSFORMACE  bez důkazů U = U 1.U 2,  kde U 1 představuje matici transformace autokorelační matice (y) na matici diagonální (U 1.y). To lze provést, když kde v i, i=1,…,m jsou vlastní vektory autokorelační matice (y). PRINCIP

© Institut biostatistiky a analýz MATICE U NORMALIZAČNÍ TRANSFORMACE  transformovaná matice (U 1.y) má tvar PRINCIP

© Institut biostatistiky a analýz MATICE U NORMALIZAČNÍ TRANSFORMACE  U 2 převádí výše uvedenou diagonální matici na jednotkovou PRINCIP

© Institut biostatistiky a analýz X. ANALÝZA NEZÁVISLÝCH KOMPONENT

© Institut biostatistiky a analýz ANALÝZA NEZÁVISLÝCH KOMPONENT PRINCIP METODY x 1 (t) = a 11.s 1 (t) + a 12.s 2 (t) x 2 (t) = a 21.s 1 (t) + a 22.s 2 (t) Úloha spočívá v nalezení originálních neznámých signálů z jednotlivých zdrojů s 1 (t) a s 2 (t) máme-li k dispozici pouze zaznamenané signály x 1 (t) a x 2 (t). x1 x2 s2 s1 s2

© Institut biostatistiky a analýz ANALÝZA NEZÁVISLÝCH KOMPONENT PRINCIP METODY ICA umožňuje určit koeficienty a ij za předpokladu, že známé signály jsou dány lineárních kombinací zdrojových a za předpokladu statistické nezávislosti zdrojů v každém čase t. x1 x2 s2 s1 s2

© Institut biostatistiky a analýz  nechť x =T(x 1,x 2,…, x m ) je m-rozměrný náhodný vektor (s nulovou střední hodnotou E (x)=0). x i = a i1 orig.s 1 orig + a i2 orig.s 2 orig +…+ a im orig.s m orig i = 1,2,…,m nebo x = A orig.s orig s orig je vektor orginálních skrytých nezávislých komponent a s 1 orig jsou nezávislé komponenty (předpoklad vzájemně statisticky nezávislosti); A orig je transformační matice ANALÝZA NEZÁVISLÝCH KOMPONENT MODEL DAT

© Institut biostatistiky a analýz  definice s = W.x,  cíl: nalézt lineární transformaci (koeficienty transformační matice W tak, aby vypočítané nezávislé komponenty s i byly vzájemně statisticky nezávislé [W = A -1 ] [p(s 1,s 2,…,s m ) = p 1 (s 1 ).p 2 (s 2 )… p m (s m )] ANALÝZA NEZÁVISLÝCH KOMPONENT MODEL DAT

© Institut biostatistiky a analýz  pouze jedna originální nezávislá komponenta může mít normální rozložení pravděpodobnosti (pokud má více zdrojů normální rozložení není ICA schopna tyto zdroje ze vstupních dat extrahovat);  pro dané m-rozměrné obrazové vektory je ICA schopna najít pouze m nezávislých komponent;  nelze obecně určit polaritu nezávislých komponent;  nelze určit pořadí nezávislých komponent (?!) ANALÝZA NEZÁVISLÝCH KOMPONENT OMEZENÍ

© Institut biostatistiky a analýz ANALÝZA NEZÁVISLÝCH KOMPONENT OMEZENÍ

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT  optimalizace pomocí zvolené optimalizační (účelové, kriteriální, objektové) funkce  a) nalézt kriteriální funkci b) vybrat optimalizační algoritmus ad a) možnost ovlivnit statistické vlastnosti metody; ad b) spojitá optimalizační úloha s „rozumnou“ kriteriální funkcí – gradientní metoda, Newtonova metoda – ovlivňujeme rychlost výpočtu (konvergenci), nároky na paměť,…

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT ZÁKLADNÍ ÚVAHA  nechť existuje m nezávislých náhodných veličin s určitými pravděpodobnostními rozděleními (jejich součet za dosti obecných podmínek konverguje s rostoucím počtem sčítanců k normálnímu rozdělení – centrální limitní věta);  o vektoru x (který máme k dispozici) předpokládáme, že vznikl součtem nezávislých komponent s orig  jednotlivé náhodné veličiny x i mají pravděpodobnostní rozdělení, které je „bližší“ normálnímu než rozdělení jednotlivých komponent s i orig

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT ZÁKLADNÍ ÚVAHA  odhad nezávislých komponent si probíhá tak, že hledáme takové řádkové vektory w i transformační matice W, aby pravděpodobnostní rozdělení součinu w i.x bylo „co nejvíce nenormální“  tj. nalézt takovou transformační matici W, aby proměnné w i.x měly pravděpodobnostní rozdělení, které se co nejvíce liší od normálního  potřeba nalézt míru náhodné veličiny, která by mohla být použita pro kvantifikaci míry (podobnost, vzdálenost) nenormality

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT POU Ž ÍVANÉ MÍRY NENORMALITY  koeficient špičatosti  negativní normalizovaná entropie;  aproximace negativní normalizované entropie;

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT KOEFICIENT ŠPI Č ATOSTI kurt(s) = E {s 4 } – 3( E {s 2 }) 2 Gaussovo rozložení má koeficient špičatosti roven nule, zatímco pro jiná rozložení (ne pro všechna) je koeficient nenulový. Při hledání nezávislých komponent hledáme extrém, resp. kvadrát koeficientu špičatosti veličiny s = w i.x

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT KOEFICIENT ŠPI Č ATOSTI výhody:  rychlost a relativně jednoduchá implementace; nevýhody:  malá robustnost vůči odlehlým hodnotám (pokud v průběhu měření získáme několik hodnot, které se liší od skutečných, výrazně se změní KŠ a tím i nezávislé komponenty nebudou odhadnut korektně);  existence náhodných veličin s nulovým KŠ, ale nenormálním rozdělením;

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE (NNE, negentropy) Informační entropie - množství informace náhodné veličiny  pro diskrétní náhodnou veličinu s je H(s) = - i P(s=a i ).log 2 P(s=a i ), kde P(s=a i ) je pravděpodobnost, že náhodná veličina S je rovna hodnotě a i.  pro spojitou proměnnou platí

© Institut biostatistiky a analýz  entropie je tím větší, čím jsou hodnoty náhodné veličiny méně predikovatelné;  pro normální rozdělení má entropie největší hodnotu ve srovnání v dalšími rozděleními NNE J(s) = H(s gauss ) – H(s), kde s gauss je náhodná veličiny s normálním rozdělením ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE

© Institut biostatistiky a analýz výhody:  přesné vyjádření nenormality;  dobrá robustnost vůči odlehlým hodnotám; nevýhody:  časově náročný výpočet  snaha o vhodnou aproximaci NNE aby byly zachovány její výhody a současně byl výpočet nenáročný ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE

© Institut biostatistiky a analýz  použití momentů vyšších řádů kde s je náhodná veličina s nulovou střední hodnotou a jednotkovým rozptylem nevýhoda:  opět menší robustnost vůči odlehlým hodnotám ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE

© Institut biostatistiky a analýz  Použití tzv. p-nekvadratických funkcí kde k i >0 je konstanta, G i jsou šikovně navržené nelineární funkce a s gauss je normální náhodná proměnná, která spolu s s má nulovou střední hodnotu a jednotkový rozptyl. Je-li použita pouze jedna funkce G, pak je J(s)  [ E {G(s)} - E {G(s gauss )}] 2 ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE

© Institut biostatistiky a analýz  doporučujeme: kde a 1 1,2 nebo ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

© Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

© Institut biostatistiky a analýz Příprava nových učebních materiálů oboru Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/ „ VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE “ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ