Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Podobné prezentace


Prezentace na téma: "© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc."— Transkript prezentace:

1 © Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

2 © Institut biostatistiky a analýz IX. METODA FUKUNAGY - KOONTZE

3 © Institut biostatistiky a analýz PROBLÉMY A PODMÍNKY PCA algoritmus dokáže najít popis obrazů s optimálně redukovaným počtem příznaků s hlediska střední kvadratické odchylky aproximace  disperzní matice  preference příznaků s největším rozptylem  autokorelační matice  sice lepší situace, ale může být i tak dost bezcenná z hlediska klasifikace

4 © Institut biostatistiky a analýz PROBLÉMY A PODMÍNKY PCA algoritmus dokáže najít popis obrazů s optimálně redukovaným počtem příznaků s hlediska střední kvadratické odchylky aproximace  disperzní matice  preference příznaků s největším rozptylem  autokorelační matice  sice lepší situace, ale může být i tak dost bezcenná z hlediska klasifikace JAK NA TO?

5 © Institut biostatistiky a analýz PROBLÉMY A PODMÍNKY PCA algoritmus dokáže najít popis obrazů s optimálně redukovaným počtem příznaků s hlediska střední kvadratické odchylky aproximace  disperzní matice  preference příznaků s největším rozptylem  autokorelační matice  sice lepší situace, ale může být i tak dost bezcenná z hlediska klasifikace JAK NA TO?  výběr příznaků podle charakteristických čísel uspořádaných vzestupně

6 © Institut biostatistiky a analýz PROBLÉMY A PODMÍNKY PCA algoritmus dokáže najít popis obrazů s optimálně redukovaným počtem příznaků s hlediska střední kvadratické odchylky aproximace  disperzní matice  preference příznaků s největším rozptylem  autokorelační matice  sice lepší situace, ale může být i tak dost bezcenná z hlediska klasifikace JAK NA TO?  výběr příznaků podle charakteristických čísel uspořádaných vzestupně  v dichotomickém případě – třeba rozklad podle Fukunagy a Koontze

7 © Institut biostatistiky a analýz PRINCIP  vychází z normalizace autokorelační funkce;  výstupem normalizace situace popsaná vztahem (y’) = E, E je jednotková matice a y’ reprezentuje obraz, pro který platí y’ = U.y, kde U je matice normalizační transformace

8 © Institut biostatistiky a analýz PRINCIP  pro autokorelační matici transformovaných příznaků platí  s tím můžeme psát U.(y). T U = E

9 © Institut biostatistiky a analýz PRINCIP  připomínka:  tedy pro dichotomickou situaci je (y) = P(ω 1 ).  ω1 (y) + P(ω 2 ).  ω2 (y), kde je autokorelační matice pro prvky z r-té třídy

10 © Institut biostatistiky a analýz  rovnici U.(y). T U = E s tím můžeme psát ve tvaru S 1 + S 2 = E, kde S r = P(ω r ).U.  ωr (y). T U, r = 1,2. PRINCIP

11 © Institut biostatistiky a analýz  pro charakteristická čísla λ i (1) a charakteristické vektory v i (1) matice S 1 z definice platí S 1.v i (1) = λ i (1).v i (1), i = 1, 2, …, m.  obdobně pro matici S 2 S 2.v i (2) = (E-S 1 ).v i (2) = λ i (2).v i (2), i = 1, 2, …, m; odkud po úpravách S 1.v i (1) = (1 - λ i (2) ).v i (2), i = 1, 2, …, m. PRINCIP

12 © Institut biostatistiky a analýz  z toho pak srovnáním je v i (1) = v i (2), i = 1, 2, …, m a λ i (1) = 1 - λ i (2). Protože z vlastností matic jsou jejich vlastní čísla λ i (r) 0,1, r=1,2; i=1,…,m, jsou vlastní čísla matice S 1 podle indexu i uspořádána vzestupně a matice S 2 sestupně. Tedy nejdůležitější příznaky pro popis jedné třídy jsou současně nejméně důležité pro popis druhé třídy.  bázový souřadnicový systém vybíráme z vektorů v 1 (1), v 2 (1),… pro třídu ω 1 a v m (1), v m-1 (1), … pro třídu ω 2. PRINCIP

13 © Institut biostatistiky a analýz MATICE U NORMALIZAČNÍ TRANSFORMACE  bez důkazů U = U 1.U 2,  kde U 1 představuje matici transformace autokorelační matice (y) na matici diagonální (U 1.y). To lze provést, když kde v i, i=1,…,m jsou vlastní vektory autokorelační matice (y). PRINCIP

14 © Institut biostatistiky a analýz MATICE U NORMALIZAČNÍ TRANSFORMACE  transformovaná matice (U 1.y) má tvar PRINCIP

15 © Institut biostatistiky a analýz MATICE U NORMALIZAČNÍ TRANSFORMACE  U 2 převádí výše uvedenou diagonální matici na jednotkovou PRINCIP

16 © Institut biostatistiky a analýz X. ANALÝZA NEZÁVISLÝCH KOMPONENT

17 © Institut biostatistiky a analýz ANALÝZA NEZÁVISLÝCH KOMPONENT PRINCIP METODY x 1 (t) = a 11.s 1 (t) + a 12.s 2 (t) x 2 (t) = a 21.s 1 (t) + a 22.s 2 (t) Úloha spočívá v nalezení originálních neznámých signálů z jednotlivých zdrojů s 1 (t) a s 2 (t) máme-li k dispozici pouze zaznamenané signály x 1 (t) a x 2 (t). x1 x2 s2 s1 s2

18 © Institut biostatistiky a analýz ANALÝZA NEZÁVISLÝCH KOMPONENT PRINCIP METODY ICA umožňuje určit koeficienty a ij za předpokladu, že známé signály jsou dány lineárních kombinací zdrojových a za předpokladu statistické nezávislosti zdrojů v každém čase t. x1 x2 s2 s1 s2

19 © Institut biostatistiky a analýz  nechť x =T(x 1,x 2,…, x m ) je m-rozměrný náhodný vektor (s nulovou střední hodnotou E (x)=0). x i = a i1 orig.s 1 orig + a i2 orig.s 2 orig +…+ a im orig.s m orig i = 1,2,…,m nebo x = A orig.s orig s orig je vektor orginálních skrytých nezávislých komponent a s 1 orig jsou nezávislé komponenty (předpoklad vzájemně statisticky nezávislosti); A orig je transformační matice ANALÝZA NEZÁVISLÝCH KOMPONENT MODEL DAT

20 © Institut biostatistiky a analýz  definice s = W.x,  cíl: nalézt lineární transformaci (koeficienty transformační matice W tak, aby vypočítané nezávislé komponenty s i byly vzájemně statisticky nezávislé [W = A -1 ] [p(s 1,s 2,…,s m ) = p 1 (s 1 ).p 2 (s 2 )… p m (s m )] ANALÝZA NEZÁVISLÝCH KOMPONENT MODEL DAT

21 © Institut biostatistiky a analýz  pouze jedna originální nezávislá komponenta může mít normální rozložení pravděpodobnosti (pokud má více zdrojů normální rozložení není ICA schopna tyto zdroje ze vstupních dat extrahovat);  pro dané m-rozměrné obrazové vektory je ICA schopna najít pouze m nezávislých komponent;  nelze obecně určit polaritu nezávislých komponent;  nelze určit pořadí nezávislých komponent (?!) ANALÝZA NEZÁVISLÝCH KOMPONENT OMEZENÍ

22 © Institut biostatistiky a analýz ANALÝZA NEZÁVISLÝCH KOMPONENT OMEZENÍ

23 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT  optimalizace pomocí zvolené optimalizační (účelové, kriteriální, objektové) funkce  a) nalézt kriteriální funkci b) vybrat optimalizační algoritmus ad a) možnost ovlivnit statistické vlastnosti metody; ad b) spojitá optimalizační úloha s „rozumnou“ kriteriální funkcí – gradientní metoda, Newtonova metoda – ovlivňujeme rychlost výpočtu (konvergenci), nároky na paměť,…

24 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT ZÁKLADNÍ ÚVAHA  nechť existuje m nezávislých náhodných veličin s určitými pravděpodobnostními rozděleními (jejich součet za dosti obecných podmínek konverguje s rostoucím počtem sčítanců k normálnímu rozdělení – centrální limitní věta);  o vektoru x (který máme k dispozici) předpokládáme, že vznikl součtem nezávislých komponent s orig  jednotlivé náhodné veličiny x i mají pravděpodobnostní rozdělení, které je „bližší“ normálnímu než rozdělení jednotlivých komponent s i orig

25 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT ZÁKLADNÍ ÚVAHA  odhad nezávislých komponent si probíhá tak, že hledáme takové řádkové vektory w i transformační matice W, aby pravděpodobnostní rozdělení součinu w i.x bylo „co nejvíce nenormální“  tj. nalézt takovou transformační matici W, aby proměnné w i.x měly pravděpodobnostní rozdělení, které se co nejvíce liší od normálního  potřeba nalézt míru náhodné veličiny, která by mohla být použita pro kvantifikaci míry (podobnost, vzdálenost) nenormality

26 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT POU Ž ÍVANÉ MÍRY NENORMALITY  koeficient špičatosti  negativní normalizovaná entropie;  aproximace negativní normalizované entropie;

27 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT KOEFICIENT ŠPI Č ATOSTI kurt(s) = E {s 4 } – 3( E {s 2 }) 2 Gaussovo rozložení má koeficient špičatosti roven nule, zatímco pro jiná rozložení (ne pro všechna) je koeficient nenulový. Při hledání nezávislých komponent hledáme extrém, resp. kvadrát koeficientu špičatosti veličiny s = w i.x

28 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT KOEFICIENT ŠPI Č ATOSTI výhody:  rychlost a relativně jednoduchá implementace; nevýhody:  malá robustnost vůči odlehlým hodnotám (pokud v průběhu měření získáme několik hodnot, které se liší od skutečných, výrazně se změní KŠ a tím i nezávislé komponenty nebudou odhadnut korektně);  existence náhodných veličin s nulovým KŠ, ale nenormálním rozdělením;

29 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE (NNE, negentropy) Informační entropie - množství informace náhodné veličiny  pro diskrétní náhodnou veličinu s je H(s) = - i P(s=a i ).log 2 P(s=a i ), kde P(s=a i ) je pravděpodobnost, že náhodná veličina S je rovna hodnotě a i.  pro spojitou proměnnou platí

30 © Institut biostatistiky a analýz  entropie je tím větší, čím jsou hodnoty náhodné veličiny méně predikovatelné;  pro normální rozdělení má entropie největší hodnotu ve srovnání v dalšími rozděleními NNE J(s) = H(s gauss ) – H(s), kde s gauss je náhodná veličiny s normálním rozdělením ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE

31 © Institut biostatistiky a analýz výhody:  přesné vyjádření nenormality;  dobrá robustnost vůči odlehlým hodnotám; nevýhody:  časově náročný výpočet  snaha o vhodnou aproximaci NNE aby byly zachovány její výhody a současně byl výpočet nenáročný ODHAD NEZÁVISLÝCH KOMPONENT NEGATIVNÍ NORMALIZOVANÁ ENTROPIE

32 © Institut biostatistiky a analýz  použití momentů vyšších řádů kde s je náhodná veličina s nulovou střední hodnotou a jednotkovým rozptylem nevýhoda:  opět menší robustnost vůči odlehlým hodnotám ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE

33 © Institut biostatistiky a analýz  Použití tzv. p-nekvadratických funkcí kde k i >0 je konstanta, G i jsou šikovně navržené nelineární funkce a s gauss je normální náhodná proměnná, která spolu s s má nulovou střední hodnotu a jednotkový rozptyl. Je-li použita pouze jedna funkce G, pak je J(s)  [ E {G(s)} - E {G(s gauss )}] 2 ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE

34 © Institut biostatistiky a analýz  doporučujeme: kde a 1 1,2 nebo ODHAD NEZÁVISLÝCH KOMPONENT APROXIMACE NEGATIVNÍ NORMALIZOVANÉ ENTROPIE

35 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

36 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

37 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

38 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

39 © Institut biostatistiky a analýz ODHAD NEZÁVISLÝCH KOMPONENT P Ř ÍKLAD POU Ž ITÍ

40 © Institut biostatistiky a analýz Příprava nových učebních materiálů oboru Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 „ VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE “ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ


Stáhnout ppt "© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc."

Podobné prezentace


Reklamy Google