Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Podobné prezentace


Prezentace na téma: "© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc."— Transkript prezentace:

1 © Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

2 © Institut biostatistiky a analýz VIII. ANALÝZA HLAVNÍCH KOMPONENT

3 © Institut biostatistiky a analýz ZA Č ÍNÁME ANALÝZA HLAVNÍCH KOMPONENT PRINCIPAL COMPONENT ANALYSIS (PCA) ROZKLAD PODLE VLASTNÍCH ČÍSEL SINGULAR VALUE DECOMPOSITION (SVD) Karhunenova-Loevova transformace

4 © Institut biostatistiky a analýz ZA Č ÍNÁME  extrakce příznaků - hledání zobrazení (optimálního) Z, které transformuje původní m rozměrný prostor (obraz) na prostor (obraz) n rozměrný (m  n);  nalezení vhodné transformace – potřeba optimalizačního kritéria:  obrazy v novém prostoru budou aproximovat původní obrazy ve smyslu minimální střední kvadratické odchylky;  obrazy v novém prostoru budou minimalizovat odhad pravděpodobnosti chyby

5 © Institut biostatistiky a analýz ZA Č ÍNÁME  aby byla úloha řešitelná, hledáme zobrazení v oboru lineárních zobrazení

6 © Institut biostatistiky a analýz ZA Č ÍNÁME  aby byla úloha řešitelná, hledáme zobrazení v oboru lineárních zobrazení Jak poznáme lineární zobrazení?

7 © Institut biostatistiky a analýz ZA Č ÍNÁME  aby byla úloha řešitelná, hledáme zobrazení v oboru lineárních zobrazení Jak poznáme lineární zobrazení?

8 © Institut biostatistiky a analýz TEORIE  předpokládejme, že je dáno K obrazů a nechť existuje m příznakových veličin, které tyto obrazy charakterizují. Tedy k-tý obraz je vyjádřen m rozměrným sloupcovým vektorem y k  Y m, k=1,…,K.  aproximujme nyní kterýkoliv obraz y k lineární kombinací n ortonormálních vektorů e i (m  n) ( )

9 © Institut biostatistiky a analýz TEORIE  koeficienty c ki lze považovat za velikost i-té souřadnice vektoru y k vyjádřeného v novém systému souřadnic s bází e i, i=1,2,…,n, tj. platí  použijeme-li jako kritérium minimální střední kvadratické odchylky, pak je

10 © Institut biostatistiky a analýz TEORIE  pak pomocí dříve uvedených vztahů pro x k a c ki dostaneme  střední kvadratická odchylka pro všechny obrazy y k, k=1,…,K je (je tedy závislá na volbě bázového systému e i )

11 © Institut biostatistiky a analýz TEORIE  diskrétní konečný rozvoj podle vztahu ( ) s bázovým systémem e i, optimálním podle kritéria minimální střední kvadratické chyby nazýváme diskrétní Karhunenův – Loevův rozvoj;  aby střední kvadratická odchylka podle výše uvedeného vztahu byla minimální, musí být odečítaná hodnota na pravé straně rovnice maximální.

12 © Institut biostatistiky a analýz TEORIE  musíme tedy maximalizovat výraz je autokorelační matice řádu m. Protože je symetrická a semidefinitní, jsou její vlastní čísla λ i, i=1,…,m, reálná a nezáporná a vlastní vektory v i, jsou buď ortonormální, nebo je můžeme ortonormalizovat (v případě násobných vlastních čísel).

13 © Institut biostatistiky a analýz TEORIE  uspořádáme-li vlastní čísla sestupně podle velikosti, tj. λ 1  λ 2  …  λ m  0 a podle toho očíslujeme i odpovídající charakteristické vektory, lze dokázat, výe uvedený výraz dosahuje maxima, jestliže platí e i = v i, i=1,…,n a pro velikost maxima je

14 © Institut biostatistiky a analýz TEORIE  pro minimální střední kvadratickou odchylku tedy platí

15 © Institut biostatistiky a analýz TEORIE  v některých případech je vhodnější vektory y k před aproximací centrovat se střední hodnotou a místo s obrazem y k počítáme s jeho centrovanou verzí. Postup výpočtu se nemění, ale místo autokorelační matice používáme disperzní matici ve tvaru

16 © Institut biostatistiky a analýz GEOMETRICKÁ INTERPRETACE

17 © Institut biostatistiky a analýz VLASTNOSTI  při daném počtu n členů rozvoje poskytuje ze všech možných aproximací nejmenší střední kvadratickou odchylku;  při použití disperzní matice jsou transformované souřadnice nekorelované; pokud se výskyt obrazů řídí normálním rozložením zajišťuje nekorelovanost i jejich nezávislost;  vliv každého členu uspořádaného rozvoje se zmenšuje s jeho pořadím;  změna požadavků na velikost střední kvadratické odchylky nevyžaduje přepočítávat celý rozvoj, nýbrž jen změnit počet jeho členů.

18 © Institut biostatistiky a analýz ROZD Ě LENÍ DO T Ř ÍD Jak se změní podmínky, když obrazy y budou platit, které budou vymezeny jako části spojitého obrazového prostoru Y m ?  Výskyt obrazů v jednotlivých klasifikačních třídách bude popsán podmíněnými hustotami pravděpodobnosti p(y|ω r ), r=1,2,…,R a apriorní pravděpodobnost klasifikačních tříd bude P(ω r ). V tom případě autokorelační matice bude

19 © Institut biostatistiky a analýz ROZD Ě LENÍ DO T Ř ÍD  disperzní matice kde nebo vztahem

20 © Institut biostatistiky a analýz ROZD Ě LENÍ DO T Ř ÍD kde střední hodnota μ je vážený průměr středních hodnot všech tříd, tj.

21 © Institut biostatistiky a analýz Příprava nových učebních materiálů oboru Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/07.0318 „ VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE “ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ


Stáhnout ppt "© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc."

Podobné prezentace


Reklamy Google