Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza hlavných komponentov

Podobné prezentace


Prezentace na téma: "Analýza hlavných komponentov"— Transkript prezentace:

1 Analýza hlavných komponentov
(PCA – Principal Component Analysis)

2 n > p Viacrozmerné metódy 1 2 3 4 5 n X3 X10 X7 X4 X8 X9 X6 X5 X11
Xp n > p

3 Metódy analýzy skrytých vzťahov

4 Často v praxi vzniká problém:
začiatočný počet premenných, popisujúcich objekty (pozorovania) je vysoký a naviac premenné sú vzájomne korelované (problém multikolinearity) . zjednodušením môže byť vytvorenie menšieho počtu znakov (premenných) bez podstatnej straty informácie K riešeniu tohto problému boli vytvorené dve metódy: Analýza hlavných komponentov – Principal Components Analysis – PCS Faktorová analýza – Factor Analysis - FA PCA a FA patria do metód analýzy skrytých vzťahov a metód zníženia dimenzie

5 Metódy analýzy skrytých vzťahov
premenné nemožno logicky rozdeliť do dvoch skupín na závislé a nezávislé cieľom je pochopiť alebo identifikovať prečo a ako sú premenné navzájom korelované t.j. ako sa navzájom ovplyvňujú ak sú premenné navzájom prepojené – korelované, možno rovnaký objem informácií vystihnúť menším počtom premenných – zníženie dimenzie Obe metódy vychádzajú z analýzy kovariačnej resp, korelačnej matice pôvodných premenných a pokúšajú sa nájsť skryté – nemerateľné- latentné prememnné. Tieto premenné sa nedajú merať, ale majú schopnosť vecnej interpretácie.

6 Analýza hlavných komponentov, PCA Aplikácie PCA
Finančný analytik - zistenie finančného zdravia firmy. Na základe veľkého počtu ukazovateľov znakov(napr. 120), ktoré sú použiteľné a medzi ktorými je korelácia je nákladné, náročné a ťažko interpretovateľné hodnotenie finančného zdravia podniku). Úloha analytika: vytvorenie menšieho počtu ukazovateľov (3, viac), resp. indexov, ktoré sú lineárnymi kombináciami pôvodných 120 ukazovateľov (napr. DIJA) Marketingový manažér – vytvorenie regresného modelu pre predpoveď predaja – problém multikolinearity zvolených premenných (skreslenie štd. odchýlok). ...snaha o vytvorenie nových premenných , ktoré sú lineárnymi kombináciami pôvodných premenných , ale už nebudú korelované . Pre regresný model bud použité nové premenné Kontrola kvality – snaha vytvoriť z dostupných ukazovateľov nové zložené ukazovatele (indexy ) o procese výroby – využitie pri kontrole kvality

7 Analýza hlavných komponentov
Charakteristika predmetom analýzy je skupina kvantitatívnych premenných je metóda, ktorá umožňuje vytvárať nové premenné, ktoré sú lineárnou kombináciou pôvodných premenných nové premenné sa nazývajú hlavné komponenty (HK) Cieľ Identifikácia odľahlých pozorovaní, resp. vplyvných pozorovaní (outliers) Zníženie dimenzie (premenných) viacrozmernej analýzy Odstránenie závislosti medzi premennými, následné použitie HK v zhlukovej analýze, pri tvorbe regresných modelov na odstránenie multikolinearity

8 Matematické a geometrické vyjadrenie hlavných komponentov
premenné X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 XP 1 2 3 4 5 n

9 Analýza hlavných komponentov
Každá štatistická jednotka je charakterizovaná viacerými ukazovateľmi (premenné, znaky), predstavuje body v p-rozmernom priestore Každá z pôvodných premenných má v súbore nejakú variabilitu, meranú rozptylom. Rozptyl je nositeľom informácie. Pozn. Ak premenná nemá pre dané pozorovania žiadnu variabilitu všetky pozorovania majú rovnakú hodnotu, nemôže na základe tejto premennej pozorovania odlíšiť a teda nám nedáva žiadnu informáciu o ich charaktere Celkový objem informácie získame súčtom rozptylov jednotlivých premenných

10 Analýza hlavných komponentov
PCA je ordinálna metóda, ktorá umožňuje redukovať počet dimenzií v euklidovskom priestore (definovanom korelovanými premennými ) tak, aby nedošlo k strate informácií Pôvodných p vzájomne korelovaných (pozorovaných) premenných je nahradených novými q vzájomne nekorelovanými (ortogonálnymi) nemerateľnými „syntetickými“ premennými tak, že prvá nová súradnicová os (prvý HK) je vedená v smere maximálnej variability medzi objektmi (štatist. jednotkami). Druhá os (druhý HK) je kolmá na prvú os a je vedená v smere druhej najväčšej variability medzi objektmi, atď . Relatívna pozícia objektov v pôvodnom priestore a v novom priestore (danom HK) je rovnaká. T.zn. pôvodný súradnicový systém sa natáča do smeru max. variability medzi objektmi, pričom euklidovské vzdialenosti medzi objektmi sa zachovávajú.

11 PCA - hlavné komponenty v základnom súbore
Cieľ PCA: nájdenie skutočného (nového) rozmeru, v ktorom sa údaje nachádzajú. Pre splnenie tejto úlohy je výhodné určiť nové súradnicové osi tak, aby platili podmienky V1 až V5 V1 Vzájomná poloha bodov v p-rozmernom priestore (pozorovaní) sa nemení . Nové osi predstavujú nové umelé premenné - hlavné komponenty, HK. Nové hodnoty premenných na štatistických jednotkách (pozorovaniach) nazývame komponentové body (komponentové skóre) . V2 Každá z nových premenných je lineárnou kombináciou pôvodných p-premenných V3 Nové premenné – HK, ktorých počet je max. p sú navzájom (po dvojociach) nekorelované. V4. Prvý HK vysvetľuje najväčšiu časť variability údajov, preto je najdôležitejší. Myslí sa tým naväčšiu časť zo súčtu rozptylov všetkých p pôvodných premenných. V5 Každý ďalší HK vysvetľuje čo najväčšiu časť zo zostávajúcej variability údajov tak, že na posledný komponent ostane len nepatrný zvyšok

12 PCA predpokladajme, že súbor pôvodných p – premenných X1, X2,
PCA predpokladajme, že súbor pôvodných p – premenných X1, X2, ..., Xp transformujeme na nové premenné Y1, Y2, ...,Yp – hlavné komponenty premenné hlavné komponenty X1 X2 X3 X4 X5 X6 Xp Y1 Y2 Y3 Yq 1 2 PCA 3 4 p  q 5 n Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp ...

13 Analýza hlavných komponentov
Hlavné komponenty sú lineárnou kombináciou pôvodných premenných Y1 = a11 x1 + a12 x2 + a13 x3 + …. + a1p xp Y2 = a21 x1 + a22 x2 + a23 x3 + …. + a2p xp Y3 = a31 x1 + a32 x2 + a33 x3 + …. + a3p xp Yp = ap1 x1 + ap2 x2 + ap3 x3 + …. + app xp …. hlavné komponenty aij koeficienty saturácie, váhy Hlavné komponenty Yi maximálne možno vytvoriť rovnaký počet HK ako pôvodných premenných, každý HK je lineárnou kombináciou pôvodných premenných, nové premenné sú navzájom nekorelované (nezávislé)

14 Analýza hlavných komponentov
HK sú odhadnuté tak, že 1. HK vystihuje maximálny objem informácií pôvodných premenných (max. podiel rozptylu) 2. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. HK 3. HK vystihuje maximálny objem z informácií pôvodných premenných, ktoré neboli vystihnuté 1. a 2. HK atď.

15 Analýza hlavných komponentov
Koeficienty, váhy HK, saturácie aij sú odhadované tak, že sú splnené podmienky V1 až V5. celková variabilita sa nezmení , t.j. rozptyl nových a pôvodných premenných sa rovná 1, t.j. aij2 = ai12 + ai aip2 = 1, pre každé i=1, 2,...p (zabezpečuje, aby sa nezmenila variabilita HK oproti pôvodným premenným Xi) ai1aj1 + ai2aj2 + …. + aipajp = 0 pre i  j i, j =1,2,...,p (zabezpečuje nezávislosť nových premenných, čiže HK)

16 PCA – úprava údajov ak majú rovnakú mernú jednotku Kovariačná matica
Pred odhadom je potrebné rozhodnúť, z akých údajov sa bude vychádzať, upraviť pôvodné pňremenné: ak majú rovnakú mernú jednotku je potrebné brať do úvahy centrované hodnoty, aby sme odstránili posun v strednej hodnote: Kovariačná matica ak majú rôzne merné jednotky je potrebné brať do úvahy normované (štandardizované) hodnoty, aby sme ich previedli na spoločný základ: Väčšinou sa pracuje s korelačnou maticou

17 Podľa vstupných údajov:
Centrovaná PCA – vychádzame z kovariančnej matice, centrovanie znakov Štandardizovaná PCA – vychádzame z korelačnej matice, Centrovanie a preškálovanie premenných, normovanie premenných Necentrovaná PCA – vychádzame z pôvodných premenných.

18 Analýza hlavných komponentov
vlastnosti hlavných komponentov E(Yi)= 0 D(Yi) = i D(Y1)  D(Y2)  D(Y3) ….  D(Yp) = 1  2  3 ...  p cov (Yi,Yj) = 0 , pre i ≠ j odhad hlavných komponentov | S - I | = 0, kde S je výberová kovariančná matica výsledkom výpočtu sú vlastné čísla matice  1i,i=1, 2, ...p vlastné čísla matice sú odhadom variability HK D(Yh)=s2(Yh) = h | S - hI | Ah = 0 výsledkom sú saturácie pre h-tý HK, váhy aij pôvodných premenných Xj pri tvorbe i-tého komponentu.

19 Analýza hlavných komponentov
podiel variability vysvetlený q-tým HK celkový rozptyl (variabilita)  s2(Yh) =  h podiel variability vysvetlený h-tým komponentom h / h

20 PCA – určenie počtu HK aký počet komponentov uvažovať
podľa vlastnej úvahy o potrebe zachovania informácií (90%) Kaiserovo kritérium ak h > priemer(),potom h-tý HK je štatisticky významný, kde priemer(pr.) = (1/p) h

21 Analýza hlavných komponentov
aký počet komponentov uvažovať Testom sféričnosti (Anderson).., že len prvých q HK je významných H0 : q+1= q+2= …. = p = 0 H1 : neplatí H0 začneme q=0 => ak platí H1 => HK1 je štat. významný pokračujeme, kým sa nepotvrdí H0 Testovacie krotérium V má CHÍ- kvadrát rozdelenie

22 Interpretácia výsledkov
Komponentové skóre (component scores)- predstavuje súradnice objektu v novom priestore definovanom HK-ami. Jeho hodnotu pre j-tú štatist. jednotku (j=1,2,...,n) v i-tom komponente vypočítame podľa: yij= aij(xJ –xpr.) Vlastné vektory – kosínusy (eigen vectors) - vyjadrujú smer vektorov, ktoré charakterizujú vplyv pôvodných znakov na komponenty. Čísla (prvky) vlastných vektorov predstavujú komponentové váhy (saturácie) jednotlivých premenných pri tvorbe príslušného komponentu. Čím je hodnota aij vyššia, tým viac informácie o pôvodnej premennej Xj vysvetľuje komponent Yi . Dôležité je zistiť, všetky prememenné s vysokými váhami pre daný komponent. Komponent je potom tým javom (latentným znakom), ktorý stojí v pozadí premenných a snažíme sa ho vhodne interpretovať. Aká vysoká má byť váha? Obvykle sa ako vysoká váha považuje, ak I(aij )I>0,5.

23 PCA – Komponentové skóre
Table of Principal Components Component Component Row Label 1 Integra 2 Legend 5 535i 6 Century 7 LeSabre 8 Roadmaster 9 Riviera STATGRAPHICS

24 Komponentové váhy - saturácie
Table of Component Weights Component Component 1 2 Engine Size Horsepower Fueltank Passengers Length Wheelbase Width 0, ,134248 U Turn Space 0, Rear seat 0, ,3351 Luggage 0, ,322776 Weight 0, The weights

25 PCA - Interpretácia výsledkov
Vlastné čísla h (eigenvalue) - vyjadrujú objem variability , ktorá je zachytená príslušným komponentom. Z hľadiska interpretácie nie sú dôležité konkrétne hodnoty , ale vyjadrenie ich podielu na celkovom rozptyle h / h Koeficienty korelácie - koeficient korelácie vyjadruje na koľko daná pôvodná Xi ovplyvňuje nový HK Yi čím je koeficient vyšší, o to viac vplýva pôvodná premenná na nový HK možno interpretovať v zmysle nových premenných r(xj, Yh)= ajh. h/sj Ordinačné grafy objektov (pozorovaní ) - zobrazujú štatistické jednotky – objekty v súradnicovom systéme pôvodných premenných

26 Vlastné čísla Principal Components Analysis
Component Percent of Cumulative Number Eigenvalue Variance Percentage

27 Výstupy – scree plot

28 PCA – interpretácia výsledkov
Ordinačné grafy znakov (premenných) zobrazujú pôvodné premenné v novom súradnicovom systéme HK. Vplyv znaku na HK sa interpretuje tak, , že sa porovnávajú vektory jednotlivých znakov (spájajú nulový bod súradnicovej sústavy s príslušným znakom). Čím je vektor dlhší, tým je pôsobenie znaku silnejšie a čím je uhol medzi vektorom a príslušnou komponentovou osou menší, tým je vplyv znaku silnejší na daný komponent. Biploty – zobrazujú pozorovania aj znaky ma jednom grafe, ktorého súradnicové osi tvoria zvolené komponenty. Umožňujú tak lepšiu interpretáciu podielu pôvodných znakov na komponenty. Detekcia odľahlých pozorovaní v údajoch je možná na základe zobrazenia pozorovaní na priemete hlavného komponentu

29

30 PCA –nauč sa: úlohy metódy podmienky použitia
Princíp metódy , jej podstata Výsledky, interpretácia numerických a grafických výstupov aplikácie


Stáhnout ppt "Analýza hlavných komponentov"

Podobné prezentace


Reklamy Google