Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

DISKRIMINAČNÍ ANALÝZA

Podobné prezentace


Prezentace na téma: "DISKRIMINAČNÍ ANALÝZA"— Transkript prezentace:

1 DISKRIMINAČNÍ ANALÝZA
Vysoká škola báňská – Technická univerzita Ostrava DISKRIMINAČNÍ ANALÝZA Marcela Rabasová Katedra matematiky a deskriptivní geometrie

2 Obsah: 1. Diskriminační analýza (DA)
1.1. Deskriptivní diskriminační analýza (DDA) - Kanonická (Fisherova) diskriminační analýza (FDA) 1.2. Predikční diskriminační analýza (PDA) - Logistická regrese (LR) - Normální diskriminační analýza (NDA) - Směs normálních rozdělení (MMND) 2. Aplikace diskriminační analýzy 2.1. Popis analyzované problematiky 2.2. Predikce konverze a nalezení jejích rizikových faktorů 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky M.Rabasová, VŠB-TU Ostrava

3 1. Diskriminační analýza
vícerozměrná statistická metoda, používaná v případě, kdy je zpracovávaný soubor členěn do dvou nebo více skupin, přičemž vlastnosti každé jednotky souboru jsou popsány hodnotami několika nezávislých veličin Nechť vícerozměrná jednofaktorová analýza rozptylu vede k zamítnutí hypotézy o shodě vektorů středních hodnot v H skupinách (tzn. p sledovaných veličin X1, …, Xp závisí na daném faktoru). Nakolik je potom příslušnost jednotky ke skupině ovlivněna právě těmito veličinami? Tento směr závislosti zkoumá diskriminační analýza. Primární úloha DA (R. A. Fisher, 30. léta 19. století) - zkoumat schopnost sledovaných proměnných odlišit od sebe jednotlivé skupiny. Často pak DA směřuje k vytvoření pravidla pro klasifikaci jednotlivých jednotek. M.Rabasová, VŠB-TU Ostrava

4 1. Diskriminační analýza
Aplikace DA (např. v biologii, medicíně, archeologii, technických oblastech) Při kontrole jakosti či spolehlivosti lze u výrobků změřit několik kvantitativních proměnných (rozměry, hmotnost, hustotu, …), poté je podrobit určité zátěži a sledovat, zda obstojí nebo ne. K předpovědi chování dalších výrobků při zátěži je již nemusíme této zátěži vystavovat (často přitom totiž dochází k jejich znehodnocení), a výsledek zkoušky odhadnout na základě toho, jak dopadly jiné výrobky s podobnými parametry, což nám umožní klasifikační pravidlo odvozené z dat naměřených u testovací skupiny objektů. M.Rabasová, VŠB-TU Ostrava 4

5 1. Diskriminační analýza
Uchazeči o určitou profesi jsou podrobeni testům, jejichž bodová ohodnocení představují příslušné kvantitativní proměnné. Následně je zjišťována jejich úspěšnost ve zvoleném oboru. Za předpokladu souvislosti výsledků testu a úspěšnosti osob ve výběrovém souboru lze u dalších adeptů z výsledků testu usuzovat o jejich budoucím úspěchu. Ve výběrovém souboru pacientů jsou pro několik diagnostikovaných chorob zjišťovány výsledky různých laboratorních testů. U nových pacientů se pak může lékař na základě výsledků těchto testů přiklonit k určité diagnóze či způsobu léčby. M.Rabasová, VŠB-TU Ostrava 5

6 1. Diskriminační analýza
Dvě základní funkce DA: určení vlivu sledovaných veličin na odlišení jednotek jednotlivých skupin (deskriptivní diskriminační analýza) sestavení klasifikačního pravidla pro zařazení jednotek s neznámou skupinovou příslušností (predikční diskriminační analýza) M.Rabasová, VŠB-TU Ostrava 6

7 1.1. Deskriptivní diskriminační analýza (DDA)
Kanonická (Fisherova) diskriminační analýza (FDA) R. A. Fisher ( ) statistik biolog genetik M.Rabasová, VŠB-TU Ostrava 7

8 1.1. Deskriptivní diskriminační analýza
Princip FDA: Uvažujme náhodný výběr s rozsahem n, který je členěn do H skupin s rozsahy nh, h = H. Nechť každý objekt souboru je charakterizován p-rozměrným náhodným vektorem X = (X1, …, Xp)T , jehož realizací je vektor pozorování x = (x1, ..., xp)T. Označme: xi … vektor p hodnot náhodných veličin X1, …, Xp zjištěných u i-té jednotky xih … vektor p hodnot náhodných veličin X1, …, Xp zjištěných u i-té jednotky v h-té skupině, … vektor výběrových průměrů, … vektor výběrových průměrů v h-té skupině M.Rabasová, VŠB-TU Ostrava 8

9 1.1. Deskriptivní diskriminační analýza
… celková variabilita původních proměnných … vnitroskupinová variabilita … meziskupinová variabilita Pro libovolnou lineární kombinaci Y = bTx původních proměnných X1, …, Xp, kde bT = (b1, …, bp) je vektor parametrů, určíme míru její meziskupinové resp. vnitrosku-pinové variability jako resp M.Rabasová, VŠB-TU Ostrava 9

10 1.1. Deskriptivní diskriminační analýza
Cíl FDA: Najít takovou lineární kombinaci Y = bTx původních p proměnných, která by nejlépe ze všech separovala uvažované skupiny v tom smyslu, že její vnitroskupinová variabilita bude co nejmenší a meziskupinová variabilita co největší, tzn. aby bylo maximalizováno tzv. Fisherovo diskriminačníh kritérium: Řešení: - derivací F podle b získáme soustavu: - má netriviální řešení, pokud: - řešením jsou char. čísla matice BE-1 - charakteristický vektor b1 odpovídající maximalizuje F - b1 se volí tak, aby: , pak vyjadřuje míru meziskupinové variability veličiny Y1 M.Rabasová, VŠB-TU Ostrava 10

11 1.1. Deskriptivní diskriminační analýza
První diskriminant (první kanonická proměnná): - v případě členění souboru do dvou skupin stačí pro vyjádření celkové variability původních p proměnných - geometrický význam - projekce bodů p-rozměrného prostoru na přímku, zachovávající rozdíly mezi skupinami Diskriminační skóre i-té jednotky xi: ( , vektor výběrových průměrů) Vektor skupinových centroidů : - ty lze použít pro klasifikaci jednotek do H skupin tak, že se jednotka s neznámou příslušností zařadí do té skupiny, ke které má nejblíž ve smyslu vzdálenosti od skupinového centroidu M.Rabasová, VŠB-TU Ostrava 11

12 1.1. Deskriptivní diskriminační analýza
Klasifikace objektů do tří skupin pomocí dvou kanonických proměnných: kk M.Rabasová, VŠB-TU Ostrava 12

13 1.1. Deskriptivní diskriminační analýza
Určení vlivu k-té původní proměnné Xk na separaci skupin: - normované koeficienty charakteristického vektoru b1 : (F … diag. matice s odmocninami diag. prvků matice E) - korelační koeficienty mezi kanonickou proměnnou a původními proměnnými: - větší absolutní hodnota daného koeficientu znamená větší význam příslušné proměnné pro diskriminaci - znaménko korelačního koeficientu udává, zda s rostoucími hodnotami původní proměnné kanonická proměnná roste nebo klesá M.Rabasová, VŠB-TU Ostrava 13

14 1.2. Predikční diskriminační analýza (PDA)
Hlavní cíl: - zařazení objektů neznámého původu do předem vymezených skupin Testovací skupina → Rozhodovací pravidlo Metody: logistická regrese normální diskriminační analýza směs normálních rozdělení M.Rabasová, VŠB-TU Ostrava 14

15 1.2. Predikční diskriminační analýza
Mějme: n testovacích objektů rozdělených do dvou skupin – 0 a 1 Označme: Y … náhodnou veličinu vyjadřující příslušnost nezařazeného objektu k dané skupině, H(Y) = {0,1} Yi … náhodnou veličinu vyjadřující příslušnost i-tého objektu výběru k dané skupině, i = 1 … n, H(Yi) = {0,1} X … p-rozměrný náhodný vektor naměřených znaků u nezařazeného objektu Xi … p-rozměrný náhodný vektor naměřených znaků u i-tého objektu výběru, i = 1 … n M.Rabasová, VŠB-TU Ostrava 15

16 1.2. PDA – I. Model logistické regrese
Předpokládejme, že: , , (β0, βT)T …neznámý, (p+1)-dimenzionální vektor parametrů …odhadneme na základě známých hodnot Xi a Yi u n testovacích objektů. Odhad funkce π(x): Rozhodovací pravidlo: → objekt zařazen do sk.1 M.Rabasová, VŠB-TU Ostrava 16

17 1.2. PDA – I. Model logistické regrese
Odhady parametrů logistického modelu: místo neznámých parametrů β0, β v praxi musíme použít jejich odhady , které získáme metodou maximální věrohodnosti. Ta vede na soustavu rovnic, která se řeší iteračně. Ověřování předpokladů modelu: model logistické regrese neklade žádné podmínky na rozdělení náhodných vektorů X1, …, Xn, ale předpokládá velmi specifický tvar pravděpodobnosti P(Y = 1 | X = x), což vyžaduje ověření vhodným statistickým testem, např. Hosmerovým-Lemeshowovým. M.Rabasová, VŠB-TU Ostrava 17

18 1.2. PDA – II. Model normální diskriminační analýzy
Předpokládejme, že: , , a nezávislé p-rozměrné náhodné vektory Xi, i = 1 … n, mají v h-té skupině normální rozdělení , h = 0, 1 … neznámé parametry Rozhodovací pravidlo – lineární diskriminační funkce: → objekt zařazen do sk.1 M.Rabasová, VŠB-TU Ostrava 18

19 1.2. PDA – II. Model normální diskriminační analýzy
Odhady parametrů modelu lineární diskriminační analýzy: místo neznámých parametrů v praxi užíváme jejich maximálně věrohodné odhady které získáme jako jejich výběrové protějšky Porušení předpokladů modelu: vícerozměrná normalita → použít logistickou regresi homoskedasticita → použít kvadratickou diskriminační funkci Rozhodovací pravidlo – kvadratická diskriminační funkce: → objekt zařazen do sk.1 M.Rabasová, VŠB-TU Ostrava 19

20 1.2. PDA – III. Model směsi normálních rozdělení
- používán v situacích, kdy u skupiny n testovacích objektů není známá jejich skupinová příslušnost - nechť náhodné vektory X1, …, Xn, mají rozdělení s pravděpodobností a rozdělení s pravděp jejich hustotu rozdělení lze tedy vyjádřit vztahem: (gi … hustota rozdělení - zavedu-li náhodné veličiny Yi, i =1..n : převedu tento model na model normální diskriminační analýzy a klasifikaci jednotek s neznámou skupinovou příslušností můžu založit na stejné diskriminační funkci M.Rabasová, VŠB-TU Ostrava 20

21 1.2. PDA – Volba vhodného modelu
Volba vhodného diskriminačního modelu: Neznáme-li zařazení učících objektů do skupin, použijeme model směsi normálních rozdělení. Pokud toto zařazení známe a můžeme předpokládat normalitu rozdělení v obou skupinách, dáme přednost modelu normální diskriminační analýzy. V případě shody kovariančních matic pak použijeme lineární diskriminační funkci, v opačném případě kvadratickou. Ve všech ostatních případech použijeme model logistické regrese. M.Rabasová, VŠB-TU Ostrava 21

22 1.2. PDA – Vyhodnocení účinnosti diskriminace
Měřítkem kvality diskriminace je pravděpodobnost úspěšné klasifikace jednotek neznámého původu. Její odhad získáme: metodou resubstituce - aplikuje klasifikační pravidlo na ty jednotky, na jejichž základě bylo vytvořeno (není nestranný) metodou „holdout“ - datový soubor rozdělíme na dvě části, jednu použijeme pro odvození diskriminačního kritéria a druhou pro jeho ověření (nestranný odhad) křížovou kontrolou správnosti - diskriminační kritérium je postupně odhadnuto na základě údajů o všech jednotkách souboru s výjimkou i-té, i = 1, 2, …, n, a následně zjištěno, zda byla tato jednotka s užitím kritéria zařazena správně, či nikoli (odhad je téměř nestranný) M.Rabasová, VŠB-TU Ostrava 22

23 2. Aplikace diskriminační analýzy
2.1. Popis analyzované problematiky Zdrojová data - údaje o 1175 pacientech, kteří byli v letech operováni ve Fakultní nemocnici Ostrava v oblasti kolorekta Kolorektální chirurgie - chirurgie zabývající se chorobami tlustého střeva a konečníku (u 82% případů jde o kolorektální karcinom) Operační techniky - otevřená (klasická) laparoskopická M.Rabasová, VŠB-TU Ostrava 23

24 2.1. Popis analyzované problematiky
Laparoskopie M.Rabasová, VŠB-TU Ostrava 24

25 1.Úvod M.Rabasová, VŠB-TU Ostrava 25

26 2.1. Popis analyzované problematiky
Klady: menší operační stres + příznivější pooperační průběh (nižší spotřeba analgetik, rychlejší rekonvalescence, kratší doba hospitalizace = nižší finanční náklady) Zápory: možné komplikace při zakládání kapnoperitonea a zavádění prvního trokaru, rizika kaponperitonea samotného, vliv extrémního polohování pacientů, delší operační časy, riziko konverze (změna již započatého laparoskopického výkonu na otevřený) - delší operační čas, větší krevní ztráta, častější pooperační komplikace, delší doba hospitalizace M.Rabasová, VŠB-TU Ostrava 26

27 2.1. Popis analyzované problematiky
Cíl: správná volba operační techniky pro konkrétního pacienta Prostředky: - objektivní porovnání výsledků obou operačních technik, - nalezení rizikových faktorů konverze a pooperační morbidity a mortality, - tvorba spolehlivých modelů pro jejich predikci Nástroj: diskriminační analýza M.Rabasová, VŠB-TU Ostrava 27

28 2.1. Popis analyzované problematiky
Zdrojová data: údaje o 1175 pacientech chirurgického oddělení Fakultní nemocnice Ostrava, kteří zde v letech podstoupili operaci kolorekta záznamy pacientů: zdravotní stav před operací (BMI, krevní tlak, atd.), typ operační techniky, údaje popisující průběh operace, pooperační vývoj a případné komplikace Použité programy : MS Excel 2003, Delphi 7, SPSS verze 18 (PASW Statistics 18.0), NCSS 2004 M.Rabasová, VŠB-TU Ostrava 28

29 2.2. Predikce konverze a nalezení jejích rizikových faktorů
Cíl: predikce konverze a nalezení jejích rizikových faktorů Data: údaje 649 pacientů, kteří byli v letech operováni laparoskopicky Potenciální rizikové faktory konverze: pohlaví, body mass index (BMI), ASA klasifikace (ASA), stadium, počet předchozích operací (PPO) a závažnost operačního výkonu (ZOV) Použité metody: logistická regrese, normální diskriminační analýza M.Rabasová, VŠB-TU Ostrava 29

30 Nalezení rizikových faktorů konverze metodou FDA:
2.2. Predikce konverze a nalezení jejích rizikových faktorů Nalezení rizikových faktorů konverze metodou FDA: Vícerozměrná analýza rozptylu: M.Rabasová, VŠB-TU Ostrava 30

31 Korelační koeficienty mezi kanonickou proměnnou a
2.2. Predikce konverze a nalezení jejích rizikových faktorů Korelační koeficienty mezi kanonickou proměnnou a původními proměnnými: Proměnné s největším vlivem na případnou konverzi: ASA klasifikace, závažnost operačního výkonu M.Rabasová, VŠB-TU Ostrava 31

32 Vytvoření modelu pro predikci konverze:
2.2. Predikce konverze a nalezení jejích rizikových faktorů Vytvoření modelu pro predikci konverze: I. MODEL LOGISTICKÉ REGRESE Riziko konverze R: x1 - hodnota proměnné pohlaví, x2 - hodnota proměnné BMI, x3 - hodnota proměnné ASA klasifikace, x4 - hodnota proměnné stadium, x5 - hodnota proměnné PPO, x6 - hodnota proměnné ZOV M.Rabasová, VŠB-TU Ostrava 32

33 I. MODEL LOGISTICKÉ REGRESE Klasifikační tabulka:
2.2. Predikce konverze a nalezení jejích rizikových faktorů I. MODEL LOGISTICKÉ REGRESE Klasifikační tabulka: Hosmer-Lemeshowův test: M.Rabasová, VŠB-TU Ostrava 33

34 II. MODEL NORMÁLNÍ DISKRIMINAČNÍ ANALÝZY
2.2. Predikce konverze a nalezení jejích rizikových faktorů II. MODEL NORMÁLNÍ DISKRIMINAČNÍ ANALÝZY Koeficienty lineárních diskriminačních funkcí: Lineární diskriminační funkce pro nultou (první) skupinu: M.Rabasová, VŠB-TU Ostrava 34

35 Klasifikační tabulka:
2.2. Predikce konverze a nalezení jejích rizikových faktorů Klasifikační tabulka: M.Rabasová, VŠB-TU Ostrava 35

36 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky
Data: údaje 850 pacientů s diagnózou kolorektálního karcinomu, kteří byli operováni v letech Závěry předchozí, nerandomizované studie: laparoskopická technika je významně lepší než otevřená v případě operací karcinomu v oblasti kolon, v oblasti rekta jsou obě techniky ekvivalentní Cíl naší studie: ověřit věrohodnost těchto závěrů tzv. pseudorandomizací - aplikací tendenčních skóre Použité metody: Kaplan-Meierova metoda, Breslowovův a Mantel-Coxův (log-rank) test, logistická regrese M.Rabasová, VŠB-TU Ostrava 36

37 představena Rosenbaumem a Rubinem v roce 1983
2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky Tendenční skóre představena Rosenbaumem a Rubinem v roce 1983 užití v nerandomizovaných studiích (léčebný postup není pacientům určen náhodně), kde se může stát, že ve skupině pacientů operovaných jednou technikou je větší podíl rizikových pacientů, než je tomu u techniky jiné, a při porovnání výsledků těchto metod bychom na tento fakt měli brát zřetel řeší problém „nesourodosti“ porovnávaných skupin pacientů umožňují provést užší výběr „srovnatelných“ pacientů zajistí alespoň jistý stupeň randomizace eliminují vliv přidružených faktorů na výsledky analýzy počítána logistickou regresí M.Rabasová, VŠB-TU Ostrava 37

38 Vyhodnocení výsledků operací v oblasti kolon
2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky Vyhodnocení výsledků operací v oblasti kolon 500 pacientů (202 mužů, 298 žen; let) Sledované údaje: datum operace, datum poslední kontroly, informace, zda pacient zemřel či nikoliv M.Rabasová, VŠB-TU Ostrava 38

39 Pseudorandomizace pomocí tendenčních skóre:
2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky Pseudorandomizace pomocí tendenčních skóre: hledisko stejnorodosti porovnávaných skupin pacientů: tendence pacientů k pooperační mortalitě (úmrtí) rizikové faktory pooperační mortality zjištěné FDA: věk, BMI, ASA klasifikace, ICHS, DM, a stádium nádoru model logistické regrese vyjádřil riziko pooperační mortality R vztahem: tendenční skóre: logistickou regresí vypočtené riziko pooperační mortality M.Rabasová, VŠB-TU Ostrava 39

40 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky
každému pacientu ze skupiny 1 (laparoskopické operace) byl přiřazen pacient ze skupiny 0 (otevřené operace) se stejným skóre (pokud takový pacient existoval) užší výběr pacientů (2 skupiny srovnatelné ve smyslu tendence pacientů k pooperační mortalitě) M.Rabasová, VŠB-TU Ostrava 40

41 Vyhodnocení výsledků operací v oblasti rekta
2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky Vyhodnocení výsledků operací v oblasti rekta 309 pacientů (201 mužů, 108 žen; let) M.Rabasová, VŠB-TU Ostrava 41

42 Po aplikaci tendenčních skóre (pravděpodobnost pooperační mortality)
2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky Po aplikaci tendenčních skóre (pravděpodobnost pooperační mortality) 200 pacientů (2 skupiny srovnatelné ve smyslu tendence pacientů k pooperační mortalitě) M.Rabasová, VŠB-TU Ostrava 42

43 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky
Výsledky studie: U operací kolorektálního karcinomu se obě operační techniky – laparoskopická a otevřená, neliší v délce přežívání ani u operací v oblasti kolon, ani u operací v oblasti rekta Předchozí studie, která vyhodnotila dobu přežívání u laparoskopických operací v oblasti kolon jako významně delší než u operací otevřených neřešila problém randomizace, závěry naší studie lze tedy považovat za validnější M.Rabasová, VŠB-TU Ostrava 43

44 Literatura Normální diskriminační analýza Logistická regrese
Hebák, P., Hustopecký, J., Jarošová, E. a Pecáková, I. Vícerozměrné statistické metody [1]. Praha: Informatorium, ISBN Huberty, C.J. a Olejnik S. Applied MANOVA and Discriminant Analysis. New York: Wiley Interscience, ISBN Neil H.T. Applied Multivariate Analysis. New York: Springer-Verlag, ISBN Kachigan, S.K. Multivariate Statistical Analysis. New York: RADIUS PRESS, ISBN Logistická regrese Hebák, P., Hustopecký, J., Pecáková, I. et al. Vícerozměrné statistické metody [3]. Praha: Informatorium, ISBN Hosmer, D.W. a Lemeshow, S. Applied Logistic Regression. New York: Wiley-Interscience, ISBN Komárek, A. Porovnání tří modelů. Praha, Diplomová práce. Univerzita Karlova v Praze, Matematicko-fyzikální fakulta. M.Rabasová, VŠB-TU Ostrava 44

45 Směs normálních rozdělení
Everitt, B.S. a Hand, D.J. Finite Mixture Distributions. London: Chapman and Hall, ISBN Titterington, D.M., Smith, A.F.M. a Makov, U.E. Statistical Analysis of Finite Mixture Distributions. New York: John Wiley, ISBN Analýza přežívání Hosmer, D., Lemeshow, S. a May, S. Applied Survival Analysis, Second Edition. Hoboken: Wiley Series in Probability and Statistics, ISBN Cox, D.R. a Oakes, D. Analysis of Survival Data. London: Chapman and Hall, ISBN X. Kaplan, E.L. a Meier, P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association. 1958, 53, M.Rabasová, VŠB-TU Ostrava 45

46 Děkuji za pozornost M.Rabasová, VŠB-TU Ostrava


Stáhnout ppt "DISKRIMINAČNÍ ANALÝZA"

Podobné prezentace


Reklamy Google