Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

DISKRIMINAČNÍ ANALÝZA Marcela Rabasová Vysoká škola báňská – Technická univerzita Ostrava Katedra matematiky a deskriptivní geometrie.

Podobné prezentace


Prezentace na téma: "DISKRIMINAČNÍ ANALÝZA Marcela Rabasová Vysoká škola báňská – Technická univerzita Ostrava Katedra matematiky a deskriptivní geometrie."— Transkript prezentace:

1 DISKRIMINAČNÍ ANALÝZA Marcela Rabasová Vysoká škola báňská – Technická univerzita Ostrava Katedra matematiky a deskriptivní geometrie

2 Obsah: 1. Diskriminační analýza (DA) 1.1. Deskriptivní diskriminační analýza (DDA) - Kanonická (Fisherova) diskriminační analýza (FDA) 1.2. Predikční diskriminační analýza (PDA) - Logistická regrese (LR) - Normální diskriminační analýza (NDA) - Směs normálních rozdělení (MMND) 2. Aplikace diskriminační analýzy 2.1. Popis analyzované problematiky 2.2. Predikce konverze a nalezení jejích rizikových faktorů 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky M.Rabasová, VŠB-TU Ostrava

3 1. Diskriminační analýza - vícerozměrná statistická metoda, používaná v případě, kdy je zpracovávaný soubor členěn do dvou nebo více skupin, přičemž vlastnosti každé jednotky souboru jsou popsány hodnotami několika nezávislých veličin Nechť vícerozměrná jednofaktorová analýza rozptylu vede k zamítnutí hypotézy o shodě vektorů středních hodnot v H skupinách (tzn. p sledovaných veličin X 1, …, X p závisí na daném faktoru). Nakolik je potom příslušnost jednotky ke skupině ovlivněna právě těmito veličinami? Tento směr závislosti zkoumá diskriminační analýza. Primární úloha DA (R. A. Fisher, 30. léta 19. století) - zkoumat schopnost sledovaných proměnných odlišit od sebe jednotlivé skupiny. Často pak DA směřuje k vytvoření pravidla pro klasifikaci jednotlivých jednotek. M.Rabasová, VŠB-TU Ostrava

4 1. Diskriminační analýza M.Rabasová, VŠB-TU Ostrava Aplikace DA (např. v biologii, medicíně, archeologii, technických oblastech) 1.Při kontrole jakosti či spolehlivosti lze u výrobků změřit několik kvantitativních proměnných (rozměry, hmotnost, hustotu, …), poté je podrobit určité zátěži a sledovat, zda obstojí nebo ne. K předpovědi chování dalších výrobků při zátěži je již nemusíme této zátěži vystavovat (často přitom totiž dochází k jejich znehodnocení), a výsledek zkoušky odhadnout na základě toho, jak dopadly jiné výrobky s podobnými parametry, což nám umožní klasifikační pravidlo odvozené z dat naměřených u testovací skupiny objektů.

5 1. Diskriminační analýza M.Rabasová, VŠB-TU Ostrava 2.Uchazeči o určitou profesi jsou podrobeni testům, jejichž bodová ohodnocení představují příslušné kvantitativní proměnné. Následně je zjišťována jejich úspěšnost ve zvoleném oboru. Za předpokladu souvislosti výsledků testu a úspěšnosti osob ve výběrovém souboru lze u dalších adeptů z výsledků testu usuzovat o jejich budoucím úspěchu. 3.Ve výběrovém souboru pacientů jsou pro několik diagnostikovaných chorob zjišťovány výsledky různých laboratorních testů. U nových pacientů se pak může lékař na základě výsledků těchto testů přiklonit k určité diagnóze či způsobu léčby.

6 1. Diskriminační analýza M.Rabasová, VŠB-TU Ostrava Dvě základní funkce DA: 1.určení vlivu sledovaných veličin na odlišení jednotek jednotlivých skupin (deskriptivní diskriminační analýza) 2.sestavení klasifikačního pravidla pro zařazení jednotek s neznámou skupinovou příslušností (predikční diskriminační analýza)

7 1.1. Deskriptivní diskriminační analýza (DDA) Kanonická (Fisherova) diskriminační analýza (FDA) R. A. Fisher ( )  statistik  biolog  genetik M.Rabasová, VŠB-TU Ostrava

8 1.1. Deskriptivní diskriminační analýza Princip FDA: Uvažujme náhodný výběr s rozsahem n, který je členěn do H skupin s rozsahy n h, h = 1... H. Nechť každý objekt souboru je charakterizován p-rozměrným náhodným vektorem X = (X 1, …, X p ) T, jehož realizací je vektor pozorování x = (x 1,..., x p ) T. Označme: x i … vektor p hodnot náhodných veličin X 1, …, X p zjištěných u i-té jednotky x ih … vektor p hodnot náhodných veličin X 1, …, X p zjištěných u i-té jednotky v h-té skupině, … vektor výběrových průměrů, … vektor výběrových průměrů v h-té skupině M.Rabasová, VŠB-TU Ostrava

9 1.1. Deskriptivní diskriminační analýza … celková variabilita původních proměnných … vnitroskupinová variabilita původních proměnných … meziskupinová variabilita původních proměnných Pro libovolnou lineární kombinaci Y = b T x původních proměnných X 1, …, X p, kde b T = (b 1, …, b p ) je vektor parametrů, určíme míru její meziskupinové resp. vnitrosku-pinové variability jako resp.. M.Rabasová, VŠB-TU Ostrava

10 1.1. Deskriptivní diskriminační analýza Cíl FDA: Najít takovou lineární kombinaci Y = b T x původních p proměnných, která by nejlépe ze všech separovala uvažované skupiny v tom smyslu, že její vnitroskupinová variabilita bude co nejmenší a meziskupinová variabilita co největší, tzn. aby bylo maximalizováno tzv. Fisherovo diskriminačníh kritérium: Řešení: - derivací F podle b získáme soustavu: - má netriviální řešení, pokud: - řešením jsou char. čísla matice BE -1 - charakteristický vektor b 1 odpovídající maximalizuje F - b 1 se volí tak, aby:, pak vyjadřuje míru meziskupinové variability veličiny Y 1 M.Rabasová, VŠB-TU Ostrava

11 1.1. Deskriptivní diskriminační analýza První diskriminant (první kanonická proměnná): - v případě členění souboru do dvou skupin stačí pro vyjádření celkové variability původních p proměnných - geometrický význam - projekce bodů p-rozměrného prostoru na přímku, zachovávající rozdíly mezi skupinami Diskriminační skóre i-té jednotky x i : (,... vektor výběrových průměrů) Vektor skupinových centroidů : - ty lze použít pro klasifikaci jednotek do H skupin tak, že se jednotka s neznámou příslušností zařadí do té skupiny, ke které má nejblíž ve smyslu vzdálenosti od skupinového centroidu M.Rabasová, VŠB-TU Ostrava

12 1.1. Deskriptivní diskriminační analýza Klasifikace objektů do tří skupin pomocí dvou kanonických proměnných: kk M.Rabasová, VŠB-TU Ostrava

13 1.1. Deskriptivní diskriminační analýza Určení vlivu k-té původní proměnné X k na separaci skupin: - normované koeficienty charakteristického vektoru b 1 : (F … diag. matice s odmocninami diag. prvků matice E) - korelační koeficienty mezi kanonickou proměnnou a původními proměnnými: - větší absolutní hodnota daného koeficientu znamená větší význam příslušné proměnné pro diskriminaci - znaménko korelačního koeficientu udává, zda s rostoucími hodnotami původní proměnné kanonická proměnná roste nebo klesá M.Rabasová, VŠB-TU Ostrava

14 1.2. Predikční diskriminační analýza (PDA) Hlavní cíl: - zařazení objektů neznámého původu do předem vymezených skupin Testovací skupina → Rozhodovací pravidlo Metody: logistická regrese normální diskriminační analýza směs normálních rozdělení M.Rabasová, VŠB-TU Ostrava

15 1.2. Predikční diskriminační analýza Mějme: n testovacích objektů rozdělených do dvou skupin – 0 a 1 Označme: Y … náhodnou veličinu vyjadřující příslušnost nezařazeného objektu k dané skupině, H(Y) = {0,1} Y i … náhodnou veličinu vyjadřující příslušnost i-tého objektu výběru k dané skupině, i = 1 … n, H(Y i ) = {0,1} X … p-rozměrný náhodný vektor naměřených znaků u nezařazeného objektu X i … p-rozměrný náhodný vektor naměřených znaků u i-tého objektu výběru, i = 1 … n M.Rabasová, VŠB-TU Ostrava

16 1.2. PDA – I. Model logistické regrese I. MODEL LOGISTICKÉ REGRESE Předpokládejme, že:,, (β 0, β T ) T …neznámý, (p+1)-dimenzionální vektor parametrů …odhadneme na základě známých hodnot X i a Y i u n testovacích objektů. Odhad funkce π(x): Rozhodovací pravidlo: → objekt zařazen do sk.1 M.Rabasová, VŠB-TU Ostrava

17 1.2. PDA – I. Model logistické regrese Odhady parametrů logistického modelu: místo neznámých parametrů β 0, β v praxi musíme použít jejich odhady, které získáme metodou maximální věrohodnosti. Ta vede na soustavu rovnic, která se řeší iteračně. Ověřování předpokladů modelu: model logistické regrese neklade žádné podmínky na rozdělení náhodných vektorů X 1, …, X n, ale předpokládá velmi specifický tvar pravděpodobnosti P(Y = 1 | X = x), což vyžaduje ověření vhodným statistickým testem, např. Hosmerovým-Lemeshowovým. M.Rabasová, VŠB-TU Ostrava

18 1.2. PDA – II. Model normální diskriminační analýzy II. MODEL NORMÁLNÍ DISKRIMINAČNÍ ANALÝZY Předpokládejme, že:,, a nezávislé p-rozměrné náhodné vektory X i, i = 1 … n, mají v h-té skupině normální rozdělení, h = 0, 1 … neznámé parametry Rozhodovací pravidlo – lineární diskriminační funkce: → objekt zařazen do sk.1 M.Rabasová, VŠB-TU Ostrava

19 1.2. PDA – II. Model normální diskriminační analýzy Odhady parametrů modelu lineární diskriminační analýzy: místo neznámých parametrů v praxi užíváme jejich maximálně věrohodné odhady které získáme jako jejich výběrové protějšky Porušení předpokladů modelu: vícerozměrná normalita → použít logistickou regresi homoskedasticita → použít kvadratickou diskriminační funkci Rozhodovací pravidlo – kvadratická diskriminační funkce: → objekt zařazen do sk.1 M.Rabasová, VŠB-TU Ostrava

20 1.2. PDA – III. Model směsi normálních rozdělení III. MODEL SMĚSI NORMÁLNÍCH ROZDĚLENÍ - používán v situacích, kdy u skupiny n testovacích objektů není známá jejich skupinová příslušnost - nechť náhodné vektory X 1, …, X n, mají rozdělení s pravděpodobností a rozdělení s pravděp. - jejich hustotu rozdělení lze tedy vyjádřit vztahem: (g i … hustota rozdělení - zavedu-li náhodné veličiny Y i, i =1..n : převedu tento model na model normální diskriminační analýzy a klasifikaci jednotek s neznámou skupinovou příslušností můžu založit na stejné diskriminační funkci M.Rabasová, VŠB-TU Ostrava

21 1.2. PDA – Volba vhodného modelu Volba vhodného diskriminačního modelu:  Neznáme-li zařazení učících objektů do skupin, použijeme model směsi normálních rozdělení.  Pokud toto zařazení známe a můžeme předpokládat normalitu rozdělení v obou skupinách, dáme přednost modelu normální diskriminační analýzy. V případě shody kovariančních matic pak použijeme lineární diskriminační funkci, v opačném případě kvadratickou.  Ve všech ostatních případech použijeme model logistické regrese. M.Rabasová, VŠB-TU Ostrava

22 1.2. PDA – Vyhodnocení účinnosti diskriminace Vyhodnocení účinnosti diskriminace: Měřítkem kvality diskriminace je pravděpodobnost úspěšné klasifikace jednotek neznámého původu. Její odhad získáme:  metodou resubstituce - aplikuje klasifikační pravidlo na ty jednotky, na jejichž základě bylo vytvořeno (není nestranný)  metodou „holdout“ - datový soubor rozdělíme na dvě části, jednu použijeme pro odvození diskriminačního kritéria a druhou pro jeho ověření (nestranný odhad)  křížovou kontrolou správnosti - diskriminační kritérium je postupně odhadnuto na základě údajů o všech jednotkách souboru s výjimkou i-té, i = 1, 2, …, n, a následně zjištěno, zda byla tato jednotka s užitím kritéria zařazena správně, či nikoli (odhad je téměř nestranný) M.Rabasová, VŠB-TU Ostrava

23 2. Aplikace diskriminační analýzy 2.1. Popis analyzované problematiky Zdrojová data - údaje o 1175 pacientech, kteří byli v letech operováni ve Fakultní nemocnici Ostrava v oblasti kolorekta Kolorektální chirurgie - chirurgie zabývající se chorobami tlustého střeva a konečníku (u 82% případů jde o kolorektální karcinom) Operační techniky - otevřená (klasická) - laparoskopická M.Rabasová, VŠB-TU Ostrava

24 2.1. Popis analyzované problematiky Laparoskopie M.Rabasová, VŠB-TU Ostrava

25 1.Úvod M.Rabasová, VŠB-TU Ostrava

26 2.1. Popis analyzované problematiky Klady: menší operační stres + příznivější pooperační průběh (nižší spotřeba analgetik, rychlejší rekonvalescence, kratší doba hospitalizace = nižší finanční náklady) Zápory: možné komplikace při zakládání kapnoperitonea a zavádění prvního trokaru, rizika kaponperitonea samotného, vliv extrémního polohování pacientů, delší operační časy, riziko konverze (změna již započatého laparoskopického výkonu na otevřený) - delší operační čas, větší krevní ztráta, častější pooperační komplikace, delší doba hospitalizace M.Rabasová, VŠB-TU Ostrava

27 2.1. Popis analyzované problematiky  Cíl: ̵ správná volba operační techniky pro konkrétního pacienta  Prostředky: ̵ - objektivní porovnání výsledků obou operačních ̵ technik, ̵ - nalezení rizikových faktorů konverze a ̵ pooperační morbidity a mortality, ̵ - tvorba spolehlivých modelů pro jejich predikci  Nástroj: diskriminační analýza M.Rabasová, VŠB-TU Ostrava

28 2.1. Popis analyzované problematiky Zdrojová data:  údaje o 1175 pacientech chirurgického oddělení Fakultní nemocnice Ostrava, kteří zde v letech podstoupili operaci kolorekta  záznamy pacientů: zdravotní stav před operací (BMI, krevní tlak, atd.), typ operační techniky, údaje popisující průběh operace, pooperační vývoj a případné komplikace  Použité programy : MS Excel 2003, Delphi 7, SPSS verze 18 (PASW Statistics 18.0), NCSS 2004 M.Rabasová, VŠB-TU Ostrava

29 2.2. Predikce konverze a nalezení jejích rizikových faktorů  Cíl: predikce konverze a nalezení jejích rizikových faktorů  Data: údaje 649 pacientů, kteří byli v letech operováni laparoskopicky  Potenciální rizikové faktory konverze:  pohlaví, body mass index (BMI), ASA klasifikace (ASA), stadium, počet předchozích operací (PPO) a závažnost operačního výkonu (ZOV)  Použité metody:  logistická regrese, normální diskriminační analýza M.Rabasová, VŠB-TU Ostrava

30 Nalezení rizikových faktorů konverze metodou FDA: Vícerozměrná analýza rozptylu: M.Rabasová, VŠB-TU Ostrava 2.2. Predikce konverze a nalezení jejích rizikových faktorů

31 Korelační koeficienty mezi kanonickou proměnnou a původními proměnnými: Proměnné s největším vlivem na případnou konverzi: ASA klasifikace, závažnost operačního výkonu M.Rabasová, VŠB-TU Ostrava 2.2. Predikce konverze a nalezení jejích rizikových faktorů

32 Vytvoření modelu pro predikci konverze: I. MODEL LOGISTICKÉ REGRESE Riziko konverze R: x 1 - hodnota proměnné pohlaví, x 2 - hodnota proměnné BMI, x 3 - hodnota proměnné ASA klasifikace, x 4 - hodnota proměnné stadium, x 5 - hodnota proměnné PPO, x 6 - hodnota proměnné ZOV M.Rabasová, VŠB-TU Ostrava 2.2. Predikce konverze a nalezení jejích rizikových faktorů

33 I. MODEL LOGISTICKÉ REGRESE Klasifikační tabulka: Hosmer-Lemeshowův test: M.Rabasová, VŠB-TU Ostrava 2.2. Predikce konverze a nalezení jejích rizikových faktorů

34 II. MODEL NORMÁLNÍ DISKRIMINAČNÍ ANALÝZY Koeficienty lineárních diskriminačních funkcí: Lineární diskriminační funkce pro nultou (první) skupinu: M.Rabasová, VŠB-TU Ostrava 2.2. Predikce konverze a nalezení jejích rizikových faktorů

35 Klasifikační tabulka: M.Rabasová, VŠB-TU Ostrava 2.2. Predikce konverze a nalezení jejích rizikových faktorů

36 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky  Data: údaje 850 pacientů s diagnózou kolorektálního karcinomu, kteří byli operováni v letech  Závěry předchozí, nerandomizované studie: laparoskopická technika je významně lepší než otevřená v případě operací karcinomu v oblasti kolon, v oblasti rekta jsou obě techniky ekvivalentní  Cíl naší studie: ověřit věrohodnost těchto závěrů tzv. pseudorandomizací - aplikací tendenčních skóre  Použité metody: Kaplan-Meierova metoda, Breslowovův a Mantel-Coxův (log-rank) test, logistická regrese M.Rabasová, VŠB-TU Ostrava

37 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky Tendenční skóre ̵ představena Rosenbaumem a Rubinem v roce 1983 ̵ užití v nerandomizovaných studiích (léčebný postup není pacientům určen náhodně), kde se může stát, že ve skupině pacientů operovaných jednou technikou je větší podíl rizikových pacientů, než je tomu u techniky jiné, a při porovnání výsledků těchto metod bychom na tento fakt měli brát zřetel ̵ řeší problém „nesourodosti“ porovnávaných skupin pacientů ̵ umožňují provést užší výběr „srovnatelných“ pacientů ̵ zajistí alespoň jistý stupeň randomizace ̵ eliminují vliv přidružených faktorů na výsledky analýzy ̵ počítána logistickou regresí

38 M.Rabasová, VŠB-TU Ostrava 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky Vyhodnocení výsledků operací v oblasti kolon ̵ 500 pacientů (202 mužů, 298 žen; let) ̵ Sledované údaje: datum operace, datum poslední kontroly, informace, zda pacient zemřel či nikoliv

39 Pseudorandomizace pomocí tendenčních skóre: ̵ hledisko stejnorodosti porovnávaných skupin pacientů: tendence pacientů k pooperační mortalitě (úmrtí) ̵ rizikové faktory pooperační mortality zjištěné FDA: ̵ věk, BMI, ASA klasifikace, ICHS, DM, a stádium nádoru ̵ model logistické regrese vyjádřil riziko pooperační mortality R vztahem: ̵ tendenční skóre: ̵ logistickou regresí vypočtené riziko pooperační mortality M.Rabasová, VŠB-TU Ostrava 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky

40 ̵ každému pacientu ze skupiny 1 (laparoskopické operace) byl přiřazen pacient ze skupiny 0 (otevřené operace) se stejným skóre (pokud takový pacient existoval) ̵ užší výběr pacientů (2 skupiny srovnatelné ve smyslu tendence pacientů k pooperační mortalitě) M.Rabasová, VŠB-TU Ostrava 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky

41 Vyhodnocení výsledků operací v oblasti rekta ̵ 309 pacientů (201 mužů, 108 žen; let) M.Rabasová, VŠB-TU Ostrava 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky

42 ̵ Po aplikaci tendenčních skóre (pravděpodobnost pooperační mortality) ̵ 200 pacientů (2 skupiny srovnatelné ve smyslu tendence pacientů k pooperační mortalitě) M.Rabasová, VŠB-TU Ostrava 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky

43 Výsledky studie:  U operací kolorektálního karcinomu se obě operační techniky – laparoskopická a otevřená, neliší v délce přežívání ani u operací v oblasti kolon, ani u operací v oblasti rekta  Předchozí studie, která vyhodnotila dobu přežívání u laparoskopických operací v oblasti kolon jako významně delší než u operací otevřených neřešila problém randomizace, závěry naší studie lze tedy považovat za validnější M.Rabasová, VŠB-TU Ostrava 2.3. Porovnání dlouhodobého přežívání otevřené a laparoskopické techniky

44 Literatura Normální diskriminační analýza Hebák, P., Hustopecký, J., Jarošová, E. a Pecáková, I. Vícerozměrné statistické metody [1]. Praha: Informatorium, ISBN Huberty, C.J. a Olejnik S. Applied MANOVA and Discriminant Analysis. New York: Wiley Interscience, ISBN Neil H.T. Applied Multivariate Analysis. New York: Springer-Verlag, ISBN Kachigan, S.K. Multivariate Statistical Analysis. New York: RADIUS PRESS, ISBN Logistická regrese Hebák, P., Hustopecký, J., Pecáková, I. et al. Vícerozměrné statistické metody [3]. Praha: Informatorium, ISBN Hosmer, D.W. a Lemeshow, S. Applied Logistic Regression. New York: Wiley- Interscience, ISBN Komárek, A. Porovnání tří modelů. Praha, Diplomová práce. Univerzita Karlova v Praze, Matematicko-fyzikální fakulta. M.Rabasová, VŠB-TU Ostrava

45 Směs normálních rozdělení Everitt, B.S. a Hand, D.J. Finite Mixture Distributions. London: Chapman and Hall, ISBN Titterington, D.M., Smith, A.F.M. a Makov, U.E. Statistical Analysis of Finite Mixture Distributions. New York: John Wiley, ISBN Analýza přežívání Hosmer, D., Lemeshow, S. a May, S. Applied Survival Analysis, Second Edition. Hoboken: Wiley Series in Probability and Statistics, ISBN Cox, D.R. a Oakes, D. Analysis of Survival Data. London: Chapman and Hall, ISBN X. Kaplan, E.L. a Meier, P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association. 1958, 53, M.Rabasová, VŠB-TU Ostrava

46 Děkuji za pozornost M.Rabasová, VŠB-TU Ostrava


Stáhnout ppt "DISKRIMINAČNÍ ANALÝZA Marcela Rabasová Vysoká škola báňská – Technická univerzita Ostrava Katedra matematiky a deskriptivní geometrie."

Podobné prezentace


Reklamy Google