Survival Analysis Mgr. Pavel Tuček, Ph.D. Olomouc 10.03.2010.

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

VÝPOČET OC.
Testování parametrických hypotéz
Jednovýběrové testy parametrickch hypotéz
Limitní věty.
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
A5M33IZS – Informační a znalostní systémy Datová analýza I.
Odhady parametrů základního souboru
Cvičení 6 – 25. října 2010 Heteroskedasticita
Cvičení října 2010.
Statistika schématicky Tomáš Mrkvička. Základy znáte Konfidenční intervaly Porovnání 2 či více výběrů Regresní modely Základy časových řad.
Analýza variance (Analysis of variance)
Statistika II Michal Jurajda.
Diskrétní rozdělení a jejich použití
Regresní analýza a korelační analýza
Obsah prezentace Náhodná proměnná Rozdělení náhodné proměnné.
také Gaussovo rozdělení (normal or Gaussian distribution)
Obecný lineární model Analýza kovariance Nelineární modely
Základy ekonometrie Cvičení září 2010.
Vybraná rozdělení spojité náhodné veličiny
Generování náhodných veličin (2) Spojitá rozdělení
Toolbox analýzy a modelování stochastických systémů b Ústav teorie informace a automatizace, AVČR b Oddělení stochastické informatiky b Ing. Petr Salaba.
Některá diskrétní a spojitá rozdělení náhodné veličiny.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Data s diskrétním rozdělením
Statistická analýza únavových zkoušek
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Matematické metody v ekonomice a řízení II 4. Metoda PERT
Normální (Gaussovo) rozdělení
Vybraná rozdělení spojité náhodné veličiny
Lineární regrese.
Lineární regresní analýza
Další spojitá rozdělení pravděpodobnosti
Biostatistika 7. přednáška
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Tvorba simulačních modelů. Než vznikne model 1.Existence problému 2.Podrobnosti o problému a o systému 3.Jiné možnosti řešení ? 4.Existence podobného.
Základy zpracování geologických dat
Metrologie   Přednáška č. 5 Nejistoty měření.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Časová analýza stochastických sítí - PERT
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
Normální rozdělení a ověření normality dat
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Poissonovo rozdělení diskrétní náhodné veličiny
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
IV..
Aplikovaná statistika 2.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Možnosti biostatistiky RNDr. Karel Hrach, Ph.D. Ústav zdravotnických studií UJEP Biomedicínský výzkum s podporou evropských zdrojů v nemocnicích ( )
Etapy stat.šetření Plán šetření Sběr dat
Stručný přehled modelových rozložení I.
Některá rozdělení náhodných veličin
Spojitá náhodná veličina
Statistické testování – základní pojmy
Základy statistické indukce
t-test Počítání t-testu t statistika Měření velikosti efektu
- váhy jednotlivých studií
Úvod do molekulární medicíny – cvičení
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Typy proměnných Kvalitativní/kategorická binární - ano/ne
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Statistika a výpočetní technika
Rozdělení pravděpodobnosti
Základy statistiky.
Transkript prezentace:

Survival Analysis Mgr. Pavel Tuček, Ph.D. Olomouc

Praktický „Background“ Předmětem analýzy přežívání je vyšetřévání jedné nebo více skupin objektů, kde pro každý jednotlivý objekt máme dánu událost (selhání), která nastává po nějakém časovém intervalu (doba do selhání, doba přežití). Příklady doby do selhání zahrnují dobu životnosti součástek, dobu přežívání pacientů v klinických experimentech, dobu trvání stávek, delku doby nezaměstnanosti, dobu potřebnou k vykonání nějakého specifického úkolu….

Praktický „Background“ Problémy, které se nejčastěji řeší jsou tedy odhad pravděpodobnostního rozložení doby přežití v dané skupině nebo statistické porovnání dob přežití v několika skupinách. Pokud navíc máme pro každý objekt i několik vysvětlujících proměnných, můžeme analyzovat jejich vliv k na dobu přežívání. Možnost výskytu neúplných pozorování zabraňuje použití klasických metod. Tyto údaje dávají pouze informaci, že za sledovanou dobu k danému jevu nedošlo - cenzorování

Proč? Mohu porovnávat průběh křivek přežívání mezi dvěma nebo více skupinami Mohu odhadnout “poločas“ trvání (délky života) spolu s konfidenčním intervalem Mohu testovat vliv kvantitativních proměnných i faktorů na průběh křivky – Cox proportional hazard model, předpokládá konstatní násobné zvýšení či snížení míry rizika

Úvod Survival analysis, doménou jsou lékařské aplikace Obecně pro data, ve kterých dochází k tzv. cenzoringu (censoring) Nejčastější tzv. right censoring: sleduji dobu existence jedince nebo jevu a v určitém okamžiku své pozorování ukončím, ale jedinec žije dál, nevím jak dlouho Left censoring x intervalový cenzoring je většinou nepoužitelný Pro data bez cenzoringu existují jednodušší metody (analýza délek života regresí – normální nebo generalized linear models)

Příklady Lékařské vědy smrt relaps objevení symptomů začátek nemoci Sociologie rozvod změna zaměstnání zanechání kouření první použití drogy Pedagogika zanechání studia začátek studia na vysoké škole Ekonomie bankrot délka stávky žádost o pomoc v nezaměstnanost

eal Example

Funkce přežití T je náhodná veličina, která popisuje dobu do selhání. Při popisu rozdělení náhodného chování časů přežití se používá funkce přežití S(t), která udává pro čas t pravděpodobnost přežití jedince: S(t)=P(T≥t), Protože se jedná o pravděpodobnost, nabývá funkce pouze kladných hodnot a má klesající průběh s tím, jak se pravděpodobnost přežití jedince zmenšuje.

Funkce přežití Hustota náhodné veličiny T Intenzita selhání (riziková funkce – hazard function)) Vzájemný vztah:

Rozdělení pstí pro dobu selhání Exponenciální Gamma rozdělení – intenzita má komplikované vyjádření – dva parametry Weibullovo rozdělení Log-normální rozdělení – intenzita není monotónní a má opět dva parametry Inverzní Gaussovo rodělení – není vhodné pro cenzory

Řešení pomocí MLE

Neparametrický přístup Pro nás se tedy situace zjednodušila na dva nejběžnější přístupy a to je metoda LIFE-TABLE (epidemiologie, pojišťovnictví, geovědy) a přesnější KAPLAN-MEIEROVY odhady („product limit“, užívá se všude ) Podstatné je rozdělit sledovaný časový úsek na podintervaly. Používat se bude následující označení:

Neparametrický přístup n i – počet živých jedinců l i – počet ztracených během I i p i – pravděpodobnost přežití období I i, když na počátku toho období byl naživu w i + l i – počet cenzorovaných pozorování v I i d i – počet selhání během I i w i – počet ukončení bez selhání během I i

Neparametrický přístup Potom pro pravděpodobnost přežití platí Metodou LIFE-TABLE se tedy dají odhadnout neznámé p i pomocí p i =1-d i /n i ’, kde n i ’=n i -0.5(w i +l i ).Výsledný odhad je pak

Neparametrický přístup Pro zajímavost se dá spočítat i velice hodnotný odhad variance pro tyto odhady. Vychází z Greenwoodovy formule a je ve tvaru: Bohužel se tato metoda nehodí pro malá pozorování!!!!!

KAPLAN MEIER Daleko efektivnější je následující úvaha: Pozorujeme data v následující struktuře uspořádaných dvojic: (Y (1),δ 1 ),…, (Y (n),δ n ), kde Y je čas a δ je binární atribut. Rozptyl se dá opět dopočítat pomocí dříve ukázané formule. Dá se rovněž dokázat asymptotická normalita

Testování Pro testování rozdílů, shody, neshody a náhody se dá použít navržených testů GEHANUV (Zobecněný wilcox, resp. Mann-whitney) a MANTEL-HANZELUV (založen na posloupnosti čtyřpolních tabulek)

Back to eal World

BOX - COX Cox navrhl modelovat vztah mezi nezávislými proměnnými a funkcí rizika. Jeho přístup vychází z modelové rovnice: Častěji se modelová rovnice vyjadřuje v logaritmickém tvaru:

Hazard atio

Dík za pozornost