Statistika 1 Ústav lékařské informatiky, 2. LF UK 2008
Historie: „STATUS REI PUBLICAE“
Současnost Oblast aplikované matematiky popisující hromadné jevy, využívající teorie pravděpodobnosti Rozdělení 1. DESKRIPTIVNÍ (popis, zobrazení souboru) 2. KONFIRMAČNÍ (ověření pravdy, výzkum) 3. ROZHODOVACÍ POSTUPY (volba optima při nejistotě)
Využití statistiky v medicíně – tři situace k posouzení 1.SITUACE: Práce s programem Excel Podíl alergiků ku zdravým je 17% Otázka: Který z grafů zvolíte pro správnou reprezentaci uvedených dat?
2. SITUACE: Četba článku v literatuře Ukázka výsledku publikovaných naměřených hodnot vztahu BMI a TK. Otázka: Byla skutečně prokázána korelace? Využití statistiky v medicíně – tři situace k posouzení TK BMI r = 0,5
Využití statistiky v medicíně – tři situace k posouzení 3. SITUACE: Vyhodnocení vlastních výsledků na oddělení Hypotensivum A má pozitivní účinek u 8 z 27 léčených, hypotensivum B u 19 ze 46 léčených Otázka: Je významný rozdíl mezi těmito léky? účinek + účinek - lék A819 lék B1927
Postup práce s daty 1.Zápis dat (jak vytvořit tabulku dat) 2.Grafické zobrazení (který typ grafu zvolit) 3.Posouzení rozložení hodnot (co z něj vyplývá) 4.Výpočet středních hodnot (kupř. aritmetického průměru) 5.Výpočet variability (kupř. rozptylu) 6.Posouzení konkrétního pacienta (kupř. normality hodnot)
Zapisujeme naměřená data do tabulky Příznak 1Příznak 2Příznak 3 Pacient 1 Pacient 2 Pacient 3 PŘÍKLADVÝZNAMŠKÁLA Ženské pohlaví =1Ano/NeNOMINÁLNÍ Stádium nemoci =II.PoředíORDINÁLNÍ Natrium =120,5mENumerická hodnota INTERVALOVÁ Typy dat Řádky = objekty (pacienti) Sloupce = vlastnosti (příznaky) Jsou muži nuly nebo jedničky?
Grafická reprezentace dat Typy grafů Volba grafické reprezentace není libovolná. Každé konkrétní uspořádání dat je vyjádřeno specifickým typem grafu! Sloupcový - 1 faktor, absolutní hodnoty Pruhový - -II-, delší popis Spojnicový - 2 faktory, pravidelný odstup (x = kupř. čas) Výsečový - Část z celku (%) Bodový - 2 faktory, libovolný odstup
Rozložení četností Co lze z histogramu vyčíst Modus (x) – charakteristika souboru, nejčastější hodnota dat (nejvyšší sloupec) Homogenita dat – pokud mají vytvořené histogramy jeden vrchol – jeden modus, jsou data z tohoto hlediska homogenní. Bimodální rozložení – dva či více výraznějších vrcholů signalizuje nehomogenitu dat. Je nutno najít zdroj nehomogenity a soubor rozdělit, např. posuzovat zvlášť muže a ženy. Jinak se může stát, že sčítáme „hrušky a jablka“.
Rozložení četností Symetrie dat Symetrie dat – všimněte si, že zobrazené histogramy mají rozložení 1-symetrické, 2-protažené vpravo či 3-vlevo. n –počet měření jedná se o rozložení asymetrické a pro jejich zpracování platí speciální pravidla. Šikmost (Skew) – kritérium, které číselně vyjadřuje symetrii rozložení četnosti. Pokud data nevyhoví vztahu 1. šikmost=0,02 2. šikmost=2,1 3. šikmost= -1,8
Střední hodnoty Aritmetický průměr (x) – Je silně ovlivňován extrémními hodnotami, není vhodný u asymetrických rozložení dat. Medián (x) – Prostřední hodnota mezi daty, která jsou seřazena podle velikosti. Medián je nezávislý na extrémních hodnotách. Symetrické rozložení (Gaussova křivka) x = 40 Asymetrické rozložení x = 2 Σx i /n ~
Ošidnost průměru
Variabilita dat Srovnání tří laboratoří
Vlastnosti směrodatné odchylky Pokrytí populace Error bar („graf s fousy“) – slouží k porovnání průměrů a variability v několika souborech. výška sloupce = průměr „fousy“ = ± 1 směrodatná odchylka
Percentil – v procentech vyjádřená část pozorovaných dat je použitelná i u asymetrického rozložení dat. Příklad: pod 10. percentilem leží 10 % - hodnot. Boxgraf Grafické vyjádření asymetrických dat 1.kvartil = 25. Percentil 3.kvartil=75.percentil K hodnocení poruch růstu u dětí se užívá percentilový graf Variabilita Percentily
Interpretace hodnot – co je normální? Za „normální“ se považují hodnoty do ± 2 σ celého souboru (95 %) Příklad nálezu s vyznačením rozptylu (± 2 σ ) a označením patologických hodnot hvězdičkou Rozmezí normálních hodnot - určuje se na základě velkých měření (stovky až tisíce jedinců), která již dobře vyjadřují celou populaci Populační charakteristiky se značí řeckými písmeny průměr μ směrodatná odchylka σ -2σ μ +2σ
Interpretace hodnot
Škálování nelze-li měřit konkrétní hodnotu a) Numerická hodnotící škála (max. 9, lichý počet kategorií) event. Transformace výsledků (CR. NR testy) %Škála výroků 95Pacient schopen normálních činností bez omezení 75Omezení fyzicky náročných činností 55Schopen pohybu a sebeobsluhy, ale neschopen jakékoliv práce 35Schopen omezené sebeobsluhy, upoután na lůžko více než 50% doby bdění 15Není schopen sebeobsluhy, zcela upoután na lůžko nebo křeslo b)
Binomické rozdělení pravděpodobnosti 2 Porody – 2 ♂ : 0,5 2 = 0,25 3 Porody - 3 ♂ :0,5 3 = 0,125 2 Porody - 1♂ : 1-0,5 2 = 0,75 Výskyt alternativního znaku