Univerzita třetího věku Matematická statistika
statistika je v určitém smyslu jazykem pro shromažďování dat, manipulaci s nimi a jejich kvantitativní interpretaci Jsou tři druhy lži: lež prostá, lež odsouzeníhodná a statistika…Je statistika rafinovanou formou lži? statistické výsledky se zároveň považují za vrchol nevyvratitelného, neboť mají magické kouzlo matematické přesnosti
Příčiny zneužití statistiky nedostatečná znalost cílů, metod a možností statistiky za statistiku se často pokládá i to, co je ve skutečnosti pseudostatistikou
Popisná statistika původní význam slova statistika souvisí se státem, s jeho administrativním spravováním (zaznamenávání údajů k vojenským a daňovým účelům) slovo statistika vyjadřuje i dnes popis souboru či jeho sumarizaci – např. statistika nemocnosti (Český statistický úřad) popisná (deskriptivní) statistika se zabývá uspořádáním souborů, jejich popisem a účelnou sumarizací
Typy lidského myšlení proces zobecňování poznatků (učení se ze zkušeností) = induktivní způsob usuzování (indukcí) závěry induktivních myšlenkových pochodů jsou ovlivněny subjektivními postoji a mají pouze omezenou platnost deduktivní myšlení (dedukce) = z obecných zákonitostí (teorie) činíme závěry (predikce) pro jednotlivé případy (pozorování)
Induktivní statistika umožňuje z pozorovaných dat vytvářet obecné závěry s udáním stupně jejich spolehlivosti výpočet stupně spolehlivosti závěrů je objektivní, neboť je založen na poznatcích teorie pravděpodobnosti a nezávisí na subjektivním názoru hodnotitele
Příklad při sledování účinku léku na hodnotu krevního tlaku u nemocných s hypertenzní chorobou nelze přeměřit všechny nemocné v naší populaci místo celého souboru nemocných se vyšetří jen určitý vzorek nemocných s hypertenzní chorobou (výběr) z pozorování se snažíme odvodit závěry pro všechny pacienty trpící hypertenzní chorobou (populaci), kteří jsou použitým vzorkem reprezentováni
Populace populace (základní soubor) je zadána přesným stanovením jejích prvků (prvky jsou dány výčtem nebo vymezením společných vlastností) např.: všechny děti narozené v roce 1990 a k 1. 1. 1998 žijící na území ČR parametr (populační charakteristika) = číselná charakteristika populace, tj. nějaké pevné číslo, jehož hodnota je však obecně neznámá
Typy statistických studií pokus - plánovitě měníme faktory (či jejich hladiny, úrovně) a sledujeme jejich vliv šetření - výzkumný pracovník je pouze pasivním pozorovatelem
Pokus např.: zjištění účinku vitaminu C na určité virové onemocnění nemocné náhodně rozdělíme do dvou skupin a pouze jedné skupině podáváme vitamin C: slepý pokus = lékař při vyhodnocování účinku léčby neví, kteří pacienti vitamin C dostávali dvojitě slepý pokus = ani lékař ani pacienti nevědí, kdo vitamin C dostával (u kontrolní skupiny je podáváno placebo)
Šetření úplné šetření = sledujeme-li znaky u všech prvků (jednotek statistického šetření) populace (např. sčítání lidu) - organizačně, ekonomicky a časově náročné výběrové šetření = zjišťujeme požadované vlastnosti pouze u některých prvků populace, které vytvářejí výběr, přičemž počet prvků ve výběru nazýváme rozsah výběru
Znaky vlastnosti, sledované na prvcích (jednotkách statistického šetření) výběru či populace, nazýváme znaky (veličiny) kvalitativní, jsou-li varianty zkoumané vlastnosti dány slovním vyjádřením kvantitativní, jsou-li varianty vyjádřeny číslem
Kvantitativní znak spojitý - jednotlivé varianty znaku mohou nabývat jakékoliv hodnoty z určitého intervalu nebo rozmezí (výška, hmotnost apod.) diskrétní (nespojitý) - varianty znaku jsou vyjádřeny oddělenými čísly (počet onemocnění, počet zemřelých apod.)
Stupnice pro kvantitativní znaky intervalová stupnice - nulová pozice je věcí volby, např. teplota ve stupních Celsia poměrová stupnice - nulová pozice je pevně dána a vyjadřuje naprostou nepřítomnost měřené vlastnosti, např. hmotnost v kg
Stupnice pro kvalitativní znaky nominální stupnice - sestává ze dvou či více vzájemně se vylučujících kategorií (tříd), např. rodinný stav, pohlaví, MKN ordinální (pořadová) stupnice - hodnoty znaků jsou seskupeny do neslučitelných kategorií (tříd), které jsou vzájemně uspořádány, přičemž čísla přiřazená kategoriím odrážejí toto uspořádání, ale neposkytují žádnou informaci o vzdálenosti kategorií, např. bolest hlavy, invalidita, spokojenost se službami
Výběry jsou používány z důvodů omezeného času či prostředků vyšetřit všechny jednotky uvažované populace výběry pořizujeme metodami: náhodného (pravděpodobnostního) výběru - vybíráme prvky z populace zcela náhodně a nezávisle na našem úsudku záměrného výběru - opírá se o expertní stanoviska a různé odhady jak získat reprezentativní výběry
Náhodná veličina většina náhodných pokusů a pozorování prováděných v biologii a medicíně má výsledek vyjádřený reálným číslem = hodnota reálné náhodné veličiny jak často určité hodnoty náhodné veličiny nastávají, je exaktně matematicky popsáno pomocí rozdělení pravděpodobnosti
Diskrétní náhodná veličina může nabýt jen konečného nebo spočetného počtu hodnot pravděpodobnosti charakterizují diskrétní rozdělení pravděpodobnosti
Některá diskrétní rozdělení pravděpodobnosti binomické rozdělení Poissonovo rozdělení geometrické rozdělení hypergeometrické rozdělení
Binomické rozdělení n statisticky nezávislých pokusů, přičemž v každém pokusu může sledovaný jev buď nastat (= "úspěch") nebo nenastat (= "neúspěch") pravděpodobnost, že v n pokusech dosáhneme k úspěchů:
Binomické rozdělení - příklady Lék s pravděpodobností 0.9 vyléčí určitou nemoc. Je sledováno 100 pacientů. Počet vyléčených pacientů je náhodná veličina s Bi(100,0.9) Dospělý člověk trpí psychickou poruchou s pravděpodobností 0.2. Náhodně vybereme 25 dospělých, potom počet lidí, kteří trpí psychickou chorobou má Bi(25,0.2)
Binomické rozdělení - příklady Předpokládejme, že pravděpodobnost narození dívky je 0,49. Jaká je pravděpodobnost toho, že mezi třemi dětmi v rodině je právě jedna dívka? [0.38] Jaká je pravděpodobnost, že v rodině s 8 dětmi jsou právě 3 dívky? Opět vylučujeme, že některé děti jsou z vícečetných těhotenství. (pravděpodobnost narození dívky je 0,49.) [0.27]
Poissonovo rozdělení počet výskytů nějaké výjimečné události v daném intervalu, tj. veličina X může nabývat celočíselných hodnot od 0 do nekonečna, příčemž λ je konstanta označující průměrný počet událostí v intervalu (času nebo prostoru)
Poissonovo rozdělení - příklady Nechť pravděpodobnost výskytu nehody na nějaké křižovatce je 2 nehody za týden. Jaká je p-st výskytu nejvíce 3 nehod v následujících 14 dnech? [0.43] V určité populaci krys se vyskytuje albín s pravděpodobností 0.001, ostatní krysy jsou normálně pigmentované. Ve vzorku 100 krys náhodně vybraných z této populace určete pravděpodobnost, že vzorek a) neobsahuje albína, b) obsahuje právě jednoho albína. [0.9,0.09]
Geometrické rozdělení opakujeme-li nezávislé pokusy, při nichž může nastat nějaký jev s pravděpodobností p, pak náhodná veličina Y určuje počet neúspěšných pokusů, než poprvé nastane daný jev
Geometrické rozdělení - příklady Studenti biologie zkoumají barvu očí octomilek. P-st, že octomilka má bílou barvu je 0.25, červenou 0.75. Jaká je pravděpodobnost, že až čtrvtá zkoumaná octomilka má bílou barvu očí? [0.11] Jaká je pravděpodobnost, že dívka se narodí až jako třetí (p-st narození dívky je 0.49)? [0.13]
Spojitá náhodná veličina nabývá všech hodnot x z určitého intervalu její pravděpodobnostní rozdělení je popsáno pomocí reálné nezáporné funkce f(x), která se nazývá hustota (frekvenční funkce) rozdělení
Některá spojitá rozdělení pravděpodobnosti Gaussovo (normální) rozdělení rozdělení χ2 Studentovo t-rozdělení Fisherovo-Snedecorovo F-rozdělení
Normální rozdělení Hustota normálního rozdělení veličiny X má tvar téměř 70 % hodnot leží ve vzdálenosti menší než 1 směrodatná odchylka od průměru 95 % hodnot leží ve vzdálenosti menší než 2 směrodatné odchylky od průměru 99 % hodnot leží ve vzdálenosti menší než 3 směrodatné odchylky od průměru
Normální rozdělení - příklady Výška v populaci chlapců ve věku 3.5-4 roky má normální rozdělení s průměrem 102 cm a směrodatnou odchylkou 4.5 cm. Spočtěte, jaké procento chlapců v uvedeném věku má výšku menší nebo rovnou 93 cm. [0.02]
Výběrové rozdělení na základě výsledků výběrového šetření můžeme teoretické rozdělení pouze odhadovat prostřednictvím výběrového rozdělení výběrové rozdělení se graficky znázorňuje pomocí histogramu nebo polygonu četností
Histogram histogram se používá ke znázornění rozdělení absolutních nebo relativních četností - sloupcový graf, jehož sloupce jsou vždy vertikální a jejich výška odpovídá četnosti (absolutní nebo relativní) příklad: čas čekání na další vytrysknutí gejzíru Old Faithful v Yellowstone National Park, USA
Histogram - příklad
Míry polohy měří polohu statistického souboru na ose x a mají stejný rozměr jako samotná pozorování: průměr – „těžiště“ (citlivý na odlehlá pozorování) medián – „prostřední“ hodnota uspořádáného souboru (u sudého počtu obvykle průměr ze dvou prostředních pozorování, má smysl jen pro kvantitativní a ordinální veličiny. modus – nejčetnější hodnota (důležitýpro kvalitativní, zejména nominální znaky)
Míry polohy - příklady Vypočtěte průměr následujících výsledků vyšetření: 39, 42, 73, 67, 24, 55. [50] Co je modus v následujících výsledcích zjišťování krevních skupin: A, 0, 0, B, B, AB, A, A, 0, 0, 0, AB, B, 0, B, A, 0, AB, 0, 0, B, 0, A? [0] Co je mediánem následujících výsledků hodnocení závažnosti průběhu onemocnění, přičemž A je nejlehčí a F je nejtěžší průběh: C, E, B, D, A, A, B, F, C, C, D? [C] Co je mediánem následujících výsledků vyšetření: 61, 49, 35, 74, 53, 82? [57]
Míry variability rozpětí = rozdíl mezi nejvyšší a nejnižší hodnotou v datech (závisí na extrémních hodnotách) rozptyl = průměrná kvadratická odchylka od průměru směrodatná odchylka – odmocnina z rozptylu
Rozdělení četností tabulka rozdělení četností - ukazuje, kolikrát byly pozorovány jednotlivé hodnoty či kolik pozorování padlo do určitých intervalů kvantil – dělí uspořádaný soubor na části (kvartily, decily, percentily), např. mezi prvním a třetím kvartilem leží polovina pozorování
Rozdělení četností - příklad U 70 žen byl změřen hemoglobin s přesností 0,1 g/100 ml (minimální a maximální hodnota je označena *): 10.2, 13.7, 10.4, 14.9, 11.5, 12.0, 11.0, 13.3, 12.9, 12.1, 9.4, 13.2, 10.8, 11.7, 10.6, 10.5, 13.7, 11.8, 14.1, 10.3, 13.6, 12.1, 12.9, 11.4, 12.7, 10.6, 11.4, 11.9, 9.3, 13.5, 14.6, 11.2, 11.7, 10.9, 10.4, 12.0, 12.9, 11.1, *8.8, 10.2, 11.6, 12.5, 13.4, 12.1, 10.9, 11.3, 14.7, 10.8, 13.3, 11.9, 11.4, 12.5, 13.0, 11.6, 13.1, 9.7, 11.2, *15.0, 10.7, 12.9, 13.4, 12.3, 11.0, 14.6, 11.1, 13.5, 10.9, 13.1, 11.8, 12.2
Tabulka rozdělení četností Hladina hemoglobinu v g/100 ml Počet Relativní četnost v % Kumulativní rel. četnost v % 8,0-8,9 1 1,4 9,0-9,9 3 4,3 5,7 10,0-10,9 14 20,0 25,7 11,0-11,9 19 27,1 52,9 12,0-12,9 72,9 13,0-13,9 13 18,6 91,4 14,0-14,9 5 7,1 98,6 15,0-15,9 100,0 Celkem 70 -
Histogram
Krabicový graf (box plot) Min. 1st Qu. Median Mean 3rd Qu. Max 8.80 10.93 11.85 11.98 13.08 15.00 Stem-and-leaf plot 8 | 8 9 | 347 10 | 22344566788999 11 | 0011223444566778899 12 | 00111235579999 13 | 0112334455677 14 | 16679 15 | 0
Zešikmené rozdělení
Porovnávání výběrů pacienti s tyreotoxikózou x kontrolní skupina pacientů pacienti před léčbou a po léčbě grafické porovnávání (boxplot) testování hypotéz
Testování hypotéz je nutné zformulovat dvě hypotézy: nulovou hypotézu H0 (je obvykle opakem toho, co chceme výzkumem prokázat, když zahajujeme studii a začínáme sbírat data) alternativní hypotézu H1 (přesně vymezuje, do jaké situace se dostáváme, když nulová hypotéza neplatí)
Chyby hladina významnosti α = pravděpodobnost chyby 1. druhu Skutečnost Rozhodnutí H0 platí H0 neplatí, platí H1 Nemůžeme zamítnout H0 Správné rozhodnutí Chyba II. druhu Zamítneme H0 Chyba I. druhu
Příklad Srovnání průtoku a tlaku krve při naložené svorce na aortě Testová statistika: F= 71.84025 Kvantil Fisherova rozdělení: F2,296(0,95)= 3.026257
Vyšetřování vztahů graficky (bodový graf) korelační koeficient lineární regrese
Bodový graf, ρ=0.9111092
Bodový graf, ρ=0,822539
Předpovězení hodnot