ÚVOD DO STATISTIKY „Jsou tři druhy lží: lži, odsouze-níhodné lži a statistiky“ (Swoboda 1977) Význam statistiky ve vědě Základní pojmy statistiky Statistická jednotka, znak a soubor,.. Elementární postupy statistiky - variační řada - statistické třídění Grafické zpracování dat - diagramy - histogram - frekvenční polygony HENDL,J. Přehled statistických metod zpracování dat. 1.vyd. Praha, Portál, 2004.ISBN80-7178-820-1. MELOUN, M. MILITKÝ, J. Kompendium statistického zpracování dat. 1. vyd. Praha: Academia, 2002. ISBN 80-200-1008-4. ANDĚL, J. Statistické metody. 3. vyd. Praha: matfyzpress, 2003. ISBNB80-86732-08-8. http://ucebnice.euromise.cz/ndex.php?conn=0§ion=biostat1
Význam statistiky ve vědě Za základní cíl vědy je možné považovat “obecné porozumění” pozorovaným jevům V současnosti se v něm objevují dvě obecné koncepce vědeckého poznávání: - kvantitativní výzkum - kvalitativní výzkum Kvantitativní výzkum je důkladně rozpracován a opírá se o hypoteticko deduktivní princip ověřování teorií a využití statistických metod STATISTICKÉ METODY TVOŘÍ MOST MEZI VĚDECKOU TEORIÍ A EMPIRICKÝM VÝZKUMEM. Význam statistických metod pro rozvoj vědy - při zjišťování jednotlivých zákonitostí přispívajících k dílčí explanaci jednotlivých jevů - při budování a formalizaci vědecké teorie, která má v kontextu explanační funkci
Pojetí statistiky, základní pojmy Statistika - teoretická disciplína, zabývající se metodami zkoumání stavu a vývoje kvantitativní stránky hromadných jevů Statistická jednotka je nositel hromadného jevu - jisté vlastnosti, která se vyskytuje u velkého počtu věcí, jedinců. Statistický znak je kvantitativní charakteristikou této vlastnosti statistických jednotek - číselné údaje o hromadných jevech, jejich sběru - výzkum znaku je předmětem statistického šetření Proměnná: - (log.) názvová proměnná je znak, který zastupuje kterýkoliv objekt z určitého souboru znaku . Jsou-li oborem proměnné výroky, pak se mluví o výrokové proměnné - (v mat..analýze) je proměnná definována vzorcem funkce Statistický soubor je konečná neprázdná množina prvků, které mají určité společné vlastnosti (statistických jednotek stejného druhu -populace)
Rozsah souboru je dán počtem statistických jednotek souboru Empirická data Základní soubor je soubor všech statistických jednotek, na něž se vzta-huje příslušné zkoumání Výběrový soubor podmnožina základního souboru jež je vytvářena podle určitých pravidel Rozsah souboru je dán počtem statistických jednotek souboru
Typy proměnné (variable)
Nebezpečí selhání při statistickém zpracování dat (Upraveno podle Swobody 1977)
Rozdělení statistiky Popisná (deskriptivní) Výběrová (induktivní) Redukuje a vyjadřuje zjištěná data jednodušeji při dostateč-ném zachování informace? Zobecňuje pravidelnosti (zákonitosti), které byly zjištěny na výběru, pro celý základní soubor
ELEMENTÁRNÍ STATISTICKÉ POSTUPY
Statistické třídění statistického souboru podle znaku Výsledky uspořádání vyjadřujeme v přehledné formě tzv. tabulce jednorozměrného rozdělení četnosti
Hodnota funkce je zobrazení, které každému prvku dané množiny přiřazuje právě jedno reálné nebo komplexní číslo Hodnota funkce pro danou množinu A, je číslo, které f-ce přiřazuje z prvků a e A . Histogram je sloupcovým grafem znázorňujícím vztah mezi hodnotami proměnné xi a jejich relativními četnostmi
Kolik zvolit intervalů histogramu?
Bodový graf (Scatter chart)
Grafické zpracování dat Sloupcový (2D – 3D) graf (Bar chart) Koláčový graf (Pie Chart)
Poslání statistiky Statistika nám pomáhá odhalovat zákonitosti v našem stochastickém světě. Umožňuje nám odfiltrovávat či alespoň kvantifikovat vliv náhody na naše experimentální data.
POPIS JEDNOROZMĚRNÝCH STATISTICKÝCH SOUBORŮ Úkolem statistického popisu je zhuštěné charakterizování vlastnosti jednorozměrného rozdělení četností
Momentové míry jsou vhodné pro znaky měřené na stupnici intervalové. MĚŘENÍ ÚROVNĚ ZKOUMANÝCH VLASTNOSTÍ STATISTICKÉHO ZNAKU v jednorozměrné statistickém souboru Pro měření úrovně zkoumaných jevů jsou nutné charakteristiky - míry, které budou zevšeobecňovat: - velikost hodnot sledovaného znaku u všech jednotek souboru – střední hodnoty - vzájemnou odlišnost hodnot mezi sebou i od střední hodnoty – variability Kvantilové míry jsou vhodné pro znaky měřené na stupnici nominální a ordinální Momentové míry jsou vhodné pro znaky měřené na stupnici intervalové.
Vztah mezi mírami polohy
variační a kvartilová odchylka Míry Konstrukce kvantilová momentová polohy modus, medián průměr aritmetický (harmonický, geometrický) variability absolutní variační a kvartilová odchylka rozptyl směrodatná odchylka relativní Variační koeficient nesouměrnosti Koeficent šikmosti α koncentrace Koeficent šikmosti β
Krabicový graf
Standardizace testových skórů Druhy standardních skóre Ti = 50 + 10 zi (T body) CEEBi = 500 + 100 zi MQi = 100 + 15 zi (motorický kvocient) Si = 5,5 + 2 zi (steny… 1 bod 0,5 s) Ci = 5 + 2 zi (staniny… 1 bod 0,5 s) ZNi =3 - zi (školní známka Lienertova)
Klasický přístup k indexu ES – index velikosti vlivu ( effect of size) Index velikosti vlivu vyjadřuje podíl „vysvětleného“ rozptylu, tzv. Hayesův koeficient ω2 vyjadřuje relativní podíl experimentálního faktoru na rozptylu velikosti efektu.
CELKOVÝ ROZPTYL A DÍLČÍ MÍRY VARIBILITY Celkový rozptyl var x = vážený aritmetický průměr dílčích rozptylů rozptylem dílčích průměrů Rozklad celkového rozptylu na složky je velmi důležitou součástí umožňující hlubší zkoumání statistických jevů: korelační počet, analýza rozptylu
Využití rozkladu celkového rozptylu ve statistice rozptyl dílčích průměrů průměr dílčích rozptylů meziskupinový rozptyl var x vnitroskupinový rozptyl var x rozptyl podmíněných průměrů průměr podmíněných rozptylů rozptyl teoretický hodnot y, rozptyl kolem regresní funkce var y, var (y -y,) rozptyl mezi výběry rozptyl uvnitř výběrů Výběry souborů jsou prováděny podle experimentálního pravidla
POPIS VÍCEROZMĚRNÝCH STATISTICKÝCH SOUBORŮ Statistická a korelační závislost Úkoly korelačního počtu regrese vlastní korelace Grafické vyjádření dvourozměrného rozdělení četností
Korelační závislost Mění-li se při změnách hodnot proměnné x podmíněná rozdělení relativních četností znaku y tak, že se mění rovněž podmíněné průměry, označujeme takovouto statistickou závislost za korelační .
Úkoly korelačního počtu 1. regrese určení regresních čar, sloužících k odhadům neznámých hodnot závisle proměnné (y) při známých hodnotách nezávisle proměnné (x) - regrese 2. vlastní korelace postihuje povahu dané závislosti a stanoví její konkrétní formy tak, aby bylo možno provádět měření těsnosti korelační závislosti, aby bylo možno posuzovat přesnost regresních odhadů a sílu dané korelační závislosti - vlastní korelace
Jednoduchá regrese stanovení regresních čar odhad na základě podmíněných průměrů odhad na základě regresních funkcí určit typ funkce postihuje povahu dané závislosti a stanoví její konkrétní formy tak, aby bylo možno provádět - na základě znalosti průběhu a vlastností hlavních analytických funkcí - logického rozboru zkoumané závislosti (empirického průběhu závislosti) stanovit konkrétní funkční rovnici
Odhad na základě podmíněných průměrů Odhad na základě lineární regresní funkce
Vlastní korelace korelační poměr index korelace MĚŘENÍ TĚSNOSTI KORELAČNÍ ZÁVISLOSTI korelační poměr index korelace korelační koeficient
Vlastní korelace druhý úkol korelačního počtu měření těsnosti (síly) dané korelační závislosti vychází z posuzování přesnosti regresních odhadů ČÍM JE VARIABILITA HODNOT ZNAKU V PODMÍNĚNÝCH ROZDĚLENÍCH ZÁVISLE PROMĚNNÉ y MENŠÍ, TÍM TĚSNĚJŠÍ JE KORELAČNÍ ZÁVISLOST postihuje povahu dané závislosti a stanoví její konkrétní formy tak, aby bylo možno provádět čím je těsnost korelační závislosti větší, tím jsou podmíněné průměry závisle proměnné typičtějšími charakteristikamia tím lépe lze prakticky využít znalosti o průběhu korelační závislosti
Měření těsnosti korelační závislosti Těsností korelační závislosti rozumíme průměrnou variabilitu závisle proměnné v podmíněných rozděleních četností Korelační poměr Index korelace
Geometrická interpretace jednoduché lineární korelace
Tvary závislostí a hodnoty korelačního koeficientu r
r =1,000 r =0,000 r =0,934 r =0,967 K posouzení míry vhodnosti regresní funkce může sloužit také pouze hodnota reziduální rozptyl.
Míry pro nominální proměnné Chí-kvadrát (test o nezávislosti) Pearson chi-square statistic (QP) Koeficient Φí Phi-coefficient Cramérův koeficient kontingence Cramér's V , kde q = min {r, s} Kontingenční koeficient (Pearsonův koeficient průměrné čtvercové kontingence) Contingency coefficient (coefficient of contingency) Asymetrická lambda (Goodmanova-Kruskalova lambda) Goodmanovo-Kruskalovo τ
Míry pro ordinální proměnné Gama Kendallův koeficient tau-b Kendallův koeficient tau-c Somersovo d Spearmanův koeficient pořadové korelace
Složitější závislosti – vícenásobná regrese yi - výška syna xi - výška otce zi - výška matky α průsečík s osou Y βx regresní koeficient (výšky syna na výšce otce) βz regresní koeficient (výšky syna na výšce matky) Koeficient vícenásobné korelace (koeficient determinace) r2 - korelace mezi pozorovanými hodnotami a jejich odhadem na základě znalosti výšky obou rodičů tj. mezi yi a α+βxxi+βzzi 0 ≤ r2 ≤ 1 nezávislost závislost