Základy statistiky
Statistika popisná vyčerpávající šetření analytická, induktivní výběr základní charakteristika získaných dat vyčerpávající šetření analytická, induktivní charakterizace určitého vzorku populace, ze které usuzujeme na vlastnosti celého základního souboru výběr
Základní idea testování Rozlišení, co je na výsledku pozorování náhodné a co zákonité ↑ pravděpodobnost náhodného vzniku → výsledek pokládáme za náhodný ↓pravděpodobnost náhodného vzniku → výsledek pokládáme za zákonitý Hladina statistické významnosti 5%, hladina vysoké stat. významnosti 1%
Variabilita Opakovaných měření (chyba vážení, měření, přístroje atd.) Znaku v populaci (rozptyl znaku, přirozená variabilita – interindividuální) Měřené veličiny v čase (časová proměnlivost – intraindividuální) Biologických společenstev - mezipopulační rozdíly, rasové rozdíly = BIODIVERZITA
Variabilita - příčiny
Vybrané základní pojmy Experimentální jednotka – objekt, na kterém se provádí šetření Populace – soubor experimentálních jednotek Znak – vlastnost sledovaná na objektu Sledovaná veličina – číselná hodnota vyjadřující výsledek náhodného experimentu
ZÁKLADNÍ SOUBOR NÁHODNÝ VÝBĚR VÝBĚROVÝ SOUBOR ZNAK se stává náhodnou veličinou, pokud se jeho hodnota zjišťuje vylosováním objektu ze základního souboru: ZÁKLADNÍ SOUBOR NÁHODNÝ VÝBĚR VÝBĚROVÝ SOUBOR
Sběr dat data kvalitativní kvantitativní kategoriální, nominální (např. pohlaví) potřeba kódování kvantitativní diskrétní kontinuální / spojitá ordinální (např. známky ve škole 1,2,3,4,5)
Sběr dat Databáze záznam: nositel znaku pole: znaky/proměnné
Sběr dat Vztah základní soubor x výběr každý prvek základního souboru musí mít stejnou pravděpodobnost, že se stane prvkem výběru!!!! Definice výběrových kritérií / kritérií exkluze Opakovatelnost výběru
Zobrazení dat tabulka, četnostní tabulka, histogram četností) originální setříděná histogram data data 115 <100: 0 135 100-110: 1 120 111-120: 0 140 121-130: 2 125 131-140: 4 130 141-150: 8 150 151-160: 4 145 161-170: 11 . >171: 0 .
Zobrazení dat histogram box and whisker plot sloupcový graf koláčový graf
Popis dat Distribuce normální Poissonova binomická Testy normality
Normální rozložení
Popis dat Míry polohy průměr () – součet hodnot děleno počtem medián (= 50 percentil, frekvenční střed) – polovina hodnot je menší a polovina větší modus - nejčastější hodnota
Popis dat Míry variability min-max (=rozsah, range) kvantily (horní 25%, dolní 75%) směrodatná odchylka (SD, ) rozptyl (2)
-3 -2 -1 +1 +2 +3 =medián =modus
-3 -2 -1 +1 +2 +3 =medián =modus 68% 95,5% 99,7%
symetrické průměr =medián =modus asymetrická modus průměr
Transformace dat
Statistická indukce základní soubor (populace) výběr soubor prvků, o kterém chceme statistickými metodami něco zjistit výběr reprezentativní část dané populace (zákl. souboru), která má sloužit k odvození závěrů platných pro celou populaci
Odhady parametrů rozložení Výběrové charakteristiky průměr , směrodatná odchylka s Vztahujeme na základní soubor průměr μ, směrodatná odchylka σ
alternativní hypotéza Testování hypotéz porovnání výběrového souboru a teorie o základním souboru porovnání dvou základních souborů na základě porovnání dvou výběrů nulová hypotéza alternativní hypotéza
Postup při testování hypotéz vyslovení hypotéz volba testu volba pravděpodobnosti chyby zamítnutí, hladiny významnosti α výpočet zamítnutí/nezamítnutí nulové hypotézy
Statistické testy • t-test závislý • t-test nezávislý nepárové párové • t-test nezávislý (klasický t-test, two-sample) • Mann-Whitney (=Wilcoxon nezávislý) • mediánový test • t-test závislý (one-sample) • Wilcoxon závislý • znaménkový test srovnání parametru mezi 2 skupinami objektů u stejných objektů v časové souslednosti testy parametrické (pro normální nebo téměř normální rozložení) neparametrické (pro jiné než normální rozložení)
Mnohonásobné srovnání Holmův postup: seřadíme pravděpodobnosti dle velikosti nejmenší násobíme počtem srovnání další počtem srovnání -1, další -2 atd. výsledky jsou nevýznamné od prvního vyššího než je zvolená úroveň (5%, 1%)