Biostatistika.

Slides:



Advertisements
Podobné prezentace
Statistika.
Advertisements

Statistické funkce v tabulkovém kalkulátoru Excel MS
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
“Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky.”
Statistické charakteristiky variability
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Charakteristiky variability
Diskrétní rozdělení a jejich použití
Popisná statistika - pokračování
Statistika Vypracoval: Mgr. Lukáš Bičík
Charakteristiky polohy hodnoty znaku - čísla popisující polohu znaku na číselné ose -můžeme zvolit: -Aritmetický průměr -Modus, medián -Harmonický průměr.
Základní statistické pojmy a postupy
Obsah statistiky Jana Zvárová
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
MUDr. Michal Jurajda, PhD. ÚPF LF MU
také Gaussovo rozdělení (normal or Gaussian distribution)
Řízení a supervize v sociálních a zdravotnických organizacích
Nechť (, , P) je pravděpodobnostní prostor:
Principy konstrukce norem a základní statistické pojmy
Odhady odhady bodové a intervalové odhady
Charakteristické rysy a typy jednorozměrného rozdělení četností.
Charakteristiky variability
Lineární regrese.
- Pojmy - SPSS Statistické zpracování kvantitativních šetření.
Biostatistika 4. přednáška
Charakteristiky variability
Popisná statistika III
Teorie psychodiagnostiky a psychometrie
Odhad metodou maximální věrohodnost
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
Pohled z ptačí perspektivy
Na co ve výuce statistiky není čas
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Biostatistika 8. přednáška
RNDr. Monika Pávková Goldbergová
VY_32_INOVACE_21-16 STATISTIKA 2 Další prvky charakteristiky souboru.
Popisná analýza v programu Statistica
K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Charakteristiky variability VY_32_INOVACE_M4r0120 Mgr. Jakub Němec.
Inferenční statistika - úvod
Základy popisné statistiky
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Odhady odhady bodové a intervalové odhady
Induktivní statistika
Induktivní statistika
Induktivní statistika
Statistika 2.cvičení
Popisná statistika: přehled
Popisná analýza v programu Statistica
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Proč statistika ? Dva důvody Popis Inference
METODOLOGIE MAGISTERSKÉ PRÁCE
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Kapitola 3: Centrální tendence a variabilita
Metodologie pro ISK 2 Úvod do práce s daty
Střední škola obchodně technická s. r. o.
Statistika a výpočetní technika
Analýza kardinálních proměnných
Autor: Honnerová Helena
Induktivní statistika
Základy statistiky.
Základy popisné statistiky
Biostatistika
Transkript prezentace:

Biostatistika

Statistika Citáty o statistice Statistika je věda o přesném nakládání s nepřesnými čísly Známe tři druhy lži: úmyslnou, neúmyslnou a statistiku Důvěřuji pouze té statistice, kterou jsem sám zfalšoval (připisuje se Churchilovi) Statistika nuda je, má však cenné údaje...

Nač budete potřebovat znát statistiku? Protože z ní máte zkoušku. Protože bez statistického hodnocení neobhájíte diplomku, nevezmou vám článek do tisku, apod. Protože bez statistiky není možné hodnotit kvantitativní výsledky žádného pokusu nebo pozorování. Bez základních znalostí statistiky neporozumíte plně většině biologických prací.

Co je to biostatistika V podstatě neexistuje jako samostatný obor. Užíváním toho slova naznačujeme, že se jedná o aplikaci statistických metod na řešení biologických problémů. [a biologická data mají svoje specifika]

A co je tedy statistika? (v laické mluvě) Uspořádaný soubor dat: statistika střel na bránu, statistika úrazů v jednotlivých krajích (v odborné mluvě) Věda, co s těmi daty budeme dělat - (matematická) statistika jako věda V rámci statistiky - nějaká hodnota, kterou z čísel získáme, která nám nějak “syntetizuje” vlastnosti daných čísel

Cíle statistiky (1) Popisná statistika - zpřehlednit soubor dat, “kondenzovat” informaci z mnoha čísel do menšího počtu parametrů nebo do grafu

Srovnej Průměrný počet bodů byl 74,5, přičemž minimum bylo 28 a maximum 100.

Čím méně čísel získám tím je výsledek přehlednější a jednodušší ale tím je také větší ztráta informace (z průměru, ale ani z histogramu už nikdy nedohledám, kolik měl František K., ani kolik byla všechna čísla) - umění najít vhodnou míru, kdy je výsledek ještě přehledný, a přitom neztratil vypovídací schopnost

Díky ztrátě informace lze statistikou krásně lhát

A pomocí grafů ještě lépe:

Poučení: když vám bude někdo říkat, o kolik procent se věci zlepšily, vždy se ptejte, z jakého základu se procenta počítala.

Cíle statistiky (2) Interferenční statistika - Statistika výběrových šetření Některé soubory jsou moc velké [nebo potenciálně nekonečné] - všechny jejich členy nejsem schopen zkontrolovat Co mohu říci o tom, jak dopadnou volby v celé republice, když se zeptám 1000 lidí? Co mohu říci o obsahu Cd v krvi divokých husí v ČR, když se mi podaří odebrat krev deseti individuím?

V biologii jde běžně o interferenční statistiku Nechci dělat závěry o svých deseti krysách na kterých jsem dělal pokus, ale na základě těch deseti chci něco říci o všech pokusech, které by byly prováděny stejným způsobem Jestliže dělám nějaký výzkum, měl by být reprodukovatelný (srov. Journal of Irreproducible Research)

“Statisticky lze dokázat vše” …zvláště lidem, kteří statistice nerozumění “Je statisticky dokázáno, že vdovy žijí déle, než jejich manželé.” Do grafů lze dát cokoliv, a grafy pak vypadají velmi sugestivně, zvlášť když jsou doprovozeny “vhodnou” interpretací (data jsou pro ilustraci vymyšlená, ale podle reality)

“Lék funguje tím lépe, čím je pocientovi hůře.”

“Čápi nosí děti”

Důkaz škodlivost fluorizace (údaje z jednotlivých států USA) Nikakragua by patřila někam sem

Hypoteticko-deduktivní přístup (K Hypoteticko-deduktivní přístup (K. Popper) - vychází z toho, že správný předpoklad může dát pouze správnou predikci, špatný předpoklad může dát dobrou i špatnou predikci - díky to předpoklad (hypotézu) nelze dokázat, ale pouze vyvrátit Pozorování (“pattern”) vysvětlení Hypotézy se vzájemně vylučují, predikce se vzájemně liší Hypotéza 1 Hypotéza 2 Hypotéza 3 Predikce 2 Predikce 3 Predikce 1 Výsledek experimentu porovnám s realitou

Obecná vědecká metoda - ilustrovaná na příkladě čápů nosících děti: 1. Pozorování - zjištění “pattern”

2. Interpretace - ‘Čáp nosí děti” 3. Predikce - odstraníme-li čápy, přestanou se rodit děti [nebo se sníží počet narozených, pokud děti nosí i vrány] 4. Experiment: V polovině okresů (náhodně vybrané!) vystřílíme čápy a sledujeme změnu porodnosti (v porovnání se změnou v okresech kontrolních) 5. (Po statistickém hodnocení) zjistíme, že ke změnám nedošlo, takže usoudíme, že čápi děti nenosí.

Typy (nejen biologických) dat Data spojitá a diskrétní - matematická definice a realita měřených dat - v realitě měříme vždy data s určitou přesností (a tudíž by podle striktně matematické definice měla být považována za diskrétní; to však není potřeba)

Typy (nejen biologických) dat Poměrná (poměrová) stupnice - Ratio scale Intervalová stupnice - Interval scale Ordinální stupnice - Ordinal scale Nominální stupnice (kategoriální data) - Nominal scale Cirkulární stupnice Circular scale 270 90 180

Azimut kmene s nálezem lišejníků [stupně]: 5, 10, 5, 350, 350, 355 => průměr = 180 Čas, kdy houkal sýček: 22:00, 23:00, 24:00, 1:00, 1:00, 2:00 => průměr je krátce po poledni Pozor – průměr pro data na cirkulární škále může existovat, ale počítá se trochu jinak (viz Mackův poster před počítačovnou 1)

Typy (nejen biologických) dat Poměrná (poměrová) stupnice - Ratio scale Intervalová stupnice - Interval scale Ordinální stupnice - Ordinal scale Nominální stupnice (kategoriální data) - Nominal scale Cirkulární stupnice Circular scale 270 90 180

Základní soubor (Population) a Náhodný výběr (Random sample) Sampling; Sampling design Náhodný výběr - každé individuum musí mít stejnou pravděpodobnost, že bude vybráno, nezávislou na tom, zda bude vybráno individuum jiné Tabulky a generátory (pseudo)náhodných čísel

Základní soubor (Population) a Náhodný výběr (Random sample) Téměř filosofická otázka - co je to náhoda A co je to pravděpodobnost – v matematické statistice definována pomocí teorie míry – my si vystačíme s intuitivní představou (to opravdu není definice) „relativní zastoupení úspěchů v nekonečném počtu pokusů“ V statistice budeme (tady v té základní) užívat tzv. apriorní pravděpodobnost (existuje ještě Bayesovská - aposteriorní)

Udělat náhodný výběr není obvykle triviální - v žádném případě to není výběr typických individuí- funguje rozumně v zemědělských pokusech 1 2 3 1 2 3 4 5 6

Podstatně složitější je to v přirozených populacích - nefunguje ani individuum nejbližší náhodnému bodu

Základní statistické chartakteristiky Většinou značíme N-velikost základního souboru, n - velikost výběru řeckými písmeny se obvykle značí charakteristiky základního souboru, latinkou charakteristiky výběru Charakteristiky polohy: Průměry, medián a modus Průměry jsou definovány pro kvantitativní data (tj. na poměrové a intervalové stupnici)

Aritmetický průměr základního souboru výběru

Geometrický průměr Je to n-tá odmocnina součinu n hodnot (zde pro výběr) Prakticky má smysl jen pro kladná čísla; totéž co „odlogaritmovaný“ aritmetický průměr logaritmů

Harmonický průměr Je to převrácená hodnota průměru převrácených hodnot. Uvádí se ve všech učebnicích, nepamatuji, že bych ho viděl použitý v praxi

Medián [lze užít i pro data na ordinální stupnici] Definován tak, že polovina hodnot leží pod, a polovina nad mediánem (v nekonečně velkých souborech - pravděpodobnost, že náhodná hodnota leží nad i pod mediánem je 0,5). V souborech o sudém počtu členů je obvykle za medián považovaná hodnota v půli intervalu mezi dvěma prostředními hodnotami.

Horní a dolní kvartil Nad horním 1/4 pozorování, pod dolním 1/4 pozorování (a obdobně pravděpodobnosti v nekonečně velkých souborech)

Rozlišuj mínění průměru a mediánu Příklad - platy ve dvou podnicích

Modus - nejčastěji se vyskytující hodnota - u spojitých dat “vrchol” histogramu četností - později zadefinujeme jako lokální maximum křivky hustoty pravděpodobnosti [může být víc než jeden]

Míry variability 1. Rozsah (Range) rozdíl mezi minimem a maximem 2. Mezikvartilové rozpětí 3. Variance a směrodatná odchylka

Variance - průměrná hodnota druhé mocniny (čtverce) odchylky od průměru základního souboru - odhad variance na základě výběru n-1 = df = degrees of freedom = počet stupňů volnosti Pozor – mírné zjednodušení – při určitém typu odhadu můžeme i pro výběr mít v čitateli n. Pro velké výběry se výsledek stejně moc neliší.

Směrodatná odchylka (sx, často také s. d. , S. D Směrodatná odchylka (sx, často také s.d., S.D. - standard deviation) je odmocnina z variance

Porovnej variabilitu váhy slona a mravence Variance (i s.d.) závisí na průměru Buď použiji varianci nebo směrodatnou odchylku logaritmovaných dat, nebo variační koeficient CV (coefficient of variation) Obojí má smysl jen pro data na poměrové stupnici

Střední chyba průměru (standard error of mean) Charakterizuje přesnost výběrového průměru - jaká by byla variabilita průměrů dané velikosti z mnoha nezávislých výběrů variabilita v datech přesnost Zvýšení přesnosti lze dosáhnout zvětšením výběru

Grafické sumarizace - histogram četností Pozor – šíře intervalu musí odpovídat přesnosti, s jakou měříme.

Box and whisker (doslova krabice s fousama, obvykle “krabicový” diagram) Pozor, dnes se box & whisker používá i pro průměr a směrodatnou odchylku apod.