t-rozdělení, jeho použití

Slides:



Advertisements
Podobné prezentace
Statistická indukce Teorie odhadu.
Advertisements

Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Výpočet zásoby porostu na zkusných plochách při požadované přesnosti
Testování parametrických hypotéz
Testování statistických hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Diskrétní rozdělení a jejich použití
CHYBY MĚŘENÍ.
Testování hypotéz přednáška.
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Obecné a centrální momenty
Základy ekonometrie Cvičení října 2010.
Řízení a supervize v sociálních a zdravotnických organizacích
Odhady parametrů základního souboru
Generování náhodných veličin (2) Spojitá rozdělení
Porovnání středních hodnot: t-test, ANOVA, Tukeyho m.v.p.
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Odhady odhady bodové a intervalové odhady
Diskrétní rozdělení Karel Zvára 1.
Data s diskrétním rozdělením
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
HODNOCENÍ ROZDÍLŮ VÝKONŮ Oddělení antropomotoriky, rekreologie a metodologie Katedra kinantropologie, humanitních věd a managementu sportu © 2010 FTVS.
Lineární regrese.
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Další spojitá rozdělení pravděpodobnosti
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Experimentální fyzika I. 2
MATEMATICKÁ STATISTIKA
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Normální rozdělení a ověření normality dat
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Aritmetický průměr - střední hodnota
Inferenční statistika - úvod
1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Odhady odhady bodové a intervalové odhady
… jsou bohatší lidé šťastnější?
Jednovýběrový a párový t - test
Spojitá náhodná veličina
Induktivní statistika - úvod
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
t-test Počítání t-testu t statistika Měření velikosti efektu
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Odhady parametrů základního souboru
Popisná statistika: přehled
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Úvod do statistického testování
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Induktivní statistika
Základy statistiky.
Princip max. věrohodnosti - odhad parametrů
Transkript prezentace:

t-rozdělení, jeho použití testy o střední hodnotě, konfidenční intervaly

Příklady problému Chodci jsou se zavázanýma očima vypouštěni směrem na cíl. Na linii kolmé ke spojnici start - cíl je měřena jejich odchylka od cíle v metrech (nalevo záporné, napravo kladné hodnoty). Otázka zní - zda existuje systematická odchylka od přímého směru, tedy od nuly. (Co testuji, když vypouštím jednoho člověka mnohokrát, co, když různé pokusné osoby?)

Příklady problému Rostliny jsou napájeny vodou charakterizovanou charakterizovanou určitou známou koncentrací izotopu 18O. Poté je měřena koncentrace izotopu 18O v tanspirované vodě (určitého počtu nezávisle pěstovaných rostlin). Ptáme se, zda je tato koncentrace stejná jako ve vodě použité k napájení.

Příklady problému U vzorku populace měříme koncentraci cholesterolu v krvi v periferní krvi a v krvi odebrané ze žíly. Ptám se, jestli je mezi těmito dvěma hodnotami systematický rozdíl (tj. jedna hodnota je systematicky vyšší než druhá). Mohu to formulovat tak, zda je rozdíl těchto dvou hodnot systematicky odlišný od nuly.

Příklady problému Měřím koncentraci Pb v potravě. Potřebuju znát interval, který mi s určitou pravděpodobností (nejčastěji 95%) pokryje neznámou střední hodnotu této koncentrace.

Pokud má proměnná X normální rozdělení, pak proměnná Z má normované normální rozdělení má směrodatnou odchylku Průměr náhodného výběru musí mít tedy také normované normální rozdělení. Protože je hustota pravděpodobnosti normovaného normálního rozdělení známa, kdybychom znali mohli bychom zjistit, jaká je pravěpodobnobnost, že takhle nebo více odlišný, průměr od předpokládané hodnoty dostaneme čistě náhodou (tj. pro test nulové hypotézy o μ). Neznáme, ale můžeme jej odhadnout pomocí sX.

Když použijeme jen odhad směrodatné odchylky, nemáme normální rozdělení, ale Studentovo t rozděloení.

U χ2 platilo, čím větší odchylka od H0, tím větší χ2 U χ2 platilo, čím větší odchylka od H0, tím větší χ2 . U t platí, že čím větší odchylka od H0 , tím větší absolutní hodnota – odchylka může jít jak kladným, tak záporným směrem. 97,5%ní kvantil N(0,1) je 1,96

Dvoustranný a jednostranný test HA: μ<0 H0: H0: μ=0 HA: Jednostranný test je silnější, ale musím předem vědět, proč ho dělám μ0

Příklad Stáří při úmrtí (v letech) u dvaceti pěti koní určitého plemene bylo: 17.2, 18.0, 18.7, 19.8, 20.3, 20.9, 21.0, 21.7, 22.3, 22.6, 23.1, 23.4, 23.8, 24.2, 24.6, 25.8, 26.0, 26.3, 27.2, 27.6, 28.1, 28.6, 29.3, 30.1, 35.1. H0: =22 let. = 24.23 roku HA: 22 let s2 = 18.0388 roku2 =0.05 =0.85 roku  = n - 1 = 25 - 1 = 24 t 0.05(2), 24 = 2.064 - kritická hodnota pro dvoustranný test při α=0,05 - tedy 97,5% kvantil (Pozn. Při stanovení H0 jsem předpokládal, že normovaný kůň umírá ve 22 letech – velmi nerealistický příklad)

Nulovou hypotézu zamítám, když dostanu t nepravděpodobně malé, nebo nepravděpodobně velké. plocha=0,0072 P=2 x 0,0072=0,0144 2,64

Užití Jednovýběrový t-test – testuji, že střední hodnota určitého parametru je rovna předem dané hodnotě (ne příliš častý případ, ty předem dané hodnoty mohou být dost přitažené za vlasy – viz koně) Párový t-test – H0 mi říká, že rozdíl dvou hodnot je nulový. Relativně časté použití.

Konfidenční interval 2,5% kvantil 97,5% kvantil

a v jednom z dvaceti pokusů se netrefím (pokud jde o 95% CI)

Příklad - generoval jsem náhodné výběry z nekonečně velkého souboru s μ=10 (ve skutečnosti μ neznám)

To jsem udělal 100-krát - viz http://botanika. bf. jcu Celkem 6-krát konfidenční interval nepokryl skutečnou střední hodnotu 10 (očekával jsem, že to bude 5-krát, ale je to náhodná veličina, a ta shoda je velmi dobrá) Průměrná hodnota střední chyby průměru byla 0,35, směrodatná odchylka výběrových průměrů byla 0,38 [tedy opět velmi solidní shoda]

Existuje ekvivalence Jestliže 95%-ní konfidenční interval pro střední hodnotu neobsahuje nulu, potom to odpovídá zamítnutí nulové hypotézy μ=0 na hladině významnosti α=0,05. (Obdobě platí i pro jiné hodnoty, než je nula, a pro jiné (1- α).100%ní konfidenční intervaly. Udávat konfidenční intervaly je informativnější, srovnej. „Průměrný rozdíl koncentrací cholesterolu v krvi Je statisticky průkazně odlišný od nuly (t=, df=.. ,P<0,05) Je statisticky průkazně větší než nula (t=, df=... ,P<0,05) Je 0,52 + 0,15 (průměr, 95% CI) – ale možná bych přidal, že se to tedy průkazně liší od nuly

Začínali jsme normálním rozdělením (při „odvození“) Tedy, předpokladem užití t-testu je, že mají hodnoty, které hodnotím (např. rozdíl) normální rozdělení. „Otestovat normalitu“ není vždy nejrozumnější přístup – co musí mít normáloní rozdělení je průměr závislost na počtu pozorování – Centrální limitní věta

Co znamená, když napíšu 15+3 Přesnost měření (pozor na počet platných číslic) Průměr + s.d. (informuji o variabilitě) Průměr a meze tolerančního intervalu (opět info o variabilitě, užívá se zřídka) Průměr + s.e.m. (střední chyba průměru) (info o přesnosti odhadu průměru) Průměr a meze konfidenčního intervalu (info o přesnosti odhadu průměru)

Co znamená, když napíšu 15+3 Použiju-li tento zápis, vždy musím uvést, co jím myslím, jinak je informace zcela bezcenná

Totéž platí o grafech Svislá úsečka (error bar) může znamenat - s.d., 2 x s.d. (za určitých předpokladů by v tom intervalu mělo ležet cca 95% pozorování), s.e.m., konfidenční interval, někdy i rozsah dat. Někdy se úsečka kreslí jen nahoru (v “symetrických” případech).

Krabicové (box and whisker) Klasicky bývalo medián a kvartily, dnes se tyto grafy užívají pro cokoliv (průměr, s.e.m., s.d.)

Pozor - lidé často nerozlišují, zvláště S.D. a S.E. (=s.e.m.) přesnost odhadu variabilita dat