Náhodná proměnná Rozdělení.

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Testování statistických hypotéz
VÝPOČET OC.
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Testování hypotéz Jana Zvárová
Testování hypotéz Distribuce náhodných proměnných
Testování hypotéz.
Testování statistických hypotéz
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Test dobré shody 2 test.
F-test a dvouvýběrový t-test (oba testy předpokládají normalitu dat)
Lineární regresní analýza Úvod od problému
Analýza variance (Analysis of variance)
ZPRACOVÁVÁME KVANTITATIVNÍ DATA II.
Statistická chyba a hladina statistické významnosti
Diskrétní rozdělení a jejich použití
t-rozdělení, jeho použití
Testování hypotéz přednáška.
Statistická chyba a hladina statistické významnosti
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Princip testování hypotéz, c2 testy.
Testování hypotéz vymezení důležitých pojmů
Analýza dat.
také Gaussovo rozdělení (normal or Gaussian distribution)
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Nechť (, , P) je pravděpodobnostní prostor:
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Data s diskrétním rozdělením
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Test dobré shody Fisherův přesný test McNemar test
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Pohled z ptačí perspektivy
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
8. Kontingenční tabulky a χ2 test
Statistická významnost a její problémy
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
Jak statistika dokazuje závislost
Podmíněná pravděpodobnost: Bayesův teorém
Základy testování hypotéz
Inferenční statistika - úvod
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Princip testování hypotéz,  2 testy. Příklad. V dané populaci nejsme schopni v daném okamžiku zjistit počet samců a samic. Předpokládá se (= je teoreticky.
TESTY א 2 (CHÍ-kvadrát) TEST DOBRÉ SHODY TEST DOBRÉ SHODY TEST NEZÁVISLOSTI TEST NEZÁVISLOSTI Testy pro kategoriální veličiny Testy pro kategoriální veličiny.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
Induktivní statistika
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Úvod do induktivní statistiky
příklad: hody hrací kostkou
Statistika a výpočetní technika
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Biostatistika
Testování hypotéz - pojmy
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Náhodná proměnná Rozdělení

Házel jsem si korunou (padesátkrát) a počítal jedničky

Výsledek hodu korunou jako Typický náhodný jev přitom by teoreticky šlo ze zákonů klasické mechaniky spočítat, co padne – ale musel bych znát přesně, jakou silou a po jaké dráze jsem působil (a možná ještě něco) – což je v praxi nemožné Za náhodný jev považujeme to, co nemáme pod kontrolou (to není definice, to je popis, jak to chodí)

nebo frekvence mohu vyjádřit v procentech

nebo kumulativní histogram

případně také v procentech

Když mám nekonečně velký soubor pak mám nekonečný počet pozorování (takže nekonečný i v každém intervalu) - ale můžu ho charakterizovat podílem ze všech pozorování v libovolném intervalu (pravděpodobností, že náhodně vybraný prvek bude charakterizován hodnotou v daném intervalu) Pro diskrétní proměnnou: výčet všech hodnot a jím odpovídajících pravděpodobností pi=P(X=xi) - může být dán tabulkou nebo vzorcem. Distribuční funkce je potom součet pravděpodobností pro všechy hodnoty menší než xi

Spojitou proměnnou charakterizuji distribuční funkcí a hustotou pravděpodobnosti

Distribuční funkce F(x) =P(X<x) má tyto základní vlastnosti 1. P(a  X < b) = F(b) - F(a) ; 2. F(x1)  F(x2) pro x1 < x2 ; 3. 4. Je to vlastně idealizovaný kumulativní histogram s nekonečně úzkými sloupečky.

Jak “idealizovat” normální histogram Když budu dělat sloupečky nekonečně úzké, nezbude mi v nich “nic” - proto procento pozorování intervalu dělím “šířkou” sloupečku. V limitním případě dostávám pro hustotu pravděpodobnosti

Pro hustotu pravděpodobnosti platí

Z distribuční funkce lze spočítat střední hodnotu a varianci Diskrétní proměnná Spojitá proměnná

Kvantil Pak 12,54 je 75% kvantil uvažovaného rozdělení (tedy horní kvartil) Když tato plocha je 0,75, tedy 75%

Testování hypotéz + Test dobré shody

Žádnou hypotézu nemohu dokázat Proto formuluji nulovou hypotézu (H0), a tím, že ji vyvrátím, dokazuji její opak. Alternativní hypotéza H1 nebo HA je tedy negací nulové hypotézy Nulovou hypotézu formuluji já, jako biolog - proto musí být nulová hypotéza taková, aby její vyvrácení bylo zajímavé

Chyby v rozhodnutí V případě, že data jsou náhodná (což je v biologii prakticky vždy) musím počítat s tím, že učiním chybné rozhodnutí - statistika zná chybu prvního a druhého druhu (Type I error, Type II error), které jsou nevyhnutelnou součástí našeho rozhodování Kromě toho samozřejmě můžeme udělat ještě chybu tím, že něco nesprávně spočítáme, ale to už není nevyhnutelné

Kuchařka testování hypotéz 1. Formuluji nulovou hypotézu 2. Zvolím hladinu významnosti a tak dostanu kritickou hodnotu (z nějakých tabulek) 3. Z dat spočtu testovací kriterium 4. Když je hodnota testovacího kriteria větší než hodnota kritická, zamítám nulovou hypotézu

2 test (test dobré shody) Příklad - křížím hrachy: očekávám F1: F2: Mám 80 potomků - očekávám 60:20, dostávám 70:10 Je to jen náhodná variabilita, nebo zde Mendelovské poměry nefungují?

1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé 1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé. Statisticky bych mohl obdobně testovat nulovou hypotézu o poměru 4,2371:1, ale její zamítnutí nám nic biologicky zajímavého nepřinese. 2. Nulová hypotéza bude formálně: pravděpodobnost vzniku dominantního fenotypu je 0,75 (v nekonečně velkém souboru potenciálních potomků jsou poměry fenotypů 3:1)

Výpočet Všimněte si, hodnota kriteria je tím větší, čím je větší odchylka od nulové hypotézy f - absolutní frekvence, tj. počty nezávislých pozorování DF=1 (počet kategorií - 1 pro apriorně danou hypotézu), kritická hodnota = 3,84 Hodnota testového kriteria > kritická hodnota, zamítám nulovou hypotézu - říkám, že poměry v F2 se statisticky průkazně liší od očekávaných 3:1 při  = 0.05 - nebo píšu (2 = 6.66, df=1, P<0.05)

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nemohu zamítnout nulovou hypotézu. Správné rozhodnutí.

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 > 3.84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti  je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že nulová hypotéza platí.

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 > 3.84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Správné rozhodnutí (a pověsím lumpa).

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nemohu zamítnout nulovou hypotézu (a osvobodím lumpa). Dopustil jsem se chyby druhého druhu. Její pravděpodobnost označujeme jako  a většinou ji neznáme. 1 -  je síla testu (power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože  neznáme, je správná formulace výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace: Dokázali jsme nulovou hypotézu je nesprávná!

Rozhodovací tabulka Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě, tím je výsledek náchylnější k druhé chybě. Rozhodnu se, že budu provádět text na 1%ní hladině významnosti - kritická hodnota je potom 6,63

Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 <6,63. Nezamítám nulovou hypotézu na 1%-ní hladině významnosti. - OK, nepověsil jsem nevinnýho.

Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 < 6,63. Nezamítám nulovou hypotézu na 5%-ní hladině významnosti. Chyba druhého druhu (pouštím lumpa). Pravděpodobnost chyb nemůže být nulová, protože přesně stejný výsledek pokusu mohu získat jak v případě, že nulová hypotéz platí, tak v případě, že neplatí – zde poměr 60:40

Pro 20 hodů korunou

Síla testu Skutečnost - koruna je falešná, tj. P0=0,55; P1=0,45 (ALE TO MY NEVÍME) - Když to dopadne přesně podle pravděpodobností 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nezamítám Ch 2 1000 hodů, dostávám 550:450 Potom 2=(550-500)2/500+(450-500)2/500 = 10.0 > 3.84. Správně zamítám Skutečnost - koruna je falešná, tj. P0=0,51; P1=0,49 100 hodů, dostávám 51:49 Potom 2=(51-50)2/50+(49-50)2/50 = 0.04 < 3.84. Nezamítám Ch 2 1000 hodů, dostávám 510:490 Potom 2=(510-500)2/500+(490-500)2/500 = 0.4 < 3.84. Nezamítám Ch 2 10000 hodů, dostávám 5100:4900 Potom 2=(5100-5000)2/5000+(4900-5000)2/5000 = 4 > 3.84. Správně zamítám.

Síla testu roste S počtem nezávislých pozorování S velikostí odchylky od nulové hypotézy Se snižující se ochranou proti chybě 1. druhu

Poměrné zastoupení úspěchů ve výběru, které nám pomocí testu 2 umožní zamítnout nulovou hypotézu, že P1=P2=0,5 P<0.01 0.01<P<0.05 P>0.05 P<0.01

Příklady použití Štěpné poměry 3:1 9:3:3:1 (počet stupňů volnosti = počet kategorií - 1, pro apriorně danou hypotézu, tedy DF=3)

Příklady použití Poměr pohlaví 1:1 Pozor na předpoklady Nezávislost pozorování! Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří skutečností: 1. Nulová hypotéza neplatí. 2. Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. 3. Nulová hypotéza platí, ale my jsme nesplnili všechny předpoklady pro užití testu.

Příklady použití Orientace včel podle barvy terče H0: 1:1:1 Jak zajistit nezávislost? Pevná velikost výběru

Příklady použití Hardy-Weibergovská rovnováha p2+ 2pq + q2 pozor - odečítáme ještě jeden stupeň volnosti na parametr, který odhadujeme z dat, takže DF= 3 - 1 - 1 = 1

Co to jsou kritické hodnoty? Čím větší odchylka od nulové hypotézy, tím větší chi-kvadrát

Co to jsou kritické hodnoty? Když toto je 5%, pak 11,1 je kritická hladina na 5% hladině významnosti (zde je DF=5)

Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chi-kvadrát=14 Plocha “ocásku” = P = 0,014 je dosažená hladina významnosti P je pravděpodobnost, že takto nebo více odlišný výsledek od nulové hypotézy dostaneme jen vlivem náhody, pokud H0 platí.

Obvykle píšeme výsledek je průkazný při  = 0.05 - nebo píšu (2 = 6.66, df=1, P<0.05)

A co když nám vyjde hodnota 2 blízká nule P>0,99 Nešlo by to považovat za důkaz pravdivosti H0?

TOO GOOD TO BE TRUE

2 - je odvozen teoreticky, ale Takovýhle hodnoty jsem si nasimuloval házením korunou. Problém - chi-kvadrát je spojitá distribuce, frekvence jsou z definice diskrétní

Proto se někdy používá Yatesova korekce (na kontinuitu) Dává příliš konzervativní test (tj. pravděpodobnost chyby je většinou menší, než stanovená hodnota, a tak je menší i síla testu). Je zcela zbytečné ji používat, když jsou očekávané frekvence 5 a větší, ale neužívá se většinou ani, když jich není příliš, které jsou menší.