Náhodná proměnná Rozdělení
Házel jsem si korunou (padesátkrát) a počítal jedničky
Výsledek hodu korunou jako Typický náhodný jev přitom by teoreticky šlo ze zákonů klasické mechaniky spočítat, co padne – ale musel bych znát přesně, jakou silou a po jaké dráze jsem působil (a možná ještě něco) – což je v praxi nemožné Za náhodný jev považujeme to, co nemáme pod kontrolou (to není definice, to je popis, jak to chodí)
nebo frekvence mohu vyjádřit v procentech
nebo kumulativní histogram
případně také v procentech
Když mám nekonečně velký soubor pak mám nekonečný počet pozorování (takže nekonečný i v každém intervalu) - ale můžu ho charakterizovat podílem ze všech pozorování v libovolném intervalu (pravděpodobností, že náhodně vybraný prvek bude charakterizován hodnotou v daném intervalu) Pro diskrétní proměnnou: výčet všech hodnot a jím odpovídajících pravděpodobností pi=P(X=xi) - může být dán tabulkou nebo vzorcem. Distribuční funkce je potom součet pravděpodobností pro všechy hodnoty menší než xi
Spojitou proměnnou charakterizuji distribuční funkcí a hustotou pravděpodobnosti
Distribuční funkce F(x) =P(X<x) má tyto základní vlastnosti 1. P(a X < b) = F(b) - F(a) ; 2. F(x1) F(x2) pro x1 < x2 ; 3. 4. Je to vlastně idealizovaný kumulativní histogram s nekonečně úzkými sloupečky.
Jak “idealizovat” normální histogram Když budu dělat sloupečky nekonečně úzké, nezbude mi v nich “nic” - proto procento pozorování intervalu dělím “šířkou” sloupečku. V limitním případě dostávám pro hustotu pravděpodobnosti
Pro hustotu pravděpodobnosti platí
Z distribuční funkce lze spočítat střední hodnotu a varianci Diskrétní proměnná Spojitá proměnná
Kvantil Pak 12,54 je 75% kvantil uvažovaného rozdělení (tedy horní kvartil) Když tato plocha je 0,75, tedy 75%
Testování hypotéz + Test dobré shody
Žádnou hypotézu nemohu dokázat Proto formuluji nulovou hypotézu (H0), a tím, že ji vyvrátím, dokazuji její opak. Alternativní hypotéza H1 nebo HA je tedy negací nulové hypotézy Nulovou hypotézu formuluji já, jako biolog - proto musí být nulová hypotéza taková, aby její vyvrácení bylo zajímavé
Chyby v rozhodnutí V případě, že data jsou náhodná (což je v biologii prakticky vždy) musím počítat s tím, že učiním chybné rozhodnutí - statistika zná chybu prvního a druhého druhu (Type I error, Type II error), které jsou nevyhnutelnou součástí našeho rozhodování Kromě toho samozřejmě můžeme udělat ještě chybu tím, že něco nesprávně spočítáme, ale to už není nevyhnutelné
Kuchařka testování hypotéz 1. Formuluji nulovou hypotézu 2. Zvolím hladinu významnosti a tak dostanu kritickou hodnotu (z nějakých tabulek) 3. Z dat spočtu testovací kriterium 4. Když je hodnota testovacího kriteria větší než hodnota kritická, zamítám nulovou hypotézu
2 test (test dobré shody) Příklad - křížím hrachy: očekávám F1: F2: Mám 80 potomků - očekávám 60:20, dostávám 70:10 Je to jen náhodná variabilita, nebo zde Mendelovské poměry nefungují?
1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé 1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé. Statisticky bych mohl obdobně testovat nulovou hypotézu o poměru 4,2371:1, ale její zamítnutí nám nic biologicky zajímavého nepřinese. 2. Nulová hypotéza bude formálně: pravděpodobnost vzniku dominantního fenotypu je 0,75 (v nekonečně velkém souboru potenciálních potomků jsou poměry fenotypů 3:1)
Výpočet Všimněte si, hodnota kriteria je tím větší, čím je větší odchylka od nulové hypotézy f - absolutní frekvence, tj. počty nezávislých pozorování DF=1 (počet kategorií - 1 pro apriorně danou hypotézu), kritická hodnota = 3,84 Hodnota testového kriteria > kritická hodnota, zamítám nulovou hypotézu - říkám, že poměry v F2 se statisticky průkazně liší od očekávaných 3:1 při = 0.05 - nebo píšu (2 = 6.66, df=1, P<0.05)
Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nemohu zamítnout nulovou hypotézu. Správné rozhodnutí.
Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 > 3.84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že nulová hypotéza platí.
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 > 3.84. Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Správné rozhodnutí (a pověsím lumpa).
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nemohu zamítnout nulovou hypotézu (a osvobodím lumpa). Dopustil jsem se chyby druhého druhu. Její pravděpodobnost označujeme jako a většinou ji neznáme. 1 - je síla testu (power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože neznáme, je správná formulace výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace: Dokázali jsme nulovou hypotézu je nesprávná!
Rozhodovací tabulka Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě, tím je výsledek náchylnější k druhé chybě. Rozhodnu se, že budu provádět text na 1%ní hladině významnosti - kritická hodnota je potom 6,63
Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P0=P1=0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 <6,63. Nezamítám nulovou hypotézu na 1%-ní hladině významnosti. - OK, nepověsil jsem nevinnýho.
Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P0=0,6; P1=0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom 2=(60-50) 2/50+(40-50) 2/50 = 4.0 < 6,63. Nezamítám nulovou hypotézu na 5%-ní hladině významnosti. Chyba druhého druhu (pouštím lumpa). Pravděpodobnost chyb nemůže být nulová, protože přesně stejný výsledek pokusu mohu získat jak v případě, že nulová hypotéz platí, tak v případě, že neplatí – zde poměr 60:40
Pro 20 hodů korunou
Síla testu Skutečnost - koruna je falešná, tj. P0=0,55; P1=0,45 (ALE TO MY NEVÍME) - Když to dopadne přesně podle pravděpodobností 100 hodů, dostávám 55:45 Potom 2=(55-50)2/50+(45-50)2/50 = 1.0 < 3.84. Nezamítám Ch 2 1000 hodů, dostávám 550:450 Potom 2=(550-500)2/500+(450-500)2/500 = 10.0 > 3.84. Správně zamítám Skutečnost - koruna je falešná, tj. P0=0,51; P1=0,49 100 hodů, dostávám 51:49 Potom 2=(51-50)2/50+(49-50)2/50 = 0.04 < 3.84. Nezamítám Ch 2 1000 hodů, dostávám 510:490 Potom 2=(510-500)2/500+(490-500)2/500 = 0.4 < 3.84. Nezamítám Ch 2 10000 hodů, dostávám 5100:4900 Potom 2=(5100-5000)2/5000+(4900-5000)2/5000 = 4 > 3.84. Správně zamítám.
Síla testu roste S počtem nezávislých pozorování S velikostí odchylky od nulové hypotézy Se snižující se ochranou proti chybě 1. druhu
Poměrné zastoupení úspěchů ve výběru, které nám pomocí testu 2 umožní zamítnout nulovou hypotézu, že P1=P2=0,5 P<0.01 0.01<P<0.05 P>0.05 P<0.01
Příklady použití Štěpné poměry 3:1 9:3:3:1 (počet stupňů volnosti = počet kategorií - 1, pro apriorně danou hypotézu, tedy DF=3)
Příklady použití Poměr pohlaví 1:1 Pozor na předpoklady Nezávislost pozorování! Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří skutečností: 1. Nulová hypotéza neplatí. 2. Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. 3. Nulová hypotéza platí, ale my jsme nesplnili všechny předpoklady pro užití testu.
Příklady použití Orientace včel podle barvy terče H0: 1:1:1 Jak zajistit nezávislost? Pevná velikost výběru
Příklady použití Hardy-Weibergovská rovnováha p2+ 2pq + q2 pozor - odečítáme ještě jeden stupeň volnosti na parametr, který odhadujeme z dat, takže DF= 3 - 1 - 1 = 1
Co to jsou kritické hodnoty? Čím větší odchylka od nulové hypotézy, tím větší chi-kvadrát
Co to jsou kritické hodnoty? Když toto je 5%, pak 11,1 je kritická hladina na 5% hladině významnosti (zde je DF=5)
Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chi-kvadrát=14 Plocha “ocásku” = P = 0,014 je dosažená hladina významnosti P je pravděpodobnost, že takto nebo více odlišný výsledek od nulové hypotézy dostaneme jen vlivem náhody, pokud H0 platí.
Obvykle píšeme výsledek je průkazný při = 0.05 - nebo píšu (2 = 6.66, df=1, P<0.05)
A co když nám vyjde hodnota 2 blízká nule P>0,99 Nešlo by to považovat za důkaz pravdivosti H0?
TOO GOOD TO BE TRUE
2 - je odvozen teoreticky, ale Takovýhle hodnoty jsem si nasimuloval házením korunou. Problém - chi-kvadrát je spojitá distribuce, frekvence jsou z definice diskrétní
Proto se někdy používá Yatesova korekce (na kontinuitu) Dává příliš konzervativní test (tj. pravděpodobnost chyby je většinou menší, než stanovená hodnota, a tak je menší i síla testu). Je zcela zbytečné ji používat, když jsou očekávané frekvence 5 a větší, ale neužívá se většinou ani, když jich není příliš, které jsou menší.