Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Náhodná proměnná Rozdělení. Házel jsem si korunou (padesátkrát) a počítal jedničky.

Podobné prezentace


Prezentace na téma: "Náhodná proměnná Rozdělení. Házel jsem si korunou (padesátkrát) a počítal jedničky."— Transkript prezentace:

1 Náhodná proměnná Rozdělení

2 Házel jsem si korunou (padesátkrát) a počítal jedničky

3 Výsledek hodu korunou jako Typický náhodný jev přitom by teoreticky šlo ze zákonů klasické mechaniky spočítat, co padne – ale musel bych znát přesně, jakou silou a po jaké dráze jsem působil (a možná ještě něco) – což je v praxi nemožné Za náhodný jev považujeme to, co nemáme pod kontrolou (to není definice, to je popis, jak to chodí)

4 nebo frekvence mohu vyjádřit v procentech

5 nebo kumulativní histogram

6 případně také v procentech

7 Když mám nekonečně velký soubor pak mám nekonečný počet pozorování (takže nekonečný i v každém intervalu) - ale můžu ho charakterizovat podílem ze všech pozorování v libovolném intervalu (pravděpodobností, že náhodně vybraný prvek bude charakterizován hodnotou v daném intervalu) Pro diskrétní proměnnou: výčet všech hodnot a jím odpovídajících pravděpodobností p i =P(X=x i ) - může být dán tabulkou nebo vzorcem. Distribuční funkce je potom součet pravděpodobností pro všechy hodnoty menší než x i

8 Spojitou proměnnou charakterizuji distribuční funkcí a hustotou pravděpodobnosti

9 Distribuční funkce F(x) =P(X

10 Jak “idealizovat” normální histogram Když budu dělat sloupečky nekonečně úzké, nezbude mi v nich “nic” - proto procento pozorování intervalu dělím “šířkou” sloupečku. V limitním případě dostávám pro hustotu pravděpodobnosti

11 Pro hustotu pravděpodobnosti platí

12 Z distribuční funkce lze spočítat střední hodnotu a varianci Diskrétní proměnná Spojitá proměnná

13 Kvantil Když tato plocha je 0,75, tedy 75% Pak 12,54 je 75% kvantil uvažovaného rozdělení (tedy horní kvartil)

14 Testování hypotéz + Test dobré shody

15 Žádnou hypotézu nemohu dokázat Proto formuluji nulovou hypotézu (H 0 ), a tím, že ji vyvrátím, dokazuji její opak. Alternativní hypotéza H 1 nebo H A je tedy negací nulové hypotézy Nulovou hypotézu formuluji já, jako biolog - proto musí být nulová hypotéza taková, aby její vyvrácení bylo zajímavé

16 Chyby v rozhodnutí V případě, že data jsou náhodná (což je v biologii prakticky vždy) musím počítat s tím, že učiním chybné rozhodnutí - statistika zná chybu prvního a druhého druhu (Type I error, Type II error), které jsou nevyhnutelnou součástí našeho rozhodování Kromě toho samozřejmě můžeme udělat ještě chybu tím, že něco nesprávně spočítáme, ale to už není nevyhnutelné

17 Kuchařka testování hypotéz 1. Formuluji nulovou hypotézu 2. Zvolím hladinu významnosti a tak dostanu kritickou hodnotu (z nějakých tabulek) 3. Z dat spočtu testovací kriterium 4. Když je hodnota testovacího kriteria větší než hodnota kritická, zamítám nulovou hypotézu

18  2 test (test dobré shody) Příklad - křížím hrachy: očekávám F1:F1: F2:F2: Mám 80 potomků - očekávám 60:20, dostávám 70:10 Je to jen náhodná variabilita, nebo zde Mendelovské poměry nefungují?

19 1. Zamítnutí nulové hypotézy o poměru 3:1 je biologicky zajímavé. Statisticky bych mohl obdobně testovat nulovou hypotézu o poměru 4,2371:1, ale její zamítnutí nám nic biologicky zajímavého nepřinese. 2. Nulová hypotéza bude formálně: pravděpodobnost vzniku dominantního fenotypu je 0,75 (v nekonečně velkém souboru potenciálních potomků jsou poměry fenotypů 3:1)

20 Výpočet Všimněte si, hodnota kriteria je tím větší, čím je větší odchylka od nulové hypotézy DF=1 (počet kategorií - 1 pro apriorně danou hypotézu), kritická hodnota = 3,84 Hodnota testového kriteria > kritická hodnota, zamítám nulovou hypotézu - říkám, že poměry v F 2 se statisticky průkazně liší od očekávaných 3:1 při  = nebo píšu (  2 = 6.66, df=1, P<0.05) f - absolutní frekvence, tj. počty nezávislých pozorování

21 Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0 =P 1 =0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom  2 =(55-50) 2 /50+(45-50) 2 /50 = 1.0 < Nemohu zamítnout nulovou hypotézu. Správné rozhodnutí.

22 Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0 =P 1 =0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom  2 =(60-50) 2 /50+(40-50) 2 /50 = 4.0 > Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Udělal jsem chybu prvního druhu - Type I error (a pověsím nevinnýho). Pravděpodobnost této chyby známe: je to . Hladina významnosti  je tedy podmíněná pravděpodobnost zamítnutí nulové hypotézy za předpokladu, že nulová hypotéza platí.

23 Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0 =0,6; P 1 =0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom  2 =(60-50) 2 /50+(40-50) 2 /50 = 4.0 > Zamítám nulovou hypotézu na 5%-ní hladině významnosti. Správné rozhodnutí (a pověsím lumpa).

24 Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0 =0,6; P 1 =0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 55:45 Potom  2 =(55-50) 2 /50+(45-50) 2 /50 = 1.0 < Nemohu zamítnout nulovou hypotézu (a osvobodím lumpa). Dopustil jsem se chyby druhého druhu. Její pravděpodobnost označujeme jako  a většinou ji neznáme. 1 -  je síla testu (power of the test). Obecně platí, že síla testu roste s odchylkou od nulové hypotézy a s počtem pozorování. Protože  neznáme, je správná formulace výsledku: Na základě dat nemůžeme zamítnout nulovou hypotézu. Formulace: Dokázali jsme nulovou hypotézu je nesprávná!

25 Rozhodovací tabulka Při daném počtu pozorování - čím lépe jsem chráněn proti jedné chybě, tím je výsledek náchylnější k druhé chybě. Rozhodnu se, že budu provádět text na 1%ní hladině významnosti - kritická hodnota je potom 6,63

26 Co se může stát - házím korunou Skutečnost - koruna je OK, tj. P 0 =P 1 =0,5 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom  2 =(60-50) 2 /50+(40-50) 2 /50 = 4.0 <6,63. Nezamítám nulovou hypotézu na 1%-ní hladině významnosti. - OK, nepověsil jsem nevinnýho.

27 Co se může stát - házím korunou Skutečnost - koruna je falešná, tj. P 0 =0,6; P 1 =0,4 (ALE TO MY NEVÍME) 100 hodů, dostávám 60:40 Potom  2 =(60-50) 2 /50+(40-50) 2 /50 = 4.0 < 6,63. Nezamítám nulovou hypotézu na 5%-ní hladině významnosti. Chyba druhého druhu (pouštím lumpa). Pravděpodobnost chyb nemůže být nulová, protože přesně stejný výsledek pokusu mohu získat jak v případě, že nulová hypotéz platí, tak v případě, že neplatí – zde poměr 60:40

28 Pro 20 hodů korunou

29 Síla testu Skutečnost - koruna je falešná, tj. P 0 =0,55; P 1 =0,45 (ALE TO MY NEVÍME) - Když to dopadne přesně podle pravděpodobností 100 hodů, dostávám 55:45 Potom  2 =(55-50) 2 /50+(45-50) 2 /50 = 1.0 < Nezamítám Ch hodů, dostávám 550:450 Potom  2 =( ) 2 /500+( ) 2 /500 = 10.0 > Správně zamítám Skutečnost - koruna je falešná, tj. P 0 =0,51; P 1 =0, hodů, dostávám 51:49 Potom  2 =(51-50) 2 /50+(49-50) 2 /50 = 0.04 < Nezamítám Ch hodů, dostávám 510:490 Potom  2 =( ) 2 /500+( ) 2 /500 = 0.4 < Nezamítám Ch hodů, dostávám 5100:4900 Potom  2 =( ) 2 /5000+( ) 2 /5000 = 4 > Správně zamítám.

30 Síla testu roste S počtem nezávislých pozorování S velikostí odchylky od nulové hypotézy Se snižující se ochranou proti chybě 1. druhu

31 Poměrné zastoupení úspěchů ve výběru, které nám pomocí testu  2 umožní zamítnout nulovou hypotézu, že P 1 =P 2 =0,5 P>

32 Příklady použití Štěpné poměry 3:1 9:3:3:1 (počet stupňů volnosti = počet kategorií - 1, pro apriorně danou hypotézu, tedy DF=3)

33 Příklady použití Poměr pohlaví 1:1 Pozor na předpoklady Nezávislost pozorování! Stejná pravděpodobnost V praxi tedy může být zamítnutí nulové hypotézy důsledkem tří skutečností: 1. Nulová hypotéza neplatí. 2. Nulová hypotéza platí, ale dopustili jsme se chyby 1. druhu. 3. Nulová hypotéza platí, ale my jsme nesplnili všechny předpoklady pro užití testu.

34 Příklady použití Orientace včel podle barvy terče H 0 : 1:1:1 Jak zajistit nezávislost? Pevná velikost výběru

35 Příklady použití Hardy-Weibergovská rovnováha p 2 + 2pq + q 2 pozor - odečítáme ještě jeden stupeň volnosti na parametr, který odhadujeme z dat, takže DF= = 1

36 Co to jsou kritické hodnoty? Čím větší odchylka od nulové hypotézy, tím větší chi- kvadrát

37 Co to jsou kritické hodnoty? Když toto je 5%, pak 11,1 je kritická hladina na 5% hladině významnosti (zde je DF=5)

38 Dnes se častěji užívá Můžeme i opačný postup. Spočítali jsme, že chi- kvadrát=14 Plocha “ocásku” = P = 0,014 je dosažená hladina významnosti P je pravděpodobnost, že takto nebo více odlišný výsledek od nulové hypotézy dostaneme jen vlivem náhody, pokud H 0 platí.

39 Obvykle píšeme výsledek je průkazný při  = nebo píšu (  2 = 6.66, df=1, P<0.05)

40 A co když nám vyjde hodnota  2 blízká nule P>0,99 Nešlo by to považovat za důkaz pravdivosti H 0 ?

41 TOO GOOD TO BE TRUE

42  2 - je odvozen teoreticky, ale Takovýhle hodnoty jsem si nasimuloval házením korunou. Problém - chi- kvadrát je spojitá distribuce, frekvence jsou z definice diskrétní

43 Proto se někdy používá Yatesova korekce (na kontinuitu) Dává příliš konzervativní test (tj. pravděpodobnost chyby je většinou menší, než stanovená hodnota, a tak je menší i síla testu). Je zcela zbytečné ji používat, když jsou očekávané frekvence 5 a větší, ale neužívá se většinou ani, když jich není příliš, které jsou menší.


Stáhnout ppt "Náhodná proměnná Rozdělení. Házel jsem si korunou (padesátkrát) a počítal jedničky."

Podobné prezentace


Reklamy Google