Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Statistika Poznámky z přednášek

Podobné prezentace


Prezentace na téma: "Statistika Poznámky z přednášek"— Transkript prezentace:

1 Statistika Poznámky z přednášek
Materiál obsahuje poznámky ze přednášek plus to co se musíme doučit včetně ukázkových příkladů, které se objevily na přednášce, nebo z aplikace netstorage. J.T.

2 OBSAH Úvodní stránka………………………………………………………………………………………………………………………1
Základní pojmy (Statistické ukazatele) ……………………………………………………3 Základní pojmy, Příklad ……………………………………………………………………………………………4 Průměry - Harmonický průměr …………………………………………………………………………………5 Geometrický průměr …………………………………………………………………………………………………………6 Kvadratický průměr …………………………………………………………………………………………………………7 Prostorové bodové struktury, zjištění stupně agregace ……………8 Pravděpodobnost - pojmy ……………………………………………………………………………………………9 Pravděpodobnost, příklady ……………………………………………………………………………………10 Geometrická pravděpodobnost, Náhodné veličiny ………………………………11 Náhodné veličiny, Binomické rozdělení ……………………………………………………12 Náhodné veličiny - definování binomického rozdělení Matematická statistika - testování hypotéz ………………………………………13 Testování hypotéz - znaménkový test …………………………………………………………14 Studentův t-test ……………………………………………………………………………………………………………15 Studentův t-test, F – test (dvou výběrový test)……………………………16 Odhad střední hodnoty ………………………………………………………………………………………………17 Porovnání průměrů zkoumaných vzorků (dvou výběrový test) Welchův test ………………………………………………………………………………………………………………………18 Wilcoxonův test dvouvýběrový ……………………………………………………………………………19 Wilcoxonův test jednovýběrový a párový …………………………………………………20

3 Statistické ukazatele
Základní pojmy Etapa statistického zjišťování (získávání a shromažďování údajů). hodnoty (znaky) diskrétní (nespojité) Nejčastěji počet něčeho, protože stromů v porostu nemůže být 3,5. hodnoty spojité Váha, výška, rychlost a jiné údaje, které umožňují jakoukoliv hodnotu v oboru reálných čísel. Etapa statistického zpracování (třídění a výpočet ukazatelů). Grafické znázornění Histogram Polygon Statistické ukazatele míry polohy Průměr (  ) Modus je hodnota s největší četností. ( Ĥ ) Medián je prostřední hodnota ( H ) míry rozptýlenosti Míra rozptýlenosti je rozpětí, jehož dosahují jednotlivé naměřené hodnoty. Odchylka je rozdíl mezi naměřenou a střední hodnotou (mediánem) Průměrná odchylka se pak vypočte jako suma všech odchylek a její vydělení počtem měření. (scripta uvádějí průměrnou odchylku jako sumu odchylek od průměru vydělenou počtem měření. Rozptyl je definován jako střední hodnota druhým mocnin (kvadrátů) odchylek od průměru. Směrodatná odchylka je odmocninou z rozptylu

4 Základní pojmy Variační koeficient je podílem mezi směrodatnou odchylkou a průměrem. Je použit z příkladů poskytnutých v doporučených materiálech na netstorage. Jedná se o druhý soubor, příklad 1 Příklad 1. Ve dvanáctičlenné studijní skupině bylo při zápočtovém testu dosaženo následujících bodových výsledků (maximální možný počet bodů je roven deseti): Vypočítejte modus, medián, aritmetický průměr, průměrnou odchylku, rozptyl a směrodatnou odchylku zaznamenaných výsledků. a) Zápis měření Dosažená hodnota 3 5 7 8 10 Absolutní četnost 1 2 Relativní četnost 0,08 0,17 0,42 Počet měření: n = 12 Relativní četnost = Absolutní četnost ÷ počet měření Aritmetický průměr = ( 0*1 + 2*3 + 1*5 + 1*7 + 2*8 + 5*10 ) ÷ 12 = 7 Modus = 10 Medián = střední hodnota ze součtu všech hodnot bude mezi 34. pořadím ( ) a 44. pořadím ( ), což by odpovídalo hodnotě 9. Průměrná odchylka: [ 1 * ( 9 – 0 ) + 2 * ( 9 – 3 ) + 1 * ( 9 – 5 ) + 1 * ( 9 – 7 ) + 2 * ( 9 – 8 ) + 5 * ( 10 – 9) ] ÷ 12 = ( ) ÷ 12 = 2,83 při počítání s absolutní četností. Pokud použijeme četnost relativní je výpočet mnohem sice jednodušší, protože počítáme ( 1 * 0, * 0, * 0, *0, * 0, * 0,42), ale výsledek se může lišit díky zaokrouhlení, které jsme použili při výpočtu relativní četnosti. Rozptyl: s² = [ 1 * ( 7 – 0 )² + 2 * ( 7 – 3 )² + 1 * ( 7 – 5 )² + 1 * ( 7 – 7 )² + 2 * ( 8 – 7 )² + 5 * ( 10 – 7)² ] ÷ 12 = ( 1*49 + 2*16 + 1*4 +1*0 + 2*1 + 5*9 ) ÷ 12 = 11 Směrodatná odchylka: odmocnina z rozptylu (15) = 3,32 Variační koeficient: Směrodatná odchylka ÷ průměr, tj. 3,32 ÷ 7 = 0,47 Pozn.: V tištěných scriptech se vzorec pro výpočet rozptylu tváří nejen složitěji, ale také trošku více odlišně. Tento vzorec odpovídá vzorci z elektronických script z webu ČZU.

5 Průměry  Aritmetický průměr Je každému jasný, takže je pro úplnost
x = [ Naměřená hodnota (h1) * počet měření (n1) s výsledkem h1 + h2 * (n2) … (hn) * (nn) / celkový počet měření (n) Harmonický průměr Se využívá zejména u rychlosti, měření el. odporu, … . Vzorec se zapisuje takhle a dá se přečíst jako počet měření děleno suma všech naměřených hodnot na minus prvou. Doložení vzorce n xh = 1 xi Příklad č. 5 z netstorage je shodou okolností tentýž, jaký použil profesor při výpočtu na konzultaci a zní: Automobil jede do kopce rychlostí čtyřicet km/hod a poté stejnou trasou zpátky rychlostí osmdesát km/hod. Jaká je průměrná rychlost automobilu během této projížďky? Protože se oba časy jednotlivých částí projížďky rovnají musí být roven i součet jejich rychlostí. Z toho vyplývá, že hodnoty zapíšeme takto: s 40 80 xh = s = čas, a protože nám na něm nezáleží, tak můžeme říci, že projížďka trvala 1 jednotku času a zapsat to takhle: 1 40 80 xh = 3 80 2 xh = 3 xh = xh = 53,3 km/h

6 Průměry Geometrický průměr
můžeme využít např. u průměrování úroků v bance, nebo u jiných hodnot, které narůstají geometrickou řadou. Vzorec se zapisuje takhle: n xg = x1 + x2 + x3 + … xn Doložení vzorce na příklad č. 4, který zní: Určete celkovou naspořenou částku z vkladu Kč po pěti letech spoření, jestliže vklad měl roční úročení a úroková míra činila v prvním roce 4% , ve druhém 8%, ve třetím 6% a ve čtvrtém i pátém roce 12%. Určete též průměrnou roční úrokovou míru za dané období. To, co se nám v tomto případě nemění a zůstává výsledkem levé i pravé strany rovnice je výše zůstatku na konci spoření. Takže hodnoty zapíšeme takto: * 1,04 * 1,08 * 1,06 * 1,12 * 1,12 = * xg * xg * xg * xg * xg (vykrátíme) 1,49 = xg xg = 1, xg = 1,08  8% 5 Kvadratický průměr Použijeme tam, kde průměrujeme plochy (nejčastěji kruhové) a při tom známe pouze jejich průměr, nebo obdobnou veličinu . Vzorec se zapisuje takhle: 1 n xk =  xi 2 Doložení vzorce na příklad č. 3, který zní: Nechť d1, d2, …, dn jsou výčetní tloušťky stromů na daném stanovišti. Určete průměrnou velikost kruhových výčetních základen těchto stromů. Dále určete tloušťku stromu s průměrně velikou kruhovou výčetní základnou. Speciálně předpokládejte, že na stanovišti je devět stromů s následujícími tloušťkami (v centimetrech): To, co se nám v tomto případě nemění a zůstává výsledkem levé i pravé strany rovnice je celková plocha kruhové výčetní základny. Na rozdíl od způsobu, kterým jsme řešili příklad na konzultaci, bude pro mne jednoduší pracovat s poloměry: * 2 *10² +  * 2 * 15² +  * 2 * 20² +  * 2 * 25² +  * 1 * 30² = 9 *  * rk² (vykrátíme ) = 9 rk²  400 = rk²  rk = 20  dk = 40

7 Průměry Kvadratický průměr
Pokud bychom místo s poloměrem pracovali s průměrem vypadalo by to takto: 4 4 4 4 4 4 2 * * 20² + 2 * * 30² + 2 * * 40² + 2 * * 50² * 60² = dk² 4 Vykrátíme , a dostaneme = 9 dk²  1600 = dk²  dk = 40 Obtížnost tedy bude asi stejná, rozdíl bude jen v délce zápisu, takže hlavně neudělat chybu ve vzorečku. Kubický průměr Použijeme tam, kde průměrujeme objemy a při tom známe pouze jejich průměr, nebo obdobnou veličinu v měřených tělesech. Vzorec se zapisuje takhle: 3 1 n xc =  xi 3 Doložení vzorce na trochu upraveném příkladu č. 2, který po úpravě zní: Nechť d1, d2, d3, jsou průměry borůvek v košíku. Určete průměrný objem těchto borůvek. Dále určete průměr borůvky s průměrným objemem. To, co se nám v tomto případě nemění a zůstává výsledkem levé i pravé strany rovnice je celkový objem borůvek. Pro výpočet použijeme vzorec pro objem koule. 6 d1³ 6 d2³ 6 d3³ 6 3 dk³ 6 6 = (vykrátíme ) d1³ + d2³ + d3³ 3 3 d1³ + d2³ + d3³ 3 = dk³  dk = 6 d1³ + d2³ + d3³ 3  ( d1³ + d2³ + d3³ ) 18 Objem průměrné borůvky tedy bude: * =

8 Prostorové bodové struktury
Zjištění stupně agregace Prostor (plocha) se rozčlení na pravidelné části (nejlépe čtverce) Zjistí se počet bodů (vzorků) ve čtvercích (blocích) Spočítá se „agregace“ pomocí koeficientu disperze, který se počítá jako podíl mezi rozptylem a aritmetickým průměrem. Na příkladu č. 6 z netstorage Prostorové rozmístění velkých stínek (Philoscia muscorum). Na následujícím obrázku je zaznamenán výsledek analýzy prostorového rozmístění stínek ve spadaném listí a humusu v části bukového háje poblíž Oxfordu. x i = Pokud se i rovná 1, jedná se o pravidelné rozmístění bodů v prostoru s maximálním rozestupem pokud je i větší než 1, jedná se o shlukovité rozmístění pokud je i menší než 1, je rozmístění bodů spíše náhodné, nepravidelné a) Zjištěný výskyt bodů zapíšeme do tabulky Množství stínek (n) 1 2 3 4 5 Absolutní četnost 15 9 relativní 0,41 0,14 0,24 0,11 0,05 b) Aritmetický průměr (15*0 + 5*1 + 9*2 + 4*3 + 2*4 + 2*5 )  37 = 1,43 c) Rozptyl = [ 15 * ( 1,43 – 0 )² + 5 * ( 1,43 – 1 )² + 9 * ( 2 – 1,43)² + 4 * ( 3 – 1,43 )² + 2 * ( 4 – 1,43 )² + 2 * ( 5 – 1,43 )² ]  37 = [30,67 + 0,92 + 2,92 + 9, , ,49]  37 = 2,25 d) i = 2,25  1,43 = 1,57 Prostorové rozmístění stínek je tedy shlukovité.

9 Pravděpodobnost Pojmy
Náhodným pokusem zkoumáme výskyt náhodných jevů. Je to takový pokus (zkoumání jehož výsledek není jednoznačně určen počátečními podmínkami. Množina náhodných jevů tvoří náhodný pokus. Jevy mohou být vzájemně neslučitelné, tj. takové které se vzájemně vylučují, jako např. možnost, že při hodu kostkou nemůže padnout číslo, které by bylo zároveň sudým i lichým. Není u nich žádný průnik množin. druhou kategorií jsou jevy vzájemně slučitelné. Tady už dochází k průniku množin náhodných jevů 1 5 3 2 4 6 Za nezávislý jev označujeme takový náhodný jev, kdy výskyt jednoho jevu neovlivní výskyt jevu druhého. Např. u rulety, když si vytočíte jakékoliv číslo, tak to nemá vliv na vytočení čísla při další hře, na rozdíl třeba od sportky, kdy vylosování 1. míčku změní pravděpodobnost losování míčku druhého – jev závislý. Jev u něhož pravděpodobnost vyjádříme číslem 1 označujeme jako jev jistý (nastane vždy – Při hodu hrací kostkou padne vždy celé číslo). Opakem je jev nemožný, tuto pravděpodobnost vyjádříme číslem 0. Pravděpodobnosti mezi nulou a jedničkou jsou jevy nejisté. Pravděpodobnosti výskytu neslučitelných jevů se sčítají. P(A + B) = P(A) + P(B) U jevů slučitelných je potřeba ještě odečíst jejich průnik. P(A + B) = P(A) + P(B) – P(A•B) Pravděpodobnosti jevů nezávislých násobíme. P(A • B) = P(A) * P(B) Pravděpodobnost, že při 2 hodech hrací kostkou bude součet padnuvších hodnot roven 2, spočteme tak, že vynásobíme pravděpodobnosti jevu, že při každém hodu padne jednička. 1/6 * 1/6 = 1/36. Použít můžeme i základní schéma pro výpočet pravděpodobnosti nezávislých jevů, které zapisujeme takto: m(A) m(Ώ) P(A) = a můžeme ji vyjádřit jako podíl množin jevů, které chceme zjistit a všech možných jevů. Pravděpodobnost jevu, že při 2 hodech hrací kostkou bude součet padnuvších hodnot roven 4 tedy bude 3/62, tj. 1/12. 1 3 2 2 3 1

10 Pravděpodobnost Příklady
S jakou pravděpodobností se jako řidič dostanete z místa A do místa B, pokud na vás čekají takovéto křižovatky. Podíváme se na plánek a vidíme, že k cíli vedou 2 cesty, tzn., že budeme sčítat pravděpodobnosti možnosti jet cestou horní a dolní. Ať už pojedeme horem nebo dolem, čekají nás křižovatky, kde, jak je z nákresu vidět mohou nastat jevy nezávislé. Horní cesta: Pravděpodobnost, že na křižovatce pojedeme správně je ½. To vynásobíme pravděpodobností, že z bodu A pojedeme právě horní cestou a vyjde nám ½ * ½ = ¼. Dolní cesta: Pravděpodobnost, že na křižovatce zahneme správně 1/3. To vynásobíme pravděpodobností, že z bodu A pojedeme právě dolní cestou a vyjde nám 1/3 * ½ = 1/6. A teď už jen sečteme pravděpodobnosti dvou neslučitelných jevů ¼ + 1/6 = 5/12. A B Pozor!!! Mapka může mít i jiné uspořádání tras, takže logika bude jistě potřeba. Nicméně si myslím, že by se nám mohly vyhnout špeky typu křižovatek s kruhovým objezdem. Stojíte na kraji útesu. S jakou pravděpodobností spadnete dolů, pokud v rámci „povolených“ kroků dvěmi směry (dopředu a dozadu) uděláte 1, 2, 3, 4, 5 … kroků? Opět bude potřeba si uvědomit, kdy budeme počítat s jevy nezávislými a neslučitelnými. Opět je to o logice. U každého jednoho kroku je pravděpodobnost že ho uděláme jedním směrem je ½, protože jak zaznělo v zadání byly dány jen dva možné směry kroků. Počet kroků Možnosti Pravděpodobnost 1 2 0 / 2 = 0 3 ½ * ½ * ½ = 1/8 4 U sudých počtů kroků už neexistuje možnost, jak udělat sudý krok a spadnout dolů, tedy P = 0 5 ½ * ½ * ½ * ½ * ½ + ½ * ½ * ½ * ½ * ½ = 1/16 U podobných příkladů tedy nepočítat celkový počet možností jak dosáhnout kýženého výsledku, ale sečíst pravděpodobnosti možných cest, které vedou k cíli.

11 Geometrická pravděpodobnost
Pro geometrickou pravděpodobnost používáme stejný vzorec jako pro pravděpodobnost aritmetickou (klasickou). Rozdíl je v tom, že místo s určitým počtem jevů, pracujeme s určitou délkou, prostorem, nebo jinou veličinou. Máme příklad: Na 600 metrovém úseku cesty ztratíme minci. S jakou pravděpodobností ji najdeme, budeme-li prohledávat 100 metrový úsek? m(A) m(Ώ) P(A) = Dosadíme do vzorce: P(A) = 100 / 600 = 1/6 Pokud by náhodou vzorec „vypadnul“, tak ke stejnému výsledku se dojde logickou úvahou. Na každém metru v prohledávaném úseku mám pravděpodobnost, že ji najdu 1/600. Těch metrů je celkem sto, jedná se o jevy neslučitelné, takže je můžeme sčítat. Po sečtení stovky 1/600 nám opět vyjde výsledek 1/6. Máme 10kg těsta. Do něj dáme rozinku. Zapracujeme ho do kilových bochánků. S jakou pravděpodobností najdeme rozinku v jednom konkrétním upečeném bochánku. Opět je nejdůležitější se nezamotat v číslech a např. nedělit 1 rozinku 10 kily těsta. Dělit můžeme 1kg / 10 kg nebo 1 bochánek 10 bochánky. Vyjde nám tedy P(A) = 0,1. Kdybychom do těsta dali 2 rozinky, tak pravděpodobnost, že v jednom bochánku najdeme aspoň jednu rozinku bude 0,1 + 0,1 = 0,2. Náhodné veličiny Rovnoměrné rozdělení pravděpodobností rozděluje jednotlivým výsledkům pokusu (zkoumání) pravděpodobnosti, že nastanou. Např. u hodu kostkou je u hodu jednou kostkou se hodnoty jednotlivých pravděpodobností pro čísla 1 – 6 rovnají jedné šestině. Pokud budeme neustále přidávat přidávat kostky, tak se graf křivky (osa x – součet hodů, osa y - pravděpodobnost, bude stále více podobat gaussově křivce. U binomického rozdělení rozdělujeme pravděpodobnosti pro jevy, které buď nastanou nebo nenastanou, jsou tedy dvě možnosti, ale pro různé pravděpodobnosti, že určitý jev nastane nebo nenastane. Takže zatímco u hodu kostkou můžete dostat 6 výsledků s pravděpodobností, že jev nastane a která je dána a nelze ji změnit, tak semeno buď vzklíčí nebo ne, ale stupeň pravděpodobnosti se musí dodat.

12 Náhodné veličiny Binomické rozdělení S jako pravděpodobností vyklíčí 0, 1, 2, 3, 4, 5 semen pokud mají 80% klíčivost? U nula semen je to už na první pohled jednoduché. Musíme 5* vynásobit pravděpodobnost, že 1 semeno nevzejde – 0,2 * 0,2 * 0,2 * 0,2 * 0,2 což jest (1 – 0,8)5 a to se tedy rovná 0,0003. U dalších semen už využíváme binomická čísla (středoškolská matika). Trošku zopakuji. ( ) Binomické číslo se čte např. jako pět nad třetí a v podstatě se rovná o variaci k-té třídy o n prvcích, v našem případě o variaci 3. Třídy o 5-ti prvcích. Vzoreček pro její výpočet je: Takže v našem případě, by to bylo takhle: 53 5! 3! * (5-3)! n! k! * (n-k)! Pokud by jste nechtěli na toto použít kalkulačku, tak ručně se to spočítá takhle: 5*4*3*2*1 3*2*1 * 2*1 = 10 možných variací. Takže jdeme dokončit příklad se semeny. Písmenem k si označíme počet vyklíčivších semen, jejichž pravděpodobnost vyklíčení počítáme, písmeno P zůstává označena pravděpodobnost. k P (x = k) 0,25 = 0,0003 1 (0,8 * 0,2 * 0,2 * 0,2 * 0,2) * 5 = 0,0064 2 0,8 * 0,8 * ( ) * 0,2 * 0,2 * 0,2 = 0,82 * 10 * 0,23 = 0,0512 3 0,8 * 0,8 * 0,8 *( )*0,2 * 0,2 = 0,83 * 10 * 0,22 = 0,2048 4 0,8 * 0,8 * 0,8 * 0,8 *( )* 0,2 = 0,84 * 5 *0,2 = 0,4096 5 0,85 = 0,3277 52 53 54 Pozn. k 1. a posl. řádku: ( )=( )= 1 Pozn. k 2. a předposl. řádku: ( )=( )= n I z tohoto příkladu odvoditelný vzorec zní: nn n0 n k-1 n1 P(x=k) =( )pk * (1 – p)n - k nk

13 Náhodné veličiny - definování binomického rozdělení
Mějme posloupnost n nezávislých náhodných pokusů, které mohou dopadnout jen dvěma způsoby (binomicí), pravděpodobnost úspěchu p, potom počet úspěchů v celé sérii má binomické rozdělení s parametry n a p. Pokud písmenem x označíme počet úspěchů tak vzorečkem zapíšeme toto rozdělení takto: x ~ Bi (n, p) Pokud 50* hodíme kostkou, s jakou pravděpodobností hodíme 10* šestku. Pozn.: I když házíme kostkou, jedná se o binomické rozdělení protože šestka buď padne nebo nepadne. n = 50 ; k = 10 ( )* *( )40 = 0,1156 50 10 110 6 1 6 Matematická statistika - testování hypotéz Statistickou hypotézou rozumíme každé tvrzení o tvaru nebo charakteristikách rozdělení jednoho či několika statistických znaků. Testem statistické hypotézy budeme nazývat postup, jímž na základě náhodného výběru ověřujeme, zda daná hypotéza platí, či nikoliv. Hypotézy, které se týkají hodnot parametrů rozdělení se nazývají parametrické testy. Testování tvrzení o rozdělení základního souboru, bez vyhodnocování jeho parametrů se nazývá testem neparametrickým. Testovaná statistická hypotéza se obvykle nazývá nulová hypotéza a označuje se H0. Proti sobě stojí tato nulová hypotéza H0 a alternativní hypotéza H1. Testovaný soubor zpravidla dělíme na dvě části. Tu která, splňuje danou hypotézu, a tu, která ji nesplňuje. Pokud např., jako při přednášce testujeme, kolikrát hostinský při čepování pivního moku nalil špatnou míru a nezajímá nás, jestli pod míru nebo nad míru, tak testujeme s oboustrannou alternativou. Pokud testujeme, jestli čepuje pod míru, tak testujeme s levostrannou alternativou. Pokud testujeme, jestli čepuje nad míru, tak testujeme s pravostrannou alternativou. Levostranná i pravostranná alternativa jsou alternativy jednostranné. Dalším pojmem je tzv. hladina významnosti, které značíme písmenkem alfa. Kdybychom u již zmíněného hostinského vyjádřili hypotézu, že hostinský je křivák pokud načepuje pivo pod míru s větší než 5-ti procentní pravděpodobností, tak ona hladina významnosti by se rovnala hodnotě 0,05 (5%). Tuto hladinu významnosti nazýváme též pravděpodobností chyby 1.druhu. Udává výši rizika, s jakým se H0 zamítá, i když platí. Abychom se vyhli dopočítávání chyby 2. druhu, tak i když to bude vypadat, že hostinský je poctivý, tak odpověď na testovanou hypotézu bude znít: „Nelze dokázat, že hostinský je nepoctivý“ a ne „Hostinský je poctivý“. Holt nelze vyloučit možnost, že hostinský naléval dobrou míru byla jen náhoda – chyba 1. druhu. V tomto příkladě bylo testové kritérium hostinského poctivost. Obor hodnot, kdy zamítáme nulovou hypotézu se nazývá kritickým oborem K, nebo-li oborem zamítnutí. Hodnoty, které tyto dva obory oddělují se nazývají kritické hodnoty.

14 Testování hypotéz Mezi ty nejvíce jednoduché, ale také nejméně vypovídající patří znaménkový test. Jeho menší spolehlivost byla ilustrována příkladem který zněl: Testujeme hostinského poctivost na zkušebním vzorku 8 sklenic piva. Budeme předpokládat, že hostinský může být poctivý když z těch osmi sklenic načepuje 2 a více sklenic nad míru. Sklenice načepované nad míru si označíme znaménkem plus, a ty pod míru znaménkem minus. Od pohledu je zřejmé, že výsledky se budou lišit, podle toho, ze které časové řady (umístění) bude zkušební vzorek pocházet. K testování podle znaménkového testu budeme ještě potřebovat vědět jakou předpokládáme pravděpodobnost, že hostinský načepuje 1 sklenici úplně přesně. Jako nezaujatí budeme předpokládat, že p = ½. Trochu si v jen tomto případě pozměníme hladinu významnosti (alfa) z ¼ na 0,05, což je standardní odchylka, se kterou se počítá i ve statistických tabulkách, coby povolené pomůcce při zkoušce. Podle schématu z již zmiňovaného binomického rozdělení x ~ Bi (n, p) zapíšeme příklad takto: x ~ Bi (8; ½) při α = 0,05. Pro výpočty použijeme: P(x=k) =( )pk * (1 – p)n - k nk k p ( x = k ) ( )0,50 * 0,58 = 0,0039 1 ( )0,51 * 0,57 = 0,0313 2 ( )0,52 * 0,56 = 0,1094 3 ( )0,53 * 0,55 = 0,2188 4 ( )0,54 * 0,54 = 0,2734 5 ( )0,55 * 0,53 = 0,2188 6 ( )0,56 * 0,52 = 0,1094 7 ( )0,57 * 0,51 = 0,0313 8 ( )0,58 * 0,50 = 0,0039 Je jasné, že očekávaný výsledek je 4/4. Protože jde o jednostrannou a v našem případě pravostrannou alternativu, začínáme sčítat pravděpodobnosti zezdola, dokud nepřekročíme hladinu významnosti. 0, ,0313 (0,0352) + 0,1094 (0,254). Kritická hodnota se tedy nalézá po 6 podměrečných pivech. U 6-tého piva tedy řekneme, že hypotézu o hostinského poctivost přijímáme, ale nepoctivost zamítnout nemůžeme, u 7-mého piva už to bude naopak. Pokud bychom si řekli, že každé pivo, které nemá přesně míru je chybou, tak by se jednalo o oboustrannou alternativu testu. V tom případě bychom ale začali sčítat z obou krajních stran. 0, ,0039 (0,0078) + 0, ,0313 (0,0704). To už by se tedy 1. kritická hodnota nalézala mezi 0-tým a 1-ním pivem a 2. kritická hodnota nalézala mezi 7-mým a 8-mým pivem. Při H0, že hostinský je poctivý by v tomto případě byly hodnoty zamítnutí 0 a 8. Stat. Tabulka se též vztahuje k oboustranné alternativě, takže tam můžete najít, že pro 8 pivech končí hostinského nepoctivost při 5-ti procentní hladině významnosti na 0-tém pivu a začíná na 8-mém pivu. 80 81 82 83 84 85 86 87 88

15 Studentův t-test Testování hypotéz
U testování hypotéz, kdy se nechceme opírat jen o výskyt jevů, ale chceme do zjištění pravděpodobnosti zahrnout i jiný parametr (např. kolik cm zbývá do toho, aby sklenice měla řádnou míru, můžeme využít Studentův t-test Kontrolní test zjišťoval pravdivost hypotézy H0, že výrobní stroj je špatně seřízen (převažuje, nedovažuje) na vzorku o 10-ti nábojích navážil tyto hodnoty (g): 2,03 1,99 2,00 2,03 2,01 2,02 1,98 2,04 2,02 1,99. Podle znaménkové testu by jsme v tabulkách zjistili, že kritický poměr (při hladině významnosti α = 0,05) je 1:9, tedy že aby se potvrdila správnost hypotézy, z 10 nábojů může mít jeden náboj nadváhu a ostatní podváhu nebo akorát. Anebo obráceně – 1 podváhu a 9 akorát nebo s nadváhou. My jsme zjistili, že nadváhu mají tři náboje, takže hypotézu H0, že stroj špatně váží nepřijímáme, ale s tím, že ji nelze zamítnout. S pomocí studentova t-testu zjišťujeme testovací statistiku (T) s pomocí studentova rozdělení s n-1 stupni volnosti. Takhle vypadá vzoreček x – norma s t = * n „s“ je směrodatná odchylka a „x“ je průměr z naměřených hodnot. Aritmetický průměr je tedy (1*1,98 + 2*1,99 + 1*2,00+ 1*2,01 + 2*2,02 + 2*2,03 + 1*2,04) / 10 = 2,011. Norma jsou dva gramy. Ke směrodatné odchylce se dostaneme v těchto krocích: Zjištění rozptylu s2 = [ 1*(2,011-1,98)2 + 2*(2,011-1,99)2 + 1*(2,011-2,00)2 + 1*(2,011-2,01)2 + 2*(2,02-2,011)2 + 2*(2,03-2,011)2 + 1*(2,04-2,011)2 ] / 10 = 0, Profesorovi vyšlo 0,00041 Směrodatná odchylka je odmocnina z rozptylu a to v tomto případě je 0,0192. Profesorovi vyšlo 0,02025 Teď už jen dosadíme do vzorce: T = ( 2,011 – 2,00) / 0,0192 * 10 = 1,82 . Profesorovi vyšlo 2,262. I kdyby ale dosadil svou směrodatnou odchylku do vzorce, který je zapsán správně, tak mu to nemůže vyjít. T = ( 2,011 – 2,00) / 0,02025 * 10 = 1,72 .

16 F – test (dvou výběrový test)
Studentův t-test A teď to nejdůležitější. Jak bez znaménkového testu ověřit platnost nulové hypotézy? Porovnání hodnoty t s kritickou hodnotou tα(n-1), která je uvedena v tabulkách, kde je menší chybička – levý sloupec nemá být nadepsán n, ale n-1. V našem případě tedy najdeme hodnotu pro (10 – 1) stupňů volnosti a 5-ti % hladinu volnosti, což je 2,262. Nulovou hypotézu H0 zamítneme, pokud spočítaná hodnota t bude větší než hodnota tα(n-1). Protože hodnota 1,77 je menší než 2,262, tak můžeme odpovědět, že odchylka výběrového průměru od očekávané hodnoty (normy) ų0 není statisticky významná. Shrnutí studentova t-testu S pomocí vzorce určit hodnotu spočítané veličiny t V tabulkách najít hodnotu odpovídající hladině významnosti a n-1 stupňům volnosti Na základě porovnání odmítnout, či přijmout nulovou hypotézu a určit, zda odchylka očekávané hodnoty od průměru je statisticky významná či nikoliv. F – test (dvou výběrový test) Tento test použijeme pokud srovnáváme dvě vzorky proti sobě, ne oproti nějaké normě nebo očekávanému výsledku. Nulovou hypotézu testujeme na dvou náhodně vybraných vzorcích. Testovací kritérium F spočteme jako podíl rozptylů (!!! Větší rozptyl / menší rozptyl) Toto spočítané kritérium pak porovnáme s tabulkovým pro „n-1“ stupně volnosti a průměrnou požadovanou hladinu významnosti. Nulovou hypotézu (při oboustranné alternativě) zamítneme pokud F bude větší než Fα/2(m-1, n-1). Při pravostranní alternativě, bychom ji zamítli, kdyby F bylo větší než Fα(m-1, n-1). (s1)2 (s2)2 F = S1 ≥ s2

17 Příklad na odhad střední hodnoty
Na rozdíl od klasického způsobu zde zjišťujeme hraniční hodnoty mediánu, při námi zvolené spolehlivosti (pravděpodobnosti) P. Vzorec zní takto: Směrodatná odchylka Aritmetický průměr S n Medián = x + [tn-1(1-P)]* - Tabulková hodnota pro n-1 stupňů volnosti a hladinu α (1-P) Počet prvků ve výběru Příklad na odhad střední hodnoty 1 – P = 1 – 0,95 = 0,05 ; n = 10 ; t9(0,05) podle tabulek na studentův t-test = 2,262 ; Průměr = 5,524 hodnoty 3,65 4,36 4,46 5,13 5,74 5,96 6,00 6,37 6,60 6,97 odchylka 1,874 1,164 1,064 0,394 0,216 0,436 0,476 0,846 1,076 1,446 Rozptyl = [ 1, , , , , , , , , ,4462) / 10 = 1,058184 Směrodatná odchylka = 1, = 1, Dosadíme do vzorce : Dolní hodnota mediánu = 5,524 – (2,262 * 1,02868 / 10 ) = 4,79 ; Dolní hodnota mediánu = 5,524 + (2,262 * 1,02868 / 10 ) = 6,26 Pokud odhadneme jakoukoliv střední hodnotu ze zkoumaného vzorku, pak nulovou hypotézu, že tento odhad je střední hodnotou daného vzorku při 95-ti procentní pravděpodobnosti zamítneme pokud bude ležet mimo rozpětí 4,75 až 6,30.

18 Porovnání průměrů zkoumaných vzorků (dvou výběrový test)
Tento parametrický test porovnává průměry z dvou měření za účelem stanovení zda rozdíly mezi zkoumanými vzorky nejsou větší než stanovená hladina významnosti. [H0 : µ1 = µ2] Nejprve stanovíme, zda jsou rozptyly obou vzorků stejné, nebo se aspoň k sobě velmi blíží (hranici zjistíme s pomocí F-testu a hladiny významnosti. Pokud konstatujeme, že vyhovují naší podmínce stejnosti může využít ke stanovení testové kritéria t tzv. dvouvýběrový t-test. Testové kritérium t vypočteme podle vzorce: 1 m n + x - y t = s * m značí počet měření v prvním měření (x1, x2, …), n pak v druhém (y1, y2, …). s2 spočítáme obdobně jako kdybychom počítali rozptyl u 1-noho vzorku. K přijmutí či zamítnutí nulové hypotézy budeme opět porovnávat hodnotu t spočtenou s kritickou hodnotou pro danou hladinu významnosti a „m + n – 2“stupni volnosti v kritických hodnotách. Platí, že nulovou hypotézu (při oboustranné alternativě) zamítneme pokud |t | bude větší než tα (m+n-2). Při pravostranné alternativě, bychom ji zamítli, kdyby t bylo větší než t2α(m+n-2). Při levvostranní alternativě, bychom ji zamítli, kdyby t bylo menší než -t2α(m+n-2). Pokud rozptyly obou měření (vzorků ) nebudou vyhovovat našemu požadavku na „stejnost“ nahradíme dvouvýběrový t-test testem, který je nazýván: Welchův test Testové kritérium t vypočteme podle vzorce: Na rozdíl od t-testu je zde počítán každý rozptyl zvlášť, a pak teprve dosazen do vzorce. Pro přijetí, či zamítnutí nulové hypotézy se rozhodujeme stejným způsobem jako u t-testu s jediným rozdílem. Stupně volnosti “f“ si spočítáme podle vzorce, který se tváří složitě, ale je docela snadno zapamatovatelný a odvoditelný. (s1)2 m n + x - y t = (s1)2 m (s2)2 n f = + m – n - 1 Myslím, že další z dvouvýběrových testů – párový t-test tam nebude, protože se jedná o testování s výběry tzv. závislými. Dále si oddechneme, že u dvouvýběrových testů to končí, a že už nás čeká jen …

19 Wilcoxonův test dvouvýběrový
Což je vlastně neparametrická obdoba dvouvýběrového t-testu. Slouží k testu hypotézy, že dva nezávislé výběry / X = x1, …, xm a Y = y1, …, yn / pocházejí ze stejného základního souboru, proti alternativě, že se významně liší svou „polohou“. Neparametrické testy se využívají hlavně tam, kde pracujeme s výběry poměrně malých rozsahů nebo ze souborů o jejichž rozdělení nic nevíme. Mají menší schopnost odhalit nesprávnost dané hypotézy, to je však kompenzováno širší možností použití. Výběrové hodnoty se seřadí od nejmenšího k největšímu a přiřadíme jim pořadová čísla Rx1, …, Rxm , Ry1, …, Rym, přičemž stejně velkým hodnotám přiřazujeme stejná pořadová čísla. Zjistíme součty Tx = Rx1 + … + Rxm , Ty = Ry1 + … + Rym Vypočteme statistické veličiny podle vzorečků Ux = m*n Tx ; Uy = m*n Ty m(m + 1) 2 n(n + 1) Nulovou hypotézu zamítneme na hladině významnosti „α“, jestliže minimální hodnota ze statistických veličin Ux a Uy jsou menší nebo rovny tabulkové hodnotě Uα. (netestuje se na jednostranných alternativách) Příklad na wilcoxonův dvouvýběrový test Znamená to, že bílý je lepší než černý? Seřazení a přiřazení pořadových čísel Černý x1 x2 x3 x4 x5 x8 x9 x11 x13 x18 ; bílý y6 y7 y10 y12 y14 y15 y16 y17 y19 y20 2) Zjištění součtů Tx = = 74 ; Ty = = 136 3) Dosazení do vzorce: Ux = 10* = 81 ; Uy = 10* = 19 4) V tabulce pro zvolenou hladinu významnosti si najdeme tabulkovou hodnotu statistické veličiny U (pro Uα = 0,05) to bude hodnotu 23 a protože 19 je menší než 23, můžeme odpovědět, že hypotézu o tom že bílý je lepší než černý na 5-ti procentní hladině významnosti nepřijímáme. Pro Uα = 0,01 to bude hodnotu 16 a protože 19 je větší než 16, můžeme odpovědět, že hypotézu o tom že bílý je lepší než černý na 1-no procentní hladině významnosti přijímáme. 10 (10+1) 2 10 (10+1) 2

20 Wilcoxonův test jednovýběrový
Na rozdíl znaménkového testu, bereme v úvahu odchylky od normy (předpokládaného jevu) 1) Odchylky od normy vzestupně seřadíme podle jejich absolutní hodnoty a přiřadíme jim pořadová čísla 2) Vyjádříme zvlášť součty pořadových čísel pro kladné odchylky a zvlášť pro záporné. Tyto součty jsou pro tento test naší statistickou veličinou. 3) Porovnáme menší z našich stat. veličin (součtů) s tabulkovou hodnotou. Nulovou hypotézu zamítneme, pokud hodnota spočítané statistické veličiny bude menší nebo rovna tabulkové hodnotě. Příklad na wilcoxonův jednovýběrový test 1) Seřazení a přiřazení pořadových čísel 1_-0,3; 2_-1,2; 3_1,3; 4_-1,5; 5_-1,5; 6_2,0; 7_3,9; 8_4,7; 9_5,7; 10_6,4; 11_6,8; 12_8,9 2) Vyjádření součtů: S- = = 12 ; S+ = = 66 3) Porovnání s tabulkovou hodnotou: Menší z obou součtů je hodnota 12 a ta je menší než tab. hodnota pro n=12 a α= 0,05, takže můžeme říci, že hypotézu o tom, že hostinský točí nad míru nepřijímáme při 5-ti procentní hladině významnosti, ale při hodnotě α= 0,01 můžeme říci, že hypotézu o tom, že hostinský točí nad míru přijímáme při 1-no procentní hladině významnosti, protože 12 není větší než 7. Wilcoxonův párový test se liší od klasického wilcoxonova jednovýběrového testu jen tím, že odchylka zde není vypočítávána jako rozdíl od normy, ale jako rozdíl mezi hodnotami v páru měření (pro jedno x) Seřadit podle absolutních hodnot, přiřadit pořadová čísla, vyjádřit součty pořadových čísel pro minusové a plusové odchylky, porovnat menší z obou součtů s tabulkovou hodnotou, …


Stáhnout ppt "Statistika Poznámky z přednášek"

Podobné prezentace


Reklamy Google