Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Test dobré shody a testy nezávislosti, regresní analýza 2.přednáška.

Podobné prezentace


Prezentace na téma: "Test dobré shody a testy nezávislosti, regresní analýza 2.přednáška."— Transkript prezentace:

1 Test dobré shody a testy nezávislosti, regresní analýza 2.přednáška

2 Test χ 2 dobré shody Neparametrický test- testujeme tvar rozdělení Testem ověřujeme shodu mezi empirickým a teoretickým rozdělením Obor hodnot náhodné veličiny rozdělíme do r≥2 disjunktních tříd (kategorií) π j …..pravděpodobnost, NV nabude hodnoty z j=té třídy

3 Předpoklady teoretické četnosti n π j0 byly větší než 1 v každé třídě teoretické četnosti n π j0 byly větší než 5 v 80% tříd. Nevyhovují-li některé četnosti této podmínce, lze dosáhnout jejího splnění sloučením několika sousedních tříd (tím se sníží počet stupňů volnosti, neboť r je rovno počtu tříd po sloučení). Slučujeme skupiny nějak příbuzné, věcně spolu související.

4 Test χ 2 dobré shody H 0 je shoda H 1 není shoda H 0 : π j = π j0 j=1………,r H 1 : non H 0 Testové kritérium n j ….empirické četnosti o j ….teoretické (očekávané) četnosti o j =n π j Kritický obor c…počet odhadovaných parametrů rozdělení

5 Příklad 1 Firma chce uvést na trh nový výrobek ve čtyřech různých provedeních designu a předpokládá, že zájem o jednotlivé druhy designu (označme je A,B,C,D) bude následující. Design A 35% všech zájemců o tento typ výrobku, design B 10%, design C 5% a design D 50% zájemců. Pro potvrzení svého předpokladu provedla firma průzkum, ze kterého vyplynulo, že z 300 potencionálních zájemců o tento výrobek by zájem o design A projevilo 110 zájemců, o design B 20 zájemců, o design C 10 zájemců a o design D 160 zájemců. Ověřte na 5% hladině významnosti, zda tyto zjištěné výsledky potvrzují předpoklad firmy.

6 řešení r=4 H 0 : π 1 = 0,35 H 1 : non H 0 π 2 = 0,1 π 3 = 0,05 π 4 = 0,5 n 1 =110, n 2 =20, n 3 =10, n 4 =160, n=300 o 1 =300.0,35=105, o 2 =300.0,1=30, o 3 =300.0,05=15, o 4 =300.0,5=150 Předpoklady splněny

7 řešení Testové kritérium Předpoklad firmy není v rozporu se zjištěnou strukturou zájmu o výrobek z průzkumu

8

9 Příklad 2 Na úřadu byl sledován počet občanů přicházejících s žádostmi v průběhu rozšířených úředních hodin pro veřejnost. Pro zjištění rovnoměrnosti využití těchto hodin pro veřejnost byly během jednoho úředního dne zjištěny tyto údaje Lze na základě těchto dat učinit závěr, že zákazníci přicházejí v průběhu dne na úřad rovnoměrně?(Otestujte na 5% hladině významnosti) doba9-1111-1313-1515-1717-19 počet3640273944

10 řešení H 0 : π 1 = 0,2 H 1 : non H 0 π 2 = 0,2 π 3 = 0,2 π 4 = 0,2 π 5 = 0,2 n 1 = 36, n 2 = 40, n 3 = 27, n 4 = 39, n 5 = 44, n=186 o 1 = o 2 = o 3 = o 4 =o 5 =37,2

11 řešení zjištěná data neprokázala(na 5% hladině významnosti) nerovnoměrnost příchodu občanů na úřad v průběhu úředních hodin pro veřejnost

12 Příklad 3 V následující tabulce je uveden počet kazů na kusu látky vždy o rozměru 1m 2. Prozkoumáno bylo celkem 20m 2. Rozhodněte, zda je možno počet kazů na 1 m 2 látky považovat za náhodnou veličinu, která se řídí Poissonovým rozdělením Počet kazů01234567 Počet kusů o velikosti 1m 2 23242241

13 Řešení Teoretické pravděpodobnosti Po(λ) nemáme informaci o parametru λ Musíme ho odhadnout EX= λ λ≈68∕20=3,4

14 Řešení Počet kazůTeoretické pravděpodobnosti Teoretické četnosti Sloučené teoretické četnosti Sloučené empirické četnosti 00,0333730,66746 10,1134692,26938 20,1928983,857966,79487 30,2186174,37234 40,1858253,71658,088846 50,1263612,52722 60,0716041,43208 70,0578531,157065,116367

15 Řešení Na 5% hladině významnosti nelze zamítnout hypotézu o tom, že data pochází z Poissonova rozdělení

16 Dodatky Spolehlivost   – testu dobré shody se zvyšuje s rostoucím rozsahem výběru n. Je dobré, aby byla splněna podmínka n > 50 Další testy dobré shody Kolmogorov - Smirnovův test – Musí být plně známo teoretické rozdělení včetně parametrů je použitelný i v případech, kdy není použitelný  2 – test dobré shody (např. v případě výběru malého rozsahu, velký podíl teoretických četností menších než 5). vychází z původních jednotlivých napozorovaných hodnot a nikoliv z údajů setříděných do tříd (kategorií). používá se k ověření hypotézy, že pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x), Davidův test normality- ověřujeme nulovou hypotézu, která říká, že náhodný výběr pochází z normálního rozdělení

17 Dvourozměrné rozdělení četností Ve statistickém souboru zjišťujeme hodnoty dvou statistických znaků x a y. Tabulka rozdělení četností A) znaky x a y kvantitativní-korelační tabulka B) znaky x a y kvalitativní-kontingenční tabulka

18 Dvourozměrné rozdělení četností y xy1y1 y2y2 …ysys n i* x1x1 n 11 n 12 …n 1s n 1* x2x2 n 21 n 22 …n 2s n 2* ……………… xrxr n r1 n r2 …n rs n r* n *j n *1 n *2 …n *s n

19 Vlastnosti četností

20 Příklad Známky 30 žáků z písemných prací z matematiky (proměnná x) a českého jazyka (proměnná y) jsou uvedeny v následující tabulce x 223145411233122421132245122331 y 511124332223441123314333251123

21 Kontingenční tabulka y yxyx 1 výborně 2 chvalitebně 3 dobře 4 dostat. 5 nedost. n i* 11241-8 23212210 3321--6 4112--4 5--11-2 n *j 8794230

22 Podmíněné charakteristiky Podmíněný průměr Podmíněný druhý centrovaný moment

23 Příklad pokračování Z kontingenční tabulky z předchozího příkladu spočtěte podmíněné průměry známek z českého jazyka.

24 Elementární zjišťování závislosti Hodnoty znaku y jsou roztříděny do r tříd podle znaku x Variabilita podmíněných průměrů kolem celkového průměru je způsobena závislostí znaku y na znaku x. Variabilita znaku y uvnitř jednotlivých skupin je způsobena závislostí znaku y na jiných činitelích

25 Celkový průměr, celkový rozptyl Celkový průměr y ij …j-té pozorování v i-tém podmíněném rozdělení Celkový druhý centrovaný moment Rozptyl podmíněných průměrů(meziskupinová variabilita)

26 Determinační poměr Průměr podmíněných rozptylů (vnitroskupinová variabilita) Celkový rozptyl Součty čtverců, kde Determinační poměr hodnoty z Korelační nezávislost Pevná závislost

27 Test χ 2 o nezávislosti dvou znaků Diskrétní znaky(veličiny) Oba znaky kvantitativní, oba kvalitativní, jeden kvantitativní jeden kvalitativní Opakování: dva jevy A,B byly nezávislé právě tehdy, když Soubor roztříděn podle dvou znaků do dvourozměrné tabulky rozdělení četností π ij pravděpodobnost, že vybraná jednotka souboru bude zařazena do třídy(kategorie) (x i, y j ) i=1,…,r, j=1,..,s π i* pravděpodobnost, že vybraná jednotka souboru bude zařazena do třídy(kategorie) x i, i=1,…,r π * j pravděpodobnost, že vybraná jednotka souboru bude zařazena do třídy(kategorie) y j j=1,..,s

28 Test χ 2 o nezávislosti dvou znaků Nulová hypotéza- nezávislost Testové kritérium, kde Kritický obor 1-α% kvantil rozdělení o (s-1)(r-1) stupních volnosti

29 Příklad Bylo zkoumáno, zda život na vesnici, či v různě velkých městech ovlivňuje rozvodovost manželských párů. Pro zjištění vlivu života v různě velkých obcích na rozvodovost manželství byla provedena následující studie, ve které byly dotazovány manželské páry 5 let po prvním sňatku. Údaje z této studie jsou uvedeny v následující tabulce. Na 5% hladině významnosti ověřte zda rozvodovost manželských párů v počátcích manželství závisí na velikosti obce, ve které manželský pár žije. vesniceměstysmalé městovelké město Stále v témže manželství 4478 76 Rozvedeni nebo odloučeni 28423024

30 řešení Znak x …..stav manželství Znak y……velikost bydliště s=4, r=2 vesniceměstysmalé město velké město n i* Stále v témže manželst ví 44=n 11 78=n 12 78=n 13 76=n 14 276 Rozvede ni nebo odlouče ni 28=n 21 42=n 22 30=n 23 24=n 24 124 n *j 72120108100400 vesniceměstysmalé městovelké měston i* Stále v témže manželství 276*72/400 =o 11 276*120/400 =o 12 276*108/400 =o 13 276*100/400 =o 14 276 Rozvedeni nebo odloučeni 124*72/400 =o 21 124*120/400 =o 22 124*108/400 =o 23 124*100/400 =o 24 124 n *j 72120108100400

31 řešení t=5,81 H 0 nelze zamítnout, rozvodovost manželských párů v počátcích manželství nezávisí na velikosti obce, ve které manželský pár žije. vesniceměstysmalé městovelké město Stále v témže manželství 49,68=o 11 82,8=o 12 74,52=o 13 69 =o 14 Rozvedeni nebo odloučeni 22,32 =o 21 37,2=o 22 33,48 =o 23 31 =o 24 vesniceměstysmalé městovelké město Stále v témže manželství (44-49,68) 2 /49,68 =0,649 (78-82,8) 2 /82,8 =0,278 (78-74,52) 2 /74,52 =0,1625 (76-69 ) 2 /69 =0,71 Rozvedeni nebo odloučeni (28-22,32) 2 /22,32 =1,445 (42-37,2) 2 /37,2) = 0,619 (30-33,48) 2 /33,48 =0,3617 (24-31) 2 /31 =1,581

32

33 ANOVA-jednofaktorová analýza rozptylu Test, kterým ověřujeme závislost diskrétní (v r kategoriích) a spojité veličiny Předpoklady: nezávislé náhodné výběry pocházejí z normálních rozdělení se středními hodnotami µ 1, µ 2..... µ r se stejným rozptylem σ 2 N(µ i,σ 2 ) Shodu rozptylů ověříme Bartlettovým testem Nulová hypotéza- nezávislost Testové kritérium kde r je počet kategorií, n rozsah výběrového souboru

34 ANOVA-jednofaktorová analýza rozptylu Kritický obor 1-α% kvantil Fischerova rozdělení o (r-1) a (n-r) stupních volnosti Zdroj variability Součet čtverců Počet stupňů volnosti Průměrné čtverce Testové kritérium Faktor AQmQm r-1Q m /(r-1)t=Q m /(r-1)/ Q ν /(n-r) reziduálníQνQν n-rQ ν /(n-r) celkovýQyQy n-1

35 příklad Zemědělské družstvo, které se specializuje na pěstování zeleniny použilo při pěstování květáku čtyř různých směsí hnojiva a sledovalo, zda má použité hnojivo vliv na výnosnost zeleniny. (měřená ve váze jednoho květáku). Údaje jsou uvedeny v následující tabulce. Na 5% hladině významnosti rozhodněte, zda hnojící směs má vliv na výnosnost květáku. Směs hnojiva A 0,90,80,90,6- Směs hnojiva B 1,3 1,0- - Směs hnojiva C 1,11,21,0-- Směs hnojiva D 1,51,61,11,31,5

36 řešení Celkový průměr Podmíněné průměry

37 řešení Celkový součet čtverců Zdroj variabilitySoučet čtvercůPočet stupňů volnosti Průměrné čtverce Testové kritérium Faktor A0,81630,816/3=0,272t=0,272/ 0,02727=9,973 reziduální0,3110,3/11=0,02727 celkový1,11614

38 řešení t=9,973 Protože v tabulkách není uveden kvantil o těchto stupních volnosti, použijeme nejbližší o stupních volnosti 3,10 H 0 zamítáme, test prokázal, že použité hnojivo ovlivňuje výnosnost květáků.

39

40 Regresní analýza Metoda pro popis závislostí mezi dvěma nebo více proměnnými (mezi vysvětlovanou (závislou) proměnnou a vysvětlujícími (nezávislými) proměnnými) Slouží k odhadu hodnot vysvětlované proměnné Jednoduchá regresní analýza- pouze jedna vysvětlující proměnná Vícenásobná regresní analýza- více než jedna vysvětlovaná proměnná

41 Regresní model Regresní model se snaží o popis závislosti mezi proměnnými pomocí funkčního předpisu složka popisující vliv vysvětlující proměnné náhodná složka (nepopsané vlivy)-nelze ji funkčně vyjádřit

42 Regresní analýza Příklady (funkce lineární v parametrech) Nebo funkce nějakou transformací převoditelná na funkci lineární v parametrech

43 Jak vybrat mezi např. lineárními funkcemi tu nejlepší? A která je ta nejlepší? K dispozici máme pouze výběrový soubor Najdeme pouze odhady parametrů Budu vybírat tak, aby se body ležící na přímce od naměřené hodnoty lišily co nejméně. Nejméně ve smyslu čtverců.

44 Metoda nejmenších čtverců [x,y] dvojice náhodných veličin [1,2],[2,4],[3,5] nalezněte přímku, která nejlépe popisuje závislost proměnné y na proměnné x

45 Soustava normálních rovnic Jak se hledá minimum funkce ? Pomocí derivací Dostaneme soustavu normálních rovnic Jejím řešením je

46 Příklad Marketingové oddělení jisté firmy zkoumalo vztah mezi objemem výroby (v tis. kusech) a celkovými náklady (v mil Kč). V deseti vybraných provozech byly zjištěny následující údaje Popište závislost celkových nákladů na objemu výroby lineární funkcí Interpretujte regresní koeficient b 1 Interpretujte regresní koeficient b 0 Odhadněte, jaké celkové náklady může firma očekávat v provozu, který plánuje vyrobit 7 tis. Ks výrobků Objem výroby 24821064 68 Celkové náklady 15202517302221352530

47 řešení nejprve musíme vypočítat průměry a druhý centrovaný moment Regresní koeficient udává náklady (12 mil. Kč), kdyby se nevyrábělo – fixní náklady Regresní koeficient udává, o kolik (2 mil. Kč) se zvednou náklady, když se objem výroby zvedne o jednu jednotku(tis. ks) celkové náklady, které může firma očekávat v provozu, který plánuje vyrobit 7 tis. Ks výrobků, jsou


Stáhnout ppt "Test dobré shody a testy nezávislosti, regresní analýza 2.přednáška."

Podobné prezentace


Reklamy Google