Test dobré shody a testy nezávislosti, regresní analýza 2.přednáška.

Slides:



Advertisements
Podobné prezentace
Kalkulace S tudent. Osnova výkladu 1.Kalkulace nákladů a způsoby jejího rozlišení 2.Kalkulační vzorec nákladů 3.Stanovení nákladů na kalkulační jednici.
Advertisements

Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Ekonomicko-matematické metody č. 11 Prof. RNDr. Jaroslav Ramík, CSc.
Výukový materiál zpracovaný v rámci projektu EU peníze školám Registrační číslo projektu:CZ.1.07/1.4.00/ Šablona:III/2 Inovace a zkvalitnění výuky.
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
Testy hypotéz - shrnutí Testy parametrické Testy neparametrické.
Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.
Experimentální metody oboru – Pokročilá tenzometrie – Měření vnitřního pnutí Další využití tenzometrie Měření vnitřního pnutí © doc. Ing. Zdeněk Folta,
Význam diferenciálních rovnic převzato od Doc. Rapanta.
1 Obhajoba diplomové práce Sluneční záření a atmosféra Autor: Tomáš Miléř Vedoucí: Doc. RNDr. Petr Sládek, CSc. Oponent: RNDr. Jan Hollan BRNO 2007Katedra.
STATISTICKÉ METODY V GEOGRAFII. Odhady parametrů intervaly spolehlivosti.
Funkce Lineární funkce a její vlastnosti 2. Funkce − definice Funkce je předpis, který každému číslu z definičního oboru, který je podmnožinou množiny.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Definice: Funkce f na množině D(f)  R je předpis, který každému číslu z množiny D(f) přiřazuje právě jedno reálné číslo. Jinak: Nechť A, B jsou neprázdné.
Induktivní statistika
Analýza variance (ANOVA).
POČET PRAVDĚPODOBNOSTI
Testování hypotéz Testování hypotéz o rozdílu průměrů
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
OCEŇOVÁNÍ CENNÝCH PAPÍRŮ Přednáška č. 2
Náhodná veličina je veličina, která při opakování náhodného pokusu mění své hodnoty v závislosti na náhodě Náhodné veličiny označujeme X, Y, Z, ... hodnoty.
Interpolace funkčních závislostí
„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, ONA VÁM TO VYČÍSLÍ“
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Testování hypotéz vymezení základních pojmů
Lineární funkce - příklady
Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková
Testování hypotéz Testování hypotéz o rozdílu průměrů
Statistické pojmy. Statistické pojmy Statistika - vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter Pojem statistika slouží k.
„Svět se skládá z atomů“
Výběrové metody (Výběrová šetření)
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
Regrese – jednoduchá regrese
Párový neparametrický test
Základy statistické indukce
Molekulová fyzika 3. prezentace.
Vykazování postupu nebo stavu
Základy zpracování geologických dat testování statistických hypotéz
Vzdělávání pro konkurenceschopnost
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
Míry asociace obecná definice – síla a směr vztahu
GENEROVÁNÍ HODNOT NÁHODNÝCH VELICIN PSEUDONÁHODNÁ ČÍSLA
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Kvadratické nerovnice
Želvy H0 = není rozdíl mezi délkou želv na Marshallových ostrovech a délkou celé populace karet obrovských H1 = je rozdíl mezi délkou karet obrovských.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
BIBS Informatika pro ekonomy přednáška 2
Spojité VELIČINY Vyšetřování normality dat
XII. Binomické rozložení
Základní statistické pojmy
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
Lineární regrese.
Cauchyho rozdělení spojité náhodné veličiny
Analýza variance (ANOVA).
Běžná pravděpodobnostní rozdělení
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Modely obnovy stárnoucího zařízení
Teorie chyb a vyrovnávací počet 1
Náhodný jev, náhodná proměnná
Lineární funkce a její vlastnosti
T - testy Párový t - test Existuje podezření, že u daného typu auta se přední pneumatiky nesjíždějí stejně. H0: střední hodnota sjetí vpravo (m1) = střední.
Více náhodných veličin
Grafy kvadratických funkcí
Teorie chyb a vyrovnávací počet 2
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Test dobré shody a testy nezávislosti, regresní analýza 2.přednáška

Test χ 2 dobré shody Neparametrický test- testujeme tvar rozdělení Testem ověřujeme shodu mezi empirickým a teoretickým rozdělením Obor hodnot náhodné veličiny rozdělíme do r≥2 disjunktních tříd (kategorií) π j …..pravděpodobnost, NV nabude hodnoty z j=té třídy

Předpoklady teoretické četnosti n π j0 byly větší než 1 v každé třídě teoretické četnosti n π j0 byly větší než 5 v 80% tříd. Nevyhovují-li některé četnosti této podmínce, lze dosáhnout jejího splnění sloučením několika sousedních tříd (tím se sníží počet stupňů volnosti, neboť r je rovno počtu tříd po sloučení). Slučujeme skupiny nějak příbuzné, věcně spolu související.

Test χ 2 dobré shody H 0 je shoda H 1 není shoda H 0 : π j = π j0 j=1………,r H 1 : non H 0 Testové kritérium n j ….empirické četnosti o j ….teoretické (očekávané) četnosti o j =n π j Kritický obor c…počet odhadovaných parametrů rozdělení

Příklad 1 Firma chce uvést na trh nový výrobek ve čtyřech různých provedeních designu a předpokládá, že zájem o jednotlivé druhy designu (označme je A,B,C,D) bude následující. Design A 35% všech zájemců o tento typ výrobku, design B 10%, design C 5% a design D 50% zájemců. Pro potvrzení svého předpokladu provedla firma průzkum, ze kterého vyplynulo, že z 300 potencionálních zájemců o tento výrobek by zájem o design A projevilo 110 zájemců, o design B 20 zájemců, o design C 10 zájemců a o design D 160 zájemců. Ověřte na 5% hladině významnosti, zda tyto zjištěné výsledky potvrzují předpoklad firmy.

řešení r=4 H 0 : π 1 = 0,35 H 1 : non H 0 π 2 = 0,1 π 3 = 0,05 π 4 = 0,5 n 1 =110, n 2 =20, n 3 =10, n 4 =160, n=300 o 1 =300.0,35=105, o 2 =300.0,1=30, o 3 =300.0,05=15, o 4 =300.0,5=150 Předpoklady splněny

řešení Testové kritérium Předpoklad firmy není v rozporu se zjištěnou strukturou zájmu o výrobek z průzkumu

Příklad 2 Na úřadu byl sledován počet občanů přicházejících s žádostmi v průběhu rozšířených úředních hodin pro veřejnost. Pro zjištění rovnoměrnosti využití těchto hodin pro veřejnost byly během jednoho úředního dne zjištěny tyto údaje Lze na základě těchto dat učinit závěr, že zákazníci přicházejí v průběhu dne na úřad rovnoměrně?(Otestujte na 5% hladině významnosti) doba počet

řešení H 0 : π 1 = 0,2 H 1 : non H 0 π 2 = 0,2 π 3 = 0,2 π 4 = 0,2 π 5 = 0,2 n 1 = 36, n 2 = 40, n 3 = 27, n 4 = 39, n 5 = 44, n=186 o 1 = o 2 = o 3 = o 4 =o 5 =37,2

řešení zjištěná data neprokázala(na 5% hladině významnosti) nerovnoměrnost příchodu občanů na úřad v průběhu úředních hodin pro veřejnost

Příklad 3 V následující tabulce je uveden počet kazů na kusu látky vždy o rozměru 1m 2. Prozkoumáno bylo celkem 20m 2. Rozhodněte, zda je možno počet kazů na 1 m 2 látky považovat za náhodnou veličinu, která se řídí Poissonovým rozdělením Počet kazů Počet kusů o velikosti 1m

Řešení Teoretické pravděpodobnosti Po(λ) nemáme informaci o parametru λ Musíme ho odhadnout EX= λ λ≈68∕20=3,4

Řešení Počet kazůTeoretické pravděpodobnosti Teoretické četnosti Sloučené teoretické četnosti Sloučené empirické četnosti 00, , , , , ,857966, , , , ,71658, , , , , , ,157065,116367

Řešení Na 5% hladině významnosti nelze zamítnout hypotézu o tom, že data pochází z Poissonova rozdělení

Dodatky Spolehlivost   – testu dobré shody se zvyšuje s rostoucím rozsahem výběru n. Je dobré, aby byla splněna podmínka n > 50 Další testy dobré shody Kolmogorov - Smirnovův test – Musí být plně známo teoretické rozdělení včetně parametrů je použitelný i v případech, kdy není použitelný  2 – test dobré shody (např. v případě výběru malého rozsahu, velký podíl teoretických četností menších než 5). vychází z původních jednotlivých napozorovaných hodnot a nikoliv z údajů setříděných do tříd (kategorií). používá se k ověření hypotézy, že pořízený výběr pochází z rozdělení se spojitou distribuční funkcí F(x), Davidův test normality- ověřujeme nulovou hypotézu, která říká, že náhodný výběr pochází z normálního rozdělení

Dvourozměrné rozdělení četností Ve statistickém souboru zjišťujeme hodnoty dvou statistických znaků x a y. Tabulka rozdělení četností A) znaky x a y kvantitativní-korelační tabulka B) znaky x a y kvalitativní-kontingenční tabulka

Dvourozměrné rozdělení četností y xy1y1 y2y2 …ysys n i* x1x1 n 11 n 12 …n 1s n 1* x2x2 n 21 n 22 …n 2s n 2* ……………… xrxr n r1 n r2 …n rs n r* n *j n *1 n *2 …n *s n

Vlastnosti četností

Příklad Známky 30 žáků z písemných prací z matematiky (proměnná x) a českého jazyka (proměnná y) jsou uvedeny v následující tabulce x y

Kontingenční tabulka y yxyx 1 výborně 2 chvalitebně 3 dobře 4 dostat. 5 nedost. n i* n *j

Podmíněné charakteristiky Podmíněný průměr Podmíněný druhý centrovaný moment

Příklad pokračování Z kontingenční tabulky z předchozího příkladu spočtěte podmíněné průměry známek z českého jazyka.

Elementární zjišťování závislosti Hodnoty znaku y jsou roztříděny do r tříd podle znaku x Variabilita podmíněných průměrů kolem celkového průměru je způsobena závislostí znaku y na znaku x. Variabilita znaku y uvnitř jednotlivých skupin je způsobena závislostí znaku y na jiných činitelích

Celkový průměr, celkový rozptyl Celkový průměr y ij …j-té pozorování v i-tém podmíněném rozdělení Celkový druhý centrovaný moment Rozptyl podmíněných průměrů(meziskupinová variabilita)

Determinační poměr Průměr podmíněných rozptylů (vnitroskupinová variabilita) Celkový rozptyl Součty čtverců, kde Determinační poměr hodnoty z Korelační nezávislost Pevná závislost

Test χ 2 o nezávislosti dvou znaků Diskrétní znaky(veličiny) Oba znaky kvantitativní, oba kvalitativní, jeden kvantitativní jeden kvalitativní Opakování: dva jevy A,B byly nezávislé právě tehdy, když Soubor roztříděn podle dvou znaků do dvourozměrné tabulky rozdělení četností π ij pravděpodobnost, že vybraná jednotka souboru bude zařazena do třídy(kategorie) (x i, y j ) i=1,…,r, j=1,..,s π i* pravděpodobnost, že vybraná jednotka souboru bude zařazena do třídy(kategorie) x i, i=1,…,r π * j pravděpodobnost, že vybraná jednotka souboru bude zařazena do třídy(kategorie) y j j=1,..,s

Test χ 2 o nezávislosti dvou znaků Nulová hypotéza- nezávislost Testové kritérium, kde Kritický obor 1-α% kvantil rozdělení o (s-1)(r-1) stupních volnosti

Příklad Bylo zkoumáno, zda život na vesnici, či v různě velkých městech ovlivňuje rozvodovost manželských párů. Pro zjištění vlivu života v různě velkých obcích na rozvodovost manželství byla provedena následující studie, ve které byly dotazovány manželské páry 5 let po prvním sňatku. Údaje z této studie jsou uvedeny v následující tabulce. Na 5% hladině významnosti ověřte zda rozvodovost manželských párů v počátcích manželství závisí na velikosti obce, ve které manželský pár žije. vesniceměstysmalé městovelké město Stále v témže manželství Rozvedeni nebo odloučeni

řešení Znak x …..stav manželství Znak y……velikost bydliště s=4, r=2 vesniceměstysmalé město velké město n i* Stále v témže manželst ví 44=n 11 78=n 12 78=n 13 76=n Rozvede ni nebo odlouče ni 28=n 21 42=n 22 30=n 23 24=n n *j vesniceměstysmalé městovelké měston i* Stále v témže manželství 276*72/400 =o *120/400 =o *108/400 =o *100/400 =o Rozvedeni nebo odloučeni 124*72/400 =o *120/400 =o *108/400 =o *100/400 =o n *j

řešení t=5,81 H 0 nelze zamítnout, rozvodovost manželských párů v počátcích manželství nezávisí na velikosti obce, ve které manželský pár žije. vesniceměstysmalé městovelké město Stále v témže manželství 49,68=o 11 82,8=o 12 74,52=o =o 14 Rozvedeni nebo odloučeni 22,32 =o 21 37,2=o 22 33,48 =o =o 24 vesniceměstysmalé městovelké město Stále v témže manželství (44-49,68) 2 /49,68 =0,649 (78-82,8) 2 /82,8 =0,278 (78-74,52) 2 /74,52 =0,1625 (76-69 ) 2 /69 =0,71 Rozvedeni nebo odloučeni (28-22,32) 2 /22,32 =1,445 (42-37,2) 2 /37,2) = 0,619 (30-33,48) 2 /33,48 =0,3617 (24-31) 2 /31 =1,581

ANOVA-jednofaktorová analýza rozptylu Test, kterým ověřujeme závislost diskrétní (v r kategoriích) a spojité veličiny Předpoklady: nezávislé náhodné výběry pocházejí z normálních rozdělení se středními hodnotami µ 1, µ µ r se stejným rozptylem σ 2 N(µ i,σ 2 ) Shodu rozptylů ověříme Bartlettovým testem Nulová hypotéza- nezávislost Testové kritérium kde r je počet kategorií, n rozsah výběrového souboru

ANOVA-jednofaktorová analýza rozptylu Kritický obor 1-α% kvantil Fischerova rozdělení o (r-1) a (n-r) stupních volnosti Zdroj variability Součet čtverců Počet stupňů volnosti Průměrné čtverce Testové kritérium Faktor AQmQm r-1Q m /(r-1)t=Q m /(r-1)/ Q ν /(n-r) reziduálníQνQν n-rQ ν /(n-r) celkovýQyQy n-1

příklad Zemědělské družstvo, které se specializuje na pěstování zeleniny použilo při pěstování květáku čtyř různých směsí hnojiva a sledovalo, zda má použité hnojivo vliv na výnosnost zeleniny. (měřená ve váze jednoho květáku). Údaje jsou uvedeny v následující tabulce. Na 5% hladině významnosti rozhodněte, zda hnojící směs má vliv na výnosnost květáku. Směs hnojiva A 0,90,80,90,6- Směs hnojiva B 1,3 1,0- - Směs hnojiva C 1,11,21,0-- Směs hnojiva D 1,51,61,11,31,5

řešení Celkový průměr Podmíněné průměry

řešení Celkový součet čtverců Zdroj variabilitySoučet čtvercůPočet stupňů volnosti Průměrné čtverce Testové kritérium Faktor A0,81630,816/3=0,272t=0,272/ 0,02727=9,973 reziduální0,3110,3/11=0,02727 celkový1,11614

řešení t=9,973 Protože v tabulkách není uveden kvantil o těchto stupních volnosti, použijeme nejbližší o stupních volnosti 3,10 H 0 zamítáme, test prokázal, že použité hnojivo ovlivňuje výnosnost květáků.

Regresní analýza Metoda pro popis závislostí mezi dvěma nebo více proměnnými (mezi vysvětlovanou (závislou) proměnnou a vysvětlujícími (nezávislými) proměnnými) Slouží k odhadu hodnot vysvětlované proměnné Jednoduchá regresní analýza- pouze jedna vysvětlující proměnná Vícenásobná regresní analýza- více než jedna vysvětlovaná proměnná

Regresní model Regresní model se snaží o popis závislosti mezi proměnnými pomocí funkčního předpisu složka popisující vliv vysvětlující proměnné náhodná složka (nepopsané vlivy)-nelze ji funkčně vyjádřit

Regresní analýza Příklady (funkce lineární v parametrech) Nebo funkce nějakou transformací převoditelná na funkci lineární v parametrech

Jak vybrat mezi např. lineárními funkcemi tu nejlepší? A která je ta nejlepší? K dispozici máme pouze výběrový soubor Najdeme pouze odhady parametrů Budu vybírat tak, aby se body ležící na přímce od naměřené hodnoty lišily co nejméně. Nejméně ve smyslu čtverců.

Metoda nejmenších čtverců [x,y] dvojice náhodných veličin [1,2],[2,4],[3,5] nalezněte přímku, která nejlépe popisuje závislost proměnné y na proměnné x

Soustava normálních rovnic Jak se hledá minimum funkce ? Pomocí derivací Dostaneme soustavu normálních rovnic Jejím řešením je

Příklad Marketingové oddělení jisté firmy zkoumalo vztah mezi objemem výroby (v tis. kusech) a celkovými náklady (v mil Kč). V deseti vybraných provozech byly zjištěny následující údaje Popište závislost celkových nákladů na objemu výroby lineární funkcí Interpretujte regresní koeficient b 1 Interpretujte regresní koeficient b 0 Odhadněte, jaké celkové náklady může firma očekávat v provozu, který plánuje vyrobit 7 tis. Ks výrobků Objem výroby Celkové náklady

řešení nejprve musíme vypočítat průměry a druhý centrovaný moment Regresní koeficient udává náklady (12 mil. Kč), kdyby se nevyrábělo – fixní náklady Regresní koeficient udává, o kolik (2 mil. Kč) se zvednou náklady, když se objem výroby zvedne o jednu jednotku(tis. ks) celkové náklady, které může firma očekávat v provozu, který plánuje vyrobit 7 tis. Ks výrobků, jsou