Pravděpodobnost a výběry – 1. část

Slides:



Advertisements
Podobné prezentace
Testování statistických hypotéz
Advertisements

Testování statistických hypotéz
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Statistická indukce Teorie odhadu.
Testování neparametrických hypotéz
Testování hypotéz.
Testování statistických hypotéz
Odhady parametrů základního souboru
t-rozdělení, jeho použití
Testování hypotéz přednáška.
Varianty výzkumu Kroky výzkumu Výběrový soubor
Náhodná proměnná Rozdělení.
Testování hypotéz vymezení důležitých pojmů
také Gaussovo rozdělení (normal or Gaussian distribution)
Testování statistických hypotéz
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Inference jako statistický proces 1
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Kontingenční tabulky Závislost dvou kvalitativních proměnných.
Odhady odhady bodové a intervalové odhady
Testy významnosti Karel Mach. Princip (podstata): Potvrzení H O Vyvrácení H O →přijmutí H 1 (H A ) Ptáme se:  1.) Pochází zkoumaný výběr (jeho x, s 2.
Biostatistika 5. přednáška Aneta Hybšová
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Kontingenční tabulky.
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Odhad metodou maximální věrohodnost
Pohled z ptačí perspektivy
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
8. Kontingenční tabulky a χ2 test
T - testy Párový t - test Má se zjistit, zda se sjíždějí přední pravé pneumatiky stejně jako přední levé pneumatiky. Bylo vybráno 6 vozů stejné značky:
PSY717 – statistická analýza dat
Jak statistika dokazuje závislost
Aplikovaná statistika 2. Veronika Svobodová
Základy testování hypotéz
Inferenční statistika - úvod
1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
Matematická statistika 1.přednáška. Statistická indukce Náš cíl: získat informace o základním souboru (o populaci) Provedeme výběrové šetření Z dat získáme.
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) a  x  b distribuční.
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Odhady odhady bodové a intervalové odhady
INDUKTIVNÍ STATISTIKA
Varianty výzkumu Kroky výzkumu Výběrový soubor
Statistické testování – základní pojmy
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Induktivní statistika - úvod
Základy statistické indukce
Induktivní statistika
Induktivní statistika
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
t-test Počítání t-testu t statistika Měření velikosti efektu
Induktivní statistika
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ
- váhy jednotlivých studií
Odhady parametrů základního souboru
Popisná statistika: přehled
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Proč statistika ? Dva důvody Popis Inference
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Úvod do statistického testování
Úvod do induktivní statistiky
příklad: hody hrací kostkou
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Testování hypotéz - pojmy
Transkript prezentace:

Pravděpodobnost a výběry – 1. část Výběrové rozdělení Centrální limitní věta Standardní chyba Pravděpodobnost výběrových průměrů

Trump vers. Clintonová student SAS® Text Miner a SAS® Sentiment Analysis Studio

Trump vers. Clintonová Sentiment analýza – zjištění názorů a postojů Sentiment analysis – extrahovat, identifikovat a kvantifikovat emoční stavy a subjektivní informace. Aplikuje se ke zjištění postoje mluvčího, pisatele k určitému tématu. Twitter Postup:

Výsledky 1 Velký vztah s „love“ a „suppoters“, méně ale významně „money, voter“

Výsledky 2 Silný vztah CNN, foxnews, HillarClinotn, gun, Potus = „President of the United States“

Výsledky 3

Inferenční statistika populace výběr Pravděpodobnost

- Vybereme jedince s určitou hodnotou Jestliže vezmeme výběr z populace, pak lze hovořit o pravděpodobnosti - Vybereme jedince s určitou hodnotou - Získáme určitý průměr, n > 1

Rozdělení jedinců v populaci 10 20 30 40 50 60 1 2 3 četnost 4 5 6 hrubý skór 70 p(X > 50) = ?

Rozdělení jedinců v populaci 10 20 30 40 50 60 1 2 3 četnost 4 5 6 hrubý skór 70 1 p(X > 50) = = 0,11 9

Rozdělení jedinců v populaci 6 Normální rozdělení  = 40,  = 10 5 četnost 4 3 2 1 10 20 30 40 50 60 70 p(40 < X < 60) = ?

Rozdělení jedinců v populaci 6 Normální rozdělení  = 40,  = 10 5 četnost 4 3 2 1 10 20 30 40 50 60 70 p(40 < X < 60) = p(0 < Z < 2) = 47,7%

Rozdělení jedinců v populaci 6 Normální rozdělení  = 40,  = 10 5 četnost 4 3 2 hrubý skór 1 10 20 30 40 50 60 70 p(X > 60) = ?

Rozdělení jedinců v populaci 6 Normální rozdělení  = 40,  = 10 5 četnost 4 3 2 hrubý skór 1 10 20 30 40 50 60 70 p(X > 60) = p(Z > 2) = 2,3%

U provedených výpočtů je nutné přepokládat, že výběr byl náhodný. Náhodný výběr musí vyhovovat dvěma požadavkům: Každý jedinec v populaci má stejnou pravděpodobnost být vybrán. Jestliže vybíráme více jedinců, pak pro každý výběr musí být stejná pravděpodobnost realizace.

Rozdělení výběrových průměrů Rozdělení výběrových průměrů je: množina výběrových průměrů pro všechny možné náhodné výběry o určitém rozsahu (n) z dané populace.

populace 6 5 četnost 4 3 2 1 hrubý skór 1 2 3 4 5 6 7 8 9

Rozdělení výběrových průměrů s výběry rozsahu n = 2 výběr # Skóry průměr ( ) 1 2, 2 2 2, 4 3 2, 6 4 2, 8 5 4, 2 6 4, 4 7 4, 6 8 4, 8 9 6, 2 10 6, 4 11 6, 6 12 6, 8 13 8, 2 14 8, 4 15 8, 6 16 8, 8

Rozdělení výběrových průměrů pro výběry o rozsahu n = 2 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr Můžeme použít rozdělení výběrových průměrů k odpovědi na otázku o pravděpodobnosti výběrových průměrů

Rozdělení výběrových průměrů pro výběry o rozsahu n = 2 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr p( > 7) = ?

Rozdělení výběrových průměrů pro výběry o rozsahu n = 2 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr 1 p( > 7) = = 6 % 16

Rozdělení jedinců v populaci 1 2 3 4 5 6 četnost hrubý skór 7 8 9  = 5,  = 2,24 X = 5, X = 1,58 Rozdělení výběrových průměrů 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr

Rozdělení jedinců v populaci 1 2 3 4 5 6 četnost hrubý skór 7 8 9  = 5,  = 2,24 Rozdělení výběrových průměrů 6 X = 5, X = 1,58 5 četnost 4 3 2 p(X > 7) = 25% 1 1 2 3 4 5 6 7 8 9 výběrový průměr p(X> 7) = 6% , pro n=2

Základní rozdíl populační rozdělení – rozdělení skórů jedinců v populaci Výběrové rozdělení průměru– rozdělení všech možných výběrových průměrů. Také se nazývá “rozdělení výběrových průměrů”.

Rozdělení jedinců v populaci 1 2 3 4 5 6 četnost hrubý skór 7 8 9  = 5,  = 2,24 X = 5, X = 1,58 Rozdělení výběrových průměrů 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr

Rozdělení výběrových průměrů Jak se výběr zvětšuje, výběrové rozdělení… Centruje se kolem průměru Je méně rozptýlené Stává se normálnější

Centrální limitní věta Pro každou populaci s průměrem  a standardní odchylkou , rozdělení výběrových průměrů o rozsahu n … Má průměr  se standardní odchylkou a blíží se k normálnímu rozložení se zvětšujícím se n.

standardní odchylka výběrového rozdělení (“standardní chyba průměru”) Značení průměr výběrového rozdělení standardní odchylka výběrového rozdělení (“standardní chyba průměru”) 

Standardní chyba “Standardní chyba” průměru je: Směrodatná odchylka rozdělení výběrových průměrů. Standardní chyba měří rozptýlenost nebo nepřesnost průměru způsobenou výběrovou chybou. SE =

Standardní chyba Zákon velkých čísel říká: Čím je větší výběr, tím je menší standardní chyba. To vyplývá ze vzorce …

Vyjasnění vzorců Rozdělení výběrových průměrů populace výběr pozor

Centrální limitní věta Pro každou populaci s průměrem  a standardní odchylkou , rozdělení výběrových průměrů o rozsahu n … Bude mít průměr  se standardní odchylkou a bude se blížit se k normálnímu rozdělení s tím, jak se n blíží k nekonečnu.

Praktická pravidla: 1. Pro výběry o rozsahu n větší než 30, rozdělení výběrových průměrů lze rozumě aproximovat normálním rozdělením. Aproximace je lepší s rostoucím n. 2. Jestliže původní populace je normální, pak jsou i průměry normálně rozdělené pro libovolné n.

Rozdělení výběrových průměrů Slouží pro vymezení pravděpodobnosti specifického výběrového průměru

Otázky ?

Testování statistických hypotéz z– test hypotézy o jednom průměru

Obsah Koncept statistické inference, statistické indukce, statistického usuzování Opakování použití tabulek N(0; 1) Z-test Jednostranná a dvoustranná hypotéza Příklad Příklad další literatury: Statistika pro flákače

Pravděpodobnost Populace: Množina všech jedinců, které uvažujeme (např. všechny ženy, všichni studenti) Výběr: Podmnožina jedinců z populace Pravděpodobnost

Co jsme se naučili z teorie pravděpodobnosti Průměr výběru lze brát jako náhodnou proměnnou. Centrální limitní věta, výběr průměrů má normální rozložení (pro n > 30) Proto lze nalézt pravděpodobnost, že daná populace může náhodně produkovat určitý interval výběrových průměrů. Použijeme tabulky N(0, 1)

Normální rozdělení

Hledání v tabulkách N(0; 1) Tabulky obsahují hodnoty kumulativní distribuční funkce F(x) = P(X ≤ x), kde X je náhodná proměnná

Tabulky normálního rozdělení N(0; 1)

Aplikace tabulek N(0; 1) – od hodnoty k hladině Kolik procent hodnot leží pod 115, jestliže proměnná je rozložena dle N(100; 225), tedy směr.odch.=15 ? Vypočtu z= (115-100)/15 = 1, F(1)=0,84 (vycházím z výpočtu z-skóru) Odpověď: pod hodnotou 115 leží 84% hodnot dané proměnné.

Aplikace tabulek N(0; 1) – od hladiny k hodnotě Pod jakou hodnotou leží 25% údajů, jestliže proměnná je rozložena dle N(100; 225), tedy směr.odch.=15 ? Najdu kvantil N(0; 1) s hladinou 0,25, z=-0,68 Vypočtu x= -0,68x15+115 =89,8 Odpověď: 25% kvantil rozdělení N(100; 225) je 89,8.

Inferenční statistika Populace: Množina všech jedinců, které uvažujeme (např. všechny ženy, všichni studenti) Výběr: Podmnožina jedinců vybraná z populace Inferenční statistika

Když jsme dostali výběr Zásadní otázka statistického usuzování: Může náhoda produkovat tento náš výběr? (za daných pravděpodobnostních předpokladů) Patterns may not be indicative of some underlying factor Patterns may be natural fluctuations

Když jsme dostali výběr Rozlišujeme dvě interpretace konfigurace dat: Náhodný vliv: Náhodné fluktuace Systematická příčina + náhodný vliv: Skutečný rozdíl v populaci Systematická chyba v plánu sběru Inferenční statistika odděluje Patterns may not be indicative of some underlying factor Patterns may be natural fluctuations

Uvažování při testování hypotéz Učiníme tvrzení (nulovou hypotézu) o neznámém parametru. Sbíráme data. Předpokládáme platnou nulovou hypotézu, jaká je pravděpodobnost získání našich dat? (to je vlastně “p-hodnota”). Jestliže tato pravděpodobnost je malá, pak odmítneme nulovou hypotézu.

Krok 1: formulace hypotézy Nulová hypotéza je H0 “Nic se nestalo” Alternativní hypotéza je Ha Co si výzkumník myslí, že se stalo Může být jednostranná nebo dvoustranná

Krok 1: formulace hypotézy Hypotézy definujeme pomocí populačních parametrů Jednostranná Dvoustranná H0: µ=110 H0: µ = 110 H1: µ < 110 H1: µ ≠ 110

Krok 2: určení rozhodovacího kritéria – hladiny významnosti Rozhodni, která p-hodnota je již příliš malá Zvolená mez se nazývá alfa hladina. Jestliže pravděpodobnost výběrové statistiky leží pod touto mezí, pak říkáme, že výsledek je statisticky významný. Typická alfa je 0,05 nebo 0,01.

Více o určení kritéria Oblast přijetí Oblast zamítnutí Interval výběrových průměrů, které jsou pravděpodobné při platnosti H0 . Jestliže výběrový průměr je v této oblasti, ponecháme nulovou hypotézu. Oblast zamítnutí Interval výběrových průměrů, které jsou nepravděpodobné při platnosti H0 . Jestliže výběrový průměr je v této oblasti, zamítáme nulovou hypotézu. range of extreme Výběr průměr hodnotas that are unlikely to be obtained by chance in cases where “treatment” průměr je same as populace průměr

Dvě možnosti 1) Opíráme se o posouzení testovací statistiky pomocí oblasti přijetí a odmítnutí 2) Opíráme se o vypočtené p-hodnoty Jedná se o duálně spřízněné koncepty

Určení kritéria Přijmi H0 Nulové rozdělení Odmítni H0 Odmítni H0 Zkrit

Krok 3: Počítáme výběrovou statistiku Testovací statistika (např. Ztest, Ttest, nebo Ftest) je informace z výběru, kterou použijeme k rozhodnutí o odmítnutí nulové hypotézy. Testovací statistika transformuje původní měření (např. výběrový průměr) do jednotek nulového rozložení (např. z-skór), takže se můžeme podívat do příslušné tabulky.

Testovací statistika Přijmi H0 Nulové rozložení Odmítni H0 Odmítni H0 Ztest? Zkrit Zkrit

Přijmi H0 Odmítni t H0 Odmítni H0 Zkrit Jestliže chceme vědět, kde náš výběrový průměr leží v nulovém rozložení, transformujeme ho do testovací statistiky, nebo-li do z-skóru. Jestliže pozorovaný výběrový průměr (jeho z-skór) je menší než z=-1,65, pak bude ležet v kritické oblasti, která je extrémnější než 95% zbytek všech výběrových průměrů.

Krok 4: Provedeme rozhodnutí Jestliže náš výběrový průměr je nepravděpodobný za platnosti nulové hypotézy, pak uvažujeme odmítnout nulovou hypotézu µH0 Nikdy nepřijímáme nulovou hypotézu. Buď ji odmítáme, nebo neodmítáme !

Kroky testování hypotéz Formulujeme hypotézy (H0, HA) Vybereme kritérium (alfa, Zkrit) Vypočítáme testovací statistiku (Ztest) nebo získáme p-hodnotu Uděláme rozhodnutí

Z hodnota jako testovací statistika z- test statistika konvertuje výběrový průměr do z-skóru nulového rozložení. Zkrit je kriteriální hodnota Z, která definuje oblast zamítnutí. Ztest je hodnota Z, která reprezentuje výběrový průměr vypočtený z dat. Standardní chyba!!!! p-hodnota je pravděpodobnost získání hodnoty Ztest jako extrému nulového rozložení.

Z jako testovací statistika Všechny testovací statistiky jsou v podstatě srovnáním mezi tím co se očekává a tím, co je. Získaný rozdíl Náhodná odchylka Jestliže čitatel je mnohem větší než jmenovatel, pak je zde evidence, že existuje systematický rozdíl.

Jednostranné testy Jestliže HA tvrdí, že  je < nějaká hodnota, kritická oblast je vlevo Jestliže HA tvrdí, že  je > nějaká hodnota, kritická oblast je vpravo jestliže observed p-hodnota je less than , odmítá Ho jestliže observed p-hodnota je greater that or equal to , do not odmítá Ho Graphic from http://davidmlane.com/hyperstat/logic_hypothesje.html

Hodnoty, které ukazují na významný rozdíl od 100 Pravé jednostranné testy H0: µ = 100 H1: µ > 100 Ukazuje napravo neodmítá H0 odmítá H0 alfa Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100

Hodnoty, které ukazují na významný rozdíl od 100 Levé jednostranné testy H0: µ = 100 H1: µ < 100 Ukazuje nalevo odmítá H0 neodmítá H0 alfa Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100

Jednostranné vs.dvoustranné testy Teoreticky máme použít jednostranné testy, jestliže: 1. Změna v opačném směru nemá smysl 2. Změna v opačném směru není zajímavá 3. Žádná teorie nenaznačuje změnu v opačném směru Konvenčně je však v sociálních vědách používán dvoustranný test Proč? Protože to je přísnější kritérium.

Dvoustranný test hypotézy HA je, že µ je větší nebo menší než µH0 HA: µ ≠ µH0  se dělí stejně mezi obě koncové části rozdělení

Dvoustranný test hypotézy Průměr je větší nebo menší než odmítá H0 neodmítá H0 odmítá H0 alfa Zkrit 100 Zkrit Hodnoty, které ukazují na významný rozdíl od 100

Hodnoty, které ukazují na významný rozdíl od 100 Jednostranný odmítá H0 neodmítá H0 0,05 Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100 100 Hodnoty, které ukazují na významný rozdíl od 100 neodmítá H0 odmítá H0 Dvoust. ,025 Zkrit

Příklad Máme výběr 36 dětí geniů. Mají průměrný IQ 110. Chceme vědět, zda se populace dětí geniů významně liší od celé populace dětí, která má µ=100 σ=25. Testujeme hypotézu, že průměr skupiny je větší než u populace. Co je Ztest? Co je Zkrit pro alfa = 0,05? Pro alfa = 0,01? Odmítneme nulovou hypotézu v obou případech? Co je exaktní p-hodnota pro tento test?

Příklad Ztest= 10/4,16 = 2,4 Alfa= 0,05, Zkrit=1,64; P(Z>2,4)=0,008 odmítá Ho Ztest Zkrit Zkrit

Základní schéma testování hypotéz Výsledek testu Skutečnost Hypotéza H0 platí Chyba I. druhu hladina alfa správně neplatí Chyba II. druhu odmítá H0 neodmítá H0

Otázky ? Děkuji