Pravděpodobnost a výběry – 1. část Výběrové rozdělení Centrální limitní věta Standardní chyba Pravděpodobnost výběrových průměrů
Trump vers. Clintonová student SAS® Text Miner a SAS® Sentiment Analysis Studio
Trump vers. Clintonová Sentiment analýza – zjištění názorů a postojů Sentiment analysis – extrahovat, identifikovat a kvantifikovat emoční stavy a subjektivní informace. Aplikuje se ke zjištění postoje mluvčího, pisatele k určitému tématu. Twitter Postup:
Výsledky 1 Velký vztah s „love“ a „suppoters“, méně ale významně „money, voter“
Výsledky 2 Silný vztah CNN, foxnews, HillarClinotn, gun, Potus = „President of the United States“
Výsledky 3
Inferenční statistika populace výběr Pravděpodobnost
- Vybereme jedince s určitou hodnotou Jestliže vezmeme výběr z populace, pak lze hovořit o pravděpodobnosti - Vybereme jedince s určitou hodnotou - Získáme určitý průměr, n > 1
Rozdělení jedinců v populaci 10 20 30 40 50 60 1 2 3 četnost 4 5 6 hrubý skór 70 p(X > 50) = ?
Rozdělení jedinců v populaci 10 20 30 40 50 60 1 2 3 četnost 4 5 6 hrubý skór 70 1 p(X > 50) = = 0,11 9
Rozdělení jedinců v populaci 6 Normální rozdělení = 40, = 10 5 četnost 4 3 2 1 10 20 30 40 50 60 70 p(40 < X < 60) = ?
Rozdělení jedinců v populaci 6 Normální rozdělení = 40, = 10 5 četnost 4 3 2 1 10 20 30 40 50 60 70 p(40 < X < 60) = p(0 < Z < 2) = 47,7%
Rozdělení jedinců v populaci 6 Normální rozdělení = 40, = 10 5 četnost 4 3 2 hrubý skór 1 10 20 30 40 50 60 70 p(X > 60) = ?
Rozdělení jedinců v populaci 6 Normální rozdělení = 40, = 10 5 četnost 4 3 2 hrubý skór 1 10 20 30 40 50 60 70 p(X > 60) = p(Z > 2) = 2,3%
U provedených výpočtů je nutné přepokládat, že výběr byl náhodný. Náhodný výběr musí vyhovovat dvěma požadavkům: Každý jedinec v populaci má stejnou pravděpodobnost být vybrán. Jestliže vybíráme více jedinců, pak pro každý výběr musí být stejná pravděpodobnost realizace.
Rozdělení výběrových průměrů Rozdělení výběrových průměrů je: množina výběrových průměrů pro všechny možné náhodné výběry o určitém rozsahu (n) z dané populace.
populace 6 5 četnost 4 3 2 1 hrubý skór 1 2 3 4 5 6 7 8 9
Rozdělení výběrových průměrů s výběry rozsahu n = 2 výběr # Skóry průměr ( ) 1 2, 2 2 2, 4 3 2, 6 4 2, 8 5 4, 2 6 4, 4 7 4, 6 8 4, 8 9 6, 2 10 6, 4 11 6, 6 12 6, 8 13 8, 2 14 8, 4 15 8, 6 16 8, 8
Rozdělení výběrových průměrů pro výběry o rozsahu n = 2 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr Můžeme použít rozdělení výběrových průměrů k odpovědi na otázku o pravděpodobnosti výběrových průměrů
Rozdělení výběrových průměrů pro výběry o rozsahu n = 2 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr p( > 7) = ?
Rozdělení výběrových průměrů pro výběry o rozsahu n = 2 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr 1 p( > 7) = = 6 % 16
Rozdělení jedinců v populaci 1 2 3 4 5 6 četnost hrubý skór 7 8 9 = 5, = 2,24 X = 5, X = 1,58 Rozdělení výběrových průměrů 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr
Rozdělení jedinců v populaci 1 2 3 4 5 6 četnost hrubý skór 7 8 9 = 5, = 2,24 Rozdělení výběrových průměrů 6 X = 5, X = 1,58 5 četnost 4 3 2 p(X > 7) = 25% 1 1 2 3 4 5 6 7 8 9 výběrový průměr p(X> 7) = 6% , pro n=2
Základní rozdíl populační rozdělení – rozdělení skórů jedinců v populaci Výběrové rozdělení průměru– rozdělení všech možných výběrových průměrů. Také se nazývá “rozdělení výběrových průměrů”.
Rozdělení jedinců v populaci 1 2 3 4 5 6 četnost hrubý skór 7 8 9 = 5, = 2,24 X = 5, X = 1,58 Rozdělení výběrových průměrů 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr
Rozdělení výběrových průměrů Jak se výběr zvětšuje, výběrové rozdělení… Centruje se kolem průměru Je méně rozptýlené Stává se normálnější
Centrální limitní věta Pro každou populaci s průměrem a standardní odchylkou , rozdělení výběrových průměrů o rozsahu n … Má průměr se standardní odchylkou a blíží se k normálnímu rozložení se zvětšujícím se n.
standardní odchylka výběrového rozdělení (“standardní chyba průměru”) Značení průměr výběrového rozdělení standardní odchylka výběrového rozdělení (“standardní chyba průměru”)
Standardní chyba “Standardní chyba” průměru je: Směrodatná odchylka rozdělení výběrových průměrů. Standardní chyba měří rozptýlenost nebo nepřesnost průměru způsobenou výběrovou chybou. SE =
Standardní chyba Zákon velkých čísel říká: Čím je větší výběr, tím je menší standardní chyba. To vyplývá ze vzorce …
Vyjasnění vzorců Rozdělení výběrových průměrů populace výběr pozor
Centrální limitní věta Pro každou populaci s průměrem a standardní odchylkou , rozdělení výběrových průměrů o rozsahu n … Bude mít průměr se standardní odchylkou a bude se blížit se k normálnímu rozdělení s tím, jak se n blíží k nekonečnu.
Praktická pravidla: 1. Pro výběry o rozsahu n větší než 30, rozdělení výběrových průměrů lze rozumě aproximovat normálním rozdělením. Aproximace je lepší s rostoucím n. 2. Jestliže původní populace je normální, pak jsou i průměry normálně rozdělené pro libovolné n.
Rozdělení výběrových průměrů Slouží pro vymezení pravděpodobnosti specifického výběrového průměru
Otázky ?
Testování statistických hypotéz z– test hypotézy o jednom průměru
Obsah Koncept statistické inference, statistické indukce, statistického usuzování Opakování použití tabulek N(0; 1) Z-test Jednostranná a dvoustranná hypotéza Příklad Příklad další literatury: Statistika pro flákače
Pravděpodobnost Populace: Množina všech jedinců, které uvažujeme (např. všechny ženy, všichni studenti) Výběr: Podmnožina jedinců z populace Pravděpodobnost
Co jsme se naučili z teorie pravděpodobnosti Průměr výběru lze brát jako náhodnou proměnnou. Centrální limitní věta, výběr průměrů má normální rozložení (pro n > 30) Proto lze nalézt pravděpodobnost, že daná populace může náhodně produkovat určitý interval výběrových průměrů. Použijeme tabulky N(0, 1)
Normální rozdělení
Hledání v tabulkách N(0; 1) Tabulky obsahují hodnoty kumulativní distribuční funkce F(x) = P(X ≤ x), kde X je náhodná proměnná
Tabulky normálního rozdělení N(0; 1)
Aplikace tabulek N(0; 1) – od hodnoty k hladině Kolik procent hodnot leží pod 115, jestliže proměnná je rozložena dle N(100; 225), tedy směr.odch.=15 ? Vypočtu z= (115-100)/15 = 1, F(1)=0,84 (vycházím z výpočtu z-skóru) Odpověď: pod hodnotou 115 leží 84% hodnot dané proměnné.
Aplikace tabulek N(0; 1) – od hladiny k hodnotě Pod jakou hodnotou leží 25% údajů, jestliže proměnná je rozložena dle N(100; 225), tedy směr.odch.=15 ? Najdu kvantil N(0; 1) s hladinou 0,25, z=-0,68 Vypočtu x= -0,68x15+115 =89,8 Odpověď: 25% kvantil rozdělení N(100; 225) je 89,8.
Inferenční statistika Populace: Množina všech jedinců, které uvažujeme (např. všechny ženy, všichni studenti) Výběr: Podmnožina jedinců vybraná z populace Inferenční statistika
Když jsme dostali výběr Zásadní otázka statistického usuzování: Může náhoda produkovat tento náš výběr? (za daných pravděpodobnostních předpokladů) Patterns may not be indicative of some underlying factor Patterns may be natural fluctuations
Když jsme dostali výběr Rozlišujeme dvě interpretace konfigurace dat: Náhodný vliv: Náhodné fluktuace Systematická příčina + náhodný vliv: Skutečný rozdíl v populaci Systematická chyba v plánu sběru Inferenční statistika odděluje Patterns may not be indicative of some underlying factor Patterns may be natural fluctuations
Uvažování při testování hypotéz Učiníme tvrzení (nulovou hypotézu) o neznámém parametru. Sbíráme data. Předpokládáme platnou nulovou hypotézu, jaká je pravděpodobnost získání našich dat? (to je vlastně “p-hodnota”). Jestliže tato pravděpodobnost je malá, pak odmítneme nulovou hypotézu.
Krok 1: formulace hypotézy Nulová hypotéza je H0 “Nic se nestalo” Alternativní hypotéza je Ha Co si výzkumník myslí, že se stalo Může být jednostranná nebo dvoustranná
Krok 1: formulace hypotézy Hypotézy definujeme pomocí populačních parametrů Jednostranná Dvoustranná H0: µ=110 H0: µ = 110 H1: µ < 110 H1: µ ≠ 110
Krok 2: určení rozhodovacího kritéria – hladiny významnosti Rozhodni, která p-hodnota je již příliš malá Zvolená mez se nazývá alfa hladina. Jestliže pravděpodobnost výběrové statistiky leží pod touto mezí, pak říkáme, že výsledek je statisticky významný. Typická alfa je 0,05 nebo 0,01.
Více o určení kritéria Oblast přijetí Oblast zamítnutí Interval výběrových průměrů, které jsou pravděpodobné při platnosti H0 . Jestliže výběrový průměr je v této oblasti, ponecháme nulovou hypotézu. Oblast zamítnutí Interval výběrových průměrů, které jsou nepravděpodobné při platnosti H0 . Jestliže výběrový průměr je v této oblasti, zamítáme nulovou hypotézu. range of extreme Výběr průměr hodnotas that are unlikely to be obtained by chance in cases where “treatment” průměr je same as populace průměr
Dvě možnosti 1) Opíráme se o posouzení testovací statistiky pomocí oblasti přijetí a odmítnutí 2) Opíráme se o vypočtené p-hodnoty Jedná se o duálně spřízněné koncepty
Určení kritéria Přijmi H0 Nulové rozdělení Odmítni H0 Odmítni H0 Zkrit
Krok 3: Počítáme výběrovou statistiku Testovací statistika (např. Ztest, Ttest, nebo Ftest) je informace z výběru, kterou použijeme k rozhodnutí o odmítnutí nulové hypotézy. Testovací statistika transformuje původní měření (např. výběrový průměr) do jednotek nulového rozložení (např. z-skór), takže se můžeme podívat do příslušné tabulky.
Testovací statistika Přijmi H0 Nulové rozložení Odmítni H0 Odmítni H0 Ztest? Zkrit Zkrit
Přijmi H0 Odmítni t H0 Odmítni H0 Zkrit Jestliže chceme vědět, kde náš výběrový průměr leží v nulovém rozložení, transformujeme ho do testovací statistiky, nebo-li do z-skóru. Jestliže pozorovaný výběrový průměr (jeho z-skór) je menší než z=-1,65, pak bude ležet v kritické oblasti, která je extrémnější než 95% zbytek všech výběrových průměrů.
Krok 4: Provedeme rozhodnutí Jestliže náš výběrový průměr je nepravděpodobný za platnosti nulové hypotézy, pak uvažujeme odmítnout nulovou hypotézu µH0 Nikdy nepřijímáme nulovou hypotézu. Buď ji odmítáme, nebo neodmítáme !
Kroky testování hypotéz Formulujeme hypotézy (H0, HA) Vybereme kritérium (alfa, Zkrit) Vypočítáme testovací statistiku (Ztest) nebo získáme p-hodnotu Uděláme rozhodnutí
Z hodnota jako testovací statistika z- test statistika konvertuje výběrový průměr do z-skóru nulového rozložení. Zkrit je kriteriální hodnota Z, která definuje oblast zamítnutí. Ztest je hodnota Z, která reprezentuje výběrový průměr vypočtený z dat. Standardní chyba!!!! p-hodnota je pravděpodobnost získání hodnoty Ztest jako extrému nulového rozložení.
Z jako testovací statistika Všechny testovací statistiky jsou v podstatě srovnáním mezi tím co se očekává a tím, co je. Získaný rozdíl Náhodná odchylka Jestliže čitatel je mnohem větší než jmenovatel, pak je zde evidence, že existuje systematický rozdíl.
Jednostranné testy Jestliže HA tvrdí, že je < nějaká hodnota, kritická oblast je vlevo Jestliže HA tvrdí, že je > nějaká hodnota, kritická oblast je vpravo jestliže observed p-hodnota je less than , odmítá Ho jestliže observed p-hodnota je greater that or equal to , do not odmítá Ho Graphic from http://davidmlane.com/hyperstat/logic_hypothesje.html
Hodnoty, které ukazují na významný rozdíl od 100 Pravé jednostranné testy H0: µ = 100 H1: µ > 100 Ukazuje napravo neodmítá H0 odmítá H0 alfa Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100
Hodnoty, které ukazují na významný rozdíl od 100 Levé jednostranné testy H0: µ = 100 H1: µ < 100 Ukazuje nalevo odmítá H0 neodmítá H0 alfa Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100
Jednostranné vs.dvoustranné testy Teoreticky máme použít jednostranné testy, jestliže: 1. Změna v opačném směru nemá smysl 2. Změna v opačném směru není zajímavá 3. Žádná teorie nenaznačuje změnu v opačném směru Konvenčně je však v sociálních vědách používán dvoustranný test Proč? Protože to je přísnější kritérium.
Dvoustranný test hypotézy HA je, že µ je větší nebo menší než µH0 HA: µ ≠ µH0 se dělí stejně mezi obě koncové části rozdělení
Dvoustranný test hypotézy Průměr je větší nebo menší než odmítá H0 neodmítá H0 odmítá H0 alfa Zkrit 100 Zkrit Hodnoty, které ukazují na významný rozdíl od 100
Hodnoty, které ukazují na významný rozdíl od 100 Jednostranný odmítá H0 neodmítá H0 0,05 Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100 100 Hodnoty, které ukazují na významný rozdíl od 100 neodmítá H0 odmítá H0 Dvoust. ,025 Zkrit
Příklad Máme výběr 36 dětí geniů. Mají průměrný IQ 110. Chceme vědět, zda se populace dětí geniů významně liší od celé populace dětí, která má µ=100 σ=25. Testujeme hypotézu, že průměr skupiny je větší než u populace. Co je Ztest? Co je Zkrit pro alfa = 0,05? Pro alfa = 0,01? Odmítneme nulovou hypotézu v obou případech? Co je exaktní p-hodnota pro tento test?
Příklad Ztest= 10/4,16 = 2,4 Alfa= 0,05, Zkrit=1,64; P(Z>2,4)=0,008 odmítá Ho Ztest Zkrit Zkrit
Základní schéma testování hypotéz Výsledek testu Skutečnost Hypotéza H0 platí Chyba I. druhu hladina alfa správně neplatí Chyba II. druhu odmítá H0 neodmítá H0
Otázky ? Děkuji