Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Pravděpodobnost a výběry – 1. část
Výběrové rozdělení Centrální limitní věta Standardní chyba Pravděpodobnost výběrových průměrů
2
Trump vers. Clintonová student
SAS® Text Miner a SAS® Sentiment Analysis Studio
3
Trump vers. Clintonová Sentiment analýza – zjištění názorů a postojů
Sentiment analysis – extrahovat, identifikovat a kvantifikovat emoční stavy a subjektivní informace. Aplikuje se ke zjištění postoje mluvčího, pisatele k určitému tématu. Twitter Postup:
4
Výsledky 1 Velký vztah s „love“ a „suppoters“, méně ale významně
„money, voter“
5
Výsledky 2 Silný vztah CNN, foxnews, HillarClinotn, gun, Potus = „President of the United States“
6
Výsledky 3
7
Inferenční statistika
populace výběr Pravděpodobnost
8
- Vybereme jedince s určitou hodnotou
Jestliže vezmeme výběr z populace, pak lze hovořit o pravděpodobnosti - Vybereme jedince s určitou hodnotou - Získáme určitý průměr, n > 1
9
Rozdělení jedinců v populaci
10 20 30 40 50 60 1 2 3 četnost 4 5 6 hrubý skór 70 p(X > 50) = ?
10
Rozdělení jedinců v populaci
10 20 30 40 50 60 1 2 3 četnost 4 5 6 hrubý skór 70 1 p(X > 50) = = 0,11 9
11
Rozdělení jedinců v populaci
6 Normální rozdělení = 40, = 10 5 četnost 4 3 2 1 10 20 30 40 50 60 70 p(40 < X < 60) = ?
12
Rozdělení jedinců v populaci
6 Normální rozdělení = 40, = 10 5 četnost 4 3 2 1 10 20 30 40 50 60 70 p(40 < X < 60) = p(0 < Z < 2) = 47,7%
13
Rozdělení jedinců v populaci
6 Normální rozdělení = 40, = 10 5 četnost 4 3 2 hrubý skór 1 10 20 30 40 50 60 70 p(X > 60) = ?
14
Rozdělení jedinců v populaci
6 Normální rozdělení = 40, = 10 5 četnost 4 3 2 hrubý skór 1 10 20 30 40 50 60 70 p(X > 60) = p(Z > 2) = 2,3%
15
U provedených výpočtů je nutné přepokládat, že výběr byl náhodný.
Náhodný výběr musí vyhovovat dvěma požadavkům: Každý jedinec v populaci má stejnou pravděpodobnost být vybrán. Jestliže vybíráme více jedinců, pak pro každý výběr musí být stejná pravděpodobnost realizace.
16
Rozdělení výběrových průměrů
Rozdělení výběrových průměrů je: množina výběrových průměrů pro všechny možné náhodné výběry o určitém rozsahu (n) z dané populace.
17
populace 6 5 četnost 4 3 2 1 hrubý skór 1 2 3 4 5 6 7 8 9
18
Rozdělení výběrových průměrů s výběry rozsahu n = 2
výběr # Skóry průměr ( ) 1 2, 2 2 2, 4 3 2, 6 4 2, 8 5 4, 2 6 4, 4 7 4, 6 8 4, 8 9 6, 2 10 6, 4 11 6, 6 12 6, 8 13 8, 2 14 8, 4 15 8, 6 16 8, 8
19
Rozdělení výběrových průměrů pro výběry o rozsahu n = 2
6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr Můžeme použít rozdělení výběrových průměrů k odpovědi na otázku o pravděpodobnosti výběrových průměrů
20
Rozdělení výběrových průměrů pro výběry o rozsahu n = 2
6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr p( > 7) = ?
21
Rozdělení výběrových průměrů pro výběry o rozsahu n = 2
6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr 1 p( > 7) = = 6 % 16
22
Rozdělení jedinců v populaci
1 2 3 4 5 6 četnost hrubý skór 7 8 9 = 5, = 2,24 X = 5, X = 1,58 Rozdělení výběrových průměrů 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr
23
Rozdělení jedinců v populaci
1 2 3 4 5 6 četnost hrubý skór 7 8 9 = 5, = 2,24 Rozdělení výběrových průměrů 6 X = 5, X = 1,58 5 četnost 4 3 2 p(X > 7) = 25% 1 1 2 3 4 5 6 7 8 9 výběrový průměr p(X> 7) = 6% , pro n=2
24
Základní rozdíl populační rozdělení – rozdělení skórů jedinců v populaci Výběrové rozdělení průměru– rozdělení všech možných výběrových průměrů. Také se nazývá “rozdělení výběrových průměrů”.
25
Rozdělení jedinců v populaci
1 2 3 4 5 6 četnost hrubý skór 7 8 9 = 5, = 2,24 X = 5, X = 1,58 Rozdělení výběrových průměrů 6 5 četnost 4 3 2 1 1 2 3 4 5 6 7 8 9 výběrový průměr
26
Rozdělení výběrových průměrů
Jak se výběr zvětšuje, výběrové rozdělení… Centruje se kolem průměru Je méně rozptýlené Stává se normálnější
27
Centrální limitní věta
Pro každou populaci s průměrem a standardní odchylkou , rozdělení výběrových průměrů o rozsahu n … Má průměr se standardní odchylkou a blíží se k normálnímu rozložení se zvětšujícím se n.
28
standardní odchylka výběrového rozdělení (“standardní chyba průměru”)
Značení průměr výběrového rozdělení standardní odchylka výběrového rozdělení (“standardní chyba průměru”)
29
Standardní chyba “Standardní chyba” průměru je:
Směrodatná odchylka rozdělení výběrových průměrů. Standardní chyba měří rozptýlenost nebo nepřesnost průměru způsobenou výběrovou chybou. SE =
30
Standardní chyba Zákon velkých čísel říká: Čím je větší výběr, tím je menší standardní chyba. To vyplývá ze vzorce …
31
Vyjasnění vzorců Rozdělení výběrových průměrů populace výběr pozor
32
Centrální limitní věta
Pro každou populaci s průměrem a standardní odchylkou , rozdělení výběrových průměrů o rozsahu n … Bude mít průměr se standardní odchylkou a bude se blížit se k normálnímu rozdělení s tím, jak se n blíží k nekonečnu.
33
Praktická pravidla: 1. Pro výběry o rozsahu n větší než 30, rozdělení výběrových průměrů lze rozumě aproximovat normálním rozdělením. Aproximace je lepší s rostoucím n. 2. Jestliže původní populace je normální, pak jsou i průměry normálně rozdělené pro libovolné n.
34
Rozdělení výběrových průměrů
Slouží pro vymezení pravděpodobnosti specifického výběrového průměru
35
Otázky ?
36
Testování statistických hypotéz z– test hypotézy o jednom průměru
37
Obsah Koncept statistické inference, statistické indukce, statistického usuzování Opakování použití tabulek N(0; 1) Z-test Jednostranná a dvoustranná hypotéza Příklad Příklad další literatury: Statistika pro flákače
38
Pravděpodobnost Populace:
Množina všech jedinců, které uvažujeme (např. všechny ženy, všichni studenti) Výběr: Podmnožina jedinců z populace Pravděpodobnost
39
Co jsme se naučili z teorie pravděpodobnosti
Průměr výběru lze brát jako náhodnou proměnnou. Centrální limitní věta, výběr průměrů má normální rozložení (pro n > 30) Proto lze nalézt pravděpodobnost, že daná populace může náhodně produkovat určitý interval výběrových průměrů. Použijeme tabulky N(0, 1)
40
Normální rozdělení
41
Hledání v tabulkách N(0; 1) Tabulky obsahují hodnoty kumulativní distribuční funkce F(x) = P(X ≤ x), kde X je náhodná proměnná
42
Tabulky normálního rozdělení N(0; 1)
43
Aplikace tabulek N(0; 1) – od hodnoty k hladině
Kolik procent hodnot leží pod 115, jestliže proměnná je rozložena dle N(100; 225), tedy směr.odch.=15 ? Vypočtu z= ( )/15 = 1, F(1)=0,84 (vycházím z výpočtu z-skóru) Odpověď: pod hodnotou 115 leží 84% hodnot dané proměnné.
44
Aplikace tabulek N(0; 1) – od hladiny k hodnotě
Pod jakou hodnotou leží 25% údajů, jestliže proměnná je rozložena dle N(100; 225), tedy směr.odch.=15 ? Najdu kvantil N(0; 1) s hladinou 0,25, z=-0,68 Vypočtu x= -0,68x =89,8 Odpověď: 25% kvantil rozdělení N(100; 225) je 89,8.
45
Inferenční statistika
Populace: Množina všech jedinců, které uvažujeme (např. všechny ženy, všichni studenti) Výběr: Podmnožina jedinců vybraná z populace Inferenční statistika
46
Když jsme dostali výběr
Zásadní otázka statistického usuzování: Může náhoda produkovat tento náš výběr? (za daných pravděpodobnostních předpokladů) Patterns may not be indicative of some underlying factor Patterns may be natural fluctuations
47
Když jsme dostali výběr
Rozlišujeme dvě interpretace konfigurace dat: Náhodný vliv: Náhodné fluktuace Systematická příčina + náhodný vliv: Skutečný rozdíl v populaci Systematická chyba v plánu sběru Inferenční statistika odděluje Patterns may not be indicative of some underlying factor Patterns may be natural fluctuations
48
Uvažování při testování hypotéz
Učiníme tvrzení (nulovou hypotézu) o neznámém parametru. Sbíráme data. Předpokládáme platnou nulovou hypotézu, jaká je pravděpodobnost získání našich dat? (to je vlastně “p-hodnota”). Jestliže tato pravděpodobnost je malá, pak odmítneme nulovou hypotézu.
49
Krok 1: formulace hypotézy
Nulová hypotéza je H0 “Nic se nestalo” Alternativní hypotéza je Ha Co si výzkumník myslí, že se stalo Může být jednostranná nebo dvoustranná
50
Krok 1: formulace hypotézy
Hypotézy definujeme pomocí populačních parametrů Jednostranná Dvoustranná H0: µ=110 H0: µ = 110 H1: µ < 110 H1: µ ≠ 110
51
Krok 2: určení rozhodovacího kritéria – hladiny významnosti
Rozhodni, která p-hodnota je již příliš malá Zvolená mez se nazývá alfa hladina. Jestliže pravděpodobnost výběrové statistiky leží pod touto mezí, pak říkáme, že výsledek je statisticky významný. Typická alfa je 0,05 nebo 0,01.
52
Více o určení kritéria Oblast přijetí Oblast zamítnutí
Interval výběrových průměrů, které jsou pravděpodobné při platnosti H0 . Jestliže výběrový průměr je v této oblasti, ponecháme nulovou hypotézu. Oblast zamítnutí Interval výběrových průměrů, které jsou nepravděpodobné při platnosti H0 . Jestliže výběrový průměr je v této oblasti, zamítáme nulovou hypotézu. range of extreme Výběr průměr hodnotas that are unlikely to be obtained by chance in cases where “treatment” průměr je same as populace průměr
53
Dvě možnosti 1) Opíráme se o posouzení testovací statistiky pomocí oblasti přijetí a odmítnutí 2) Opíráme se o vypočtené p-hodnoty Jedná se o duálně spřízněné koncepty
54
Určení kritéria Přijmi H0 Nulové rozdělení Odmítni H0 Odmítni H0 Zkrit
55
Krok 3: Počítáme výběrovou statistiku
Testovací statistika (např. Ztest, Ttest, nebo Ftest) je informace z výběru, kterou použijeme k rozhodnutí o odmítnutí nulové hypotézy. Testovací statistika transformuje původní měření (např. výběrový průměr) do jednotek nulového rozložení (např. z-skór), takže se můžeme podívat do příslušné tabulky.
56
Testovací statistika Přijmi H0 Nulové rozložení Odmítni H0 Odmítni H0
Ztest? Zkrit Zkrit
57
Přijmi H0 Odmítni t H0 Odmítni H0 Zkrit
Jestliže chceme vědět, kde náš výběrový průměr leží v nulovém rozložení, transformujeme ho do testovací statistiky, nebo-li do z-skóru. Jestliže pozorovaný výběrový průměr (jeho z-skór) je menší než z=-1,65, pak bude ležet v kritické oblasti, která je extrémnější než 95% zbytek všech výběrových průměrů.
58
Krok 4: Provedeme rozhodnutí
Jestliže náš výběrový průměr je nepravděpodobný za platnosti nulové hypotézy, pak uvažujeme odmítnout nulovou hypotézu µH0 Nikdy nepřijímáme nulovou hypotézu. Buď ji odmítáme, nebo neodmítáme !
59
Kroky testování hypotéz
Formulujeme hypotézy (H0, HA) Vybereme kritérium (alfa, Zkrit) Vypočítáme testovací statistiku (Ztest) nebo získáme p-hodnotu Uděláme rozhodnutí
60
Z hodnota jako testovací statistika
z- test statistika konvertuje výběrový průměr do z-skóru nulového rozložení. Zkrit je kriteriální hodnota Z, která definuje oblast zamítnutí. Ztest je hodnota Z, která reprezentuje výběrový průměr vypočtený z dat. Standardní chyba!!!! p-hodnota je pravděpodobnost získání hodnoty Ztest jako extrému nulového rozložení.
61
Z jako testovací statistika
Všechny testovací statistiky jsou v podstatě srovnáním mezi tím co se očekává a tím, co je. Získaný rozdíl Náhodná odchylka Jestliže čitatel je mnohem větší než jmenovatel, pak je zde evidence, že existuje systematický rozdíl.
62
Jednostranné testy Jestliže HA tvrdí, že je < nějaká hodnota, kritická oblast je vlevo Jestliže HA tvrdí, že je > nějaká hodnota, kritická oblast je vpravo jestliže observed p-hodnota je less than , odmítá Ho jestliže observed p-hodnota je greater that or equal to , do not odmítá Ho Graphic from
63
Hodnoty, které ukazují na významný rozdíl od 100
Pravé jednostranné testy H0: µ = 100 H1: µ > 100 Ukazuje napravo neodmítá H0 odmítá H0 alfa Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100
64
Hodnoty, které ukazují na významný rozdíl od 100
Levé jednostranné testy H0: µ = 100 H1: µ < 100 Ukazuje nalevo odmítá H0 neodmítá H0 alfa Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100
65
Jednostranné vs.dvoustranné testy
Teoreticky máme použít jednostranné testy, jestliže: 1. Změna v opačném směru nemá smysl 2. Změna v opačném směru není zajímavá 3. Žádná teorie nenaznačuje změnu v opačném směru Konvenčně je však v sociálních vědách používán dvoustranný test Proč? Protože to je přísnější kritérium.
66
Dvoustranný test hypotézy
HA je, že µ je větší nebo menší než µH0 HA: µ ≠ µH0 se dělí stejně mezi obě koncové části rozdělení
67
Dvoustranný test hypotézy
Průměr je větší nebo menší než odmítá H0 neodmítá H0 odmítá H0 alfa Zkrit 100 Zkrit Hodnoty, které ukazují na významný rozdíl od 100
68
Hodnoty, které ukazují na významný rozdíl od 100
Jednostranný odmítá H0 neodmítá H0 0,05 Hodnoty, které ukazují na významný rozdíl od 100 Zkrit 100 100 Hodnoty, které ukazují na významný rozdíl od 100 neodmítá H0 odmítá H0 Dvoust. ,025 Zkrit
69
Příklad Máme výběr 36 dětí geniů. Mají průměrný IQ Chceme vědět, zda se populace dětí geniů významně liší od celé populace dětí, která má µ=100 σ=25. Testujeme hypotézu, že průměr skupiny je větší než u populace. Co je Ztest? Co je Zkrit pro alfa = 0,05? Pro alfa = 0,01? Odmítneme nulovou hypotézu v obou případech? Co je exaktní p-hodnota pro tento test?
70
Příklad Ztest= 10/4,16 = 2,4 Alfa= 0,05, Zkrit=1,64;
P(Z>2,4)=0,008 odmítá Ho Ztest Zkrit Zkrit
71
Základní schéma testování hypotéz
Výsledek testu Skutečnost Hypotéza H0 platí Chyba I. druhu hladina alfa správně neplatí Chyba II. druhu odmítá H0 neodmítá H0
72
Otázky ? Děkuji
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.