Aplikovaná statistika 2. seminář

Aplikovaná statistika 2. seminář
Popisná statistika Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistika.

Podle druhu hodnot dělíme sledované (statistické) znaky na:
Základní pojmy: Statistický soubor - je množina všech prvků, které jsou předmětem daného statistického zkoumání. Podle druhu hodnot dělíme sledované (statistické) znaky na: Kvantitativní a kvalitativní diskrétní spojité ordinální nominální

Jednoduché třídění četností
Tarifní třída (xi) Počet pracovníků (ni) Relativní četnosti (pi) Kumulativní absolutní četnosti Kumulativní relativní četnosti 3 2 0,027 4 11 0,147 13 0,174 5 19 0,253 32 0,427 6 27 0,360 59 0,787 7 16 0,213 75 1 Celkem x

Intervalové třídění četností
Intervaly počtu odpracovaných hodin Počet pracovníků (ni) Střed intervalu (xi) 100 – 120 1 110 120 – 140 3 130 140 – 160 2 150 160 – 180 19 170 180 – 200 22 190 200 – 220 210 220 – 240 4 230 240 – 260 250 Celkem 75 x Na počet intervalů (tříd) a jejich délku neexistuje jednotný názor, ani obecný předpis. Používá se řada pravidel pro stanovení počtu tříd, z nichž uvedeme tzv. Yulesovo pravidlo Pro stanovení délky intervalu d se používá tzv. Sturgesovo pravidlo

Statistické grafy Histogram a polygon

Výsečový graf pomer = [1, 3, 7, 0.9, 0.5]; pie(pomer);

Krabičkový graf (vousatá krabička)
X1 = normrnd(5, 1, 100,1); X2 = normrnd(6, 1, 100,1); Boxplot([x1,x2],‘notch‘,‘on‘)

Paretův graf Situace, kdy 80% následků způsobuje 20 % příčin. Zdůraňuje fakt, že není nutné zabývat se všemi příčinami, nýbrž že pro dostatečný efekt stačí postihnout pouze nejdůležitější z nich. Např. seřadíme-li ve výrobě všechny příčiny zmetkovosti dle počtu jimi způsobených zmetků, zjistíme, že zhruba prvních 20 % příčin nám způsobuje zhruba 80 % všech zmetků, stačí se tedy obvykle zabývat jimi. Příčina závady Počet [Ks] Chyba navažování 211 Špatné vstupní suroviny 124 Míchání 42 Špatný filtr 20 Nedodržení teplotního režimu 35 Špatné pracovní prostředí 15

Tvary rozdělení

Základní statistické charakteristiky
úroveň x variabilita variační rozpětí rozptyl směrodatná odchylka variační koeficient průměrná odchylka míra variability hodnot kardinální proměnné variabilita hodnot kategoriální proměnné Střední hodnoty průměry ostatní střední hodnoty aritmetický geometrický kvadratický harmonický chronologický modus medián

Kvantily Kvantil je hodnota, která rozděluje soubor hodnot určitého statistického znaku na dvě části, jedna obsahuje ty hodnoty, které jsou menší (nebo stejné) než tento kvantil, druhá část naopak obsahuje hodnoty, které jsou větší (nebo stejné) než kvantil. zp je pořadové číslo jednotky, jejíž hodnota bude hledaný kvantil, n je počet pozorování, p udává relativní četnosti nižších hodnot, jejíž horní mez je hledaný kvantil, n1 je kumulativní četnost jednotek ležících před kvantilovým intervalem, n2 je četnost intervalu, v němž leží hledaný kvantil, h je délka kvantilového intervalu, ap je hodnota, která tvoří dolní hranici kvantilového intervalu. Výpočet kvantilu z intervalového rozdělení: , kde

Medián, modus Medián (padesátiprocentní kvantil), x̃50
- extrémní hodnoty, robustnost Soubor: Počet dat v souboru je 13, tedy liché číslo: medián je tudíž roven (13+1)/2=7 (sedmá hodnota uspořádané posloupnosti, tedy číslo 30) Soubor: Počet dat v datovém souboru je 10, tedy sudé číslo: medián je tudíž roven (20+30)/2=25 Modus (hodnota s nejvyšší četností) Soubor: Nejvyšší četnost v tomto datovém souboru zastává hodnota 20.

Interval měsíčních příjmů
Př.: Výpočet mediánu z intervalového rozdělení četností Interval měsíčních příjmů Počet pracovníků (ni) Kumulativní součty 8 7 001 – 7 400 25 33 7 401 – 7 800 32 65 7 801 – 8 200 26 91 8 201 – 8 600 15 106 8 601 – 9 000 6 112 9 001 – 9 400 3 115 9 401 a více 1 116 Celkem x

Zjistíme pořadové číslo jednotek, z jejichž hodnot medián vypočteme
Medián tedy leží v intervalu, který obsahuje prvek s pořadovým číslem 58,5. Z posledního sloupce tabulky, jenž obsahuje kumulativní součty, zjistíme, že nejbližší vyšší číslo, obsahující v sobě hodnotu z0,50 je 65. Hledaný medián bude tedy ležet v intervalu – Chceme-li znát konkrétní hodnotu mediánu, dosadíme do Odpověď: Střední mzda tedy činí 7 719,75.

Míry polohy Vahou např. četnost (ni) z rozdělení četností pro nespojitou proměnnou s k variantami hodnot Vážený aritmetický průměr Př.: Z následující tabulky vypočteme průměrnou tarifní třídu v souboru 75 provozních pracovníků. (Vážený aritmetický průměr) Tarifní třída (xi) Počet pracovníků (ni) xini 3 2 6 4 11 44 5 19 95 27 162 7 16 112 Celkem 75 419 Průměrné tarifní zařazení provozních pracovníků je tedy 5,6.

Geometrický průměr: uplatnění v případech, kdy hodnoty tvoří alespoň přibližně geometrickou řadu analýza časových řad, výpočty tempa růstu atd. Příklad: Meziroční indexy cen jistého zboží jsou uvedeny v tabulce. Vypočítejte průměrný cenový index. (je tedy nutné vypočítat geometrický průměr) Rok Cena Index 88 100 - 89 105 1,050 90 110 1,048 91 116 1,054 92 130 1,121

Harmonický průměr Harmonický průměr z nenulových hodnot statistického souboru je definován jako podíl rozsahu souboru (počtu členů) a součtu převrácených hodnot znaků. Jinými slovy je to převrácená hodnota aritmetického průměru převrácených hodnot zadaných členů. Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké.

Př.: Z údajů v následující tabulce vypočítáme vážený harmonický průměr.
xi ni ni/xi 4 5 1,25 6 10 1,67 8 12 1,50 11 15 1,36 0,67 Součet 50 6,45 Harmonický průměr se převážně používá v teorii indexů (výpočet průměrových tvarů souhrnných indexů)

Kvadratický průměr: Diskrétní verze kvadratického průměru je použita například při výpočtu směrodatné odchylky. Spojitý kvadratický průměr je použit při výpočtu efektivní hodnoty střídavého napětí nebo střídavého proudu.

Chronologický průměr Druh váženého průměru, užívaný ve statistice k výpočtu průměru z časových řad.

Prostý chronologický průměr: prostý chronologický průměr při konstantní vzdálenosti mezi okamžiky měření

Vážený chronologický průměr: nestejné vzdálenosti mezi okamžiky o velikosti tw (pro vzdálenost mezi t–tým a (t–1) okamžikem).

Vlastnosti aritmetického průměru:
Pořadí jednotlivých typů průměrů vypočtených ze stejného souboru: Pro harmonický a geometrický průměr musí být všechny počítané hodnoty kladné. Vlastnosti aritmetického průměru: Součet jednotlivých odchylek od průměru je nulový. Aritmetický průměr konstanty je opět roven konstantě. Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o tuto konstantu i aritmetický průměr. Násobíme-li jednotlivé hodnoty znaku konstantou, je touto konstantou násoben i průměr. Násobíme-li váhy aritmetického průměru konstantou, průměr se nezmění. xh xg x xk

Další odhady polohy rozdělení
Useknutý (uřezaný) průměr - desetiprocentní uřezaný průměr - vynechá se 10% nejnižších výsledků - 10% nejvyšších výsledků - ze zbytku se počítá průměr. - volí se 5%, 10% nebo 25% - robustní Polosuma - citlivá na odlehlé hodnoty

Vzájemná poloha průměru a mediánu

Míry variability

Dva různé soubory

Míry absolutní variability
Variační rozpětí Rozptyl Směrodatná odchylka Interkvartilové rozpětí Kvartilová odchylka Kvartilová odchylka je tedy průměrem kladných sousedních kvartilů. (výběrový) nebo

Viz příklad ve cvičebnici

Výpočet rozptylu ve váženém tvaru:
Počet pracovníků Počet prodejen (ni) xi xini xi2ni 1 – 5 9 3 27 81 6 – 10 8 64 512 11 – 15 13 104 1352 16 – 20 5 18 90 1620 21 – 25 2 23 46 1058 26 – 30 1 28 784 Celkem 33 X 359 5407

Vlastnosti rozptylu: Rozptyl konstanty je roven nule.
Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se nezmění. Násobíme-li všechny hodnoty znaku konstantou, rozptyl je násoben čtvercem této konstanty. Rozptyl součtu (rozdílu) dvou proměnných, kde je roven součtu rozptylů obou proměnných zvětšenému (+) nebo zmenšenému (-) o dvojnásobek tzv. kovariance, tj. Předpokládejme, že statistický soubor o rozsahu n statistických jednotek je rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí průměry a četnosti i-tého podsouboru ni. Potom rozptyl celého souboru je dán součtem rozptylu dílčích (skupinových) průměrů a průměru z dílčích (skupinových) rozptylů.

Míry relativní variability
Variační koeficient Relativní kvartilové odchylky Relativní decilové odchylky Relativní percentilové odchylky

Viz příklad ve cvičebnici

Charakteristiky šikmosti a špičatosti
jak jsou hodnoty symetricky či asymetricky rozloženy kolem středu naměřených hodnot Symetrické - koeficient nula sešikmení k vyšším hodnotám - koeficient kladný sešikmení k nižším hodnotám - koeficient záporný Asymetrických rozdělení - pořadí průměru, mediánu a modu sešikmení k vyšším hodnotám < x̃50 < x sešikmení k nižším hodnotám > x̃50 > x koeficient šikmosti

jak je rozdělení špičaté (strmé) nebo naopak ploché
Špičatost jak je rozdělení špičaté (strmé) nebo naopak ploché koeficient špičatosti: normální (Gausovo) rozdělení vychází β=3

Praktický příklad

Úvod do teorie pravděpodobnosti
Házení hrací kostkou, statistické průzkumy, otázky spojené s řízením jakosti, čekání na obsluhu. statistická klasická Definice pravděpodobnosti náhodného jevu geometrická axiomatická

Elementární náhodný jev
Základní pojmy Náhodný jev jev, který za daných podmínek nastat může a nemusí; jeho nastání je věc náhody výsledek náhodného pokusu je to výchozí pojem počtu pravděpodobnosti a označujeme ho A, B, C, … Jev jistý jev, který za daných podmínek nastane vždy Jev nemožný jev, který za daných podmínek nastat nemůže Elementární náhodný jev jev, který se nedá dále rozdělit na podrobnější jevy konečný jev

Operace s náhodnými jevy
Jestliže při každé realizaci jevu A nastává i jev B, pak říkáme, že jev A má za následek jev B neboli jev A je částí jevu B. A  B Jevy A a B jsou rovnocenné, jestliže pokaždé, kdy nastal jev A, nastal také jev B a naopak. A = B Jev spočívající v nastoupení jak jevu A, tak jevu B nazýváme průnikem jevů A a B. A  B (A * B) Jev spočívající v nastoupení alespoň jednoho z jevů A a B nazýváme sjednocení jevů A a B. A  B (A + B) Rozdílem jevů A a B nazýváme jev spočívající v nastoupení jevu A a současném nenastoupení jevu B. A - B Jev, který spočívá v nenastoupení jevu A, je jevem opačným k jevu A. Jevy A a B se nazývají neslučitelné, jestliže výskyt jednoho z nich bude vylučovat možnost výskytu druhého jevu, tj. jejich průnik je jev nemožný. A  B = 

Definice pravděpodobnosti
Klasická definice pravděpodobnosti Podle klasické definice pravděpodobnosti nastání jevu A je dáno poměrem m ku n, kde m je počet všech situací příznivých jevu A a n je počet všech možných situací, přičemž n musí být konečné číslo a předpokládá se, že každá z celkového počtu situací má stejnou šanci nastat.

Uvažujme tabulku četností a relativních četností stáří 40 studentů v jednom ročníku na nějaké univerzitě. Předpokládejme, že jsme vybrali jednoho studenta náhodně, míněno tím, že každý student měl stejnou možnost, že bude vybrán. a) Určete pravděpodobnost, že náhodně vybranému studentovi je 20 let. Stáří 18 19 20 21 22 23 24 26 35 36 Četnost 2 9 7 5 3 4 1 Relativní č. 0,050 0,225 0,175 0,125 0,075 0,100 0,025 Řešení: Z druhého řádku tabulky je vidět, že 7 ze 40 studentů je ve věku 20 let. Tudíž je šance 7 ku 40, že náhodně vybranému studentovi bude 20 let. Pravděpodobnost je tudíž počet 20 let starých studentů/celkový počet studentů = 7/40 Všimněme si, že pravděpodobnost, že náhodně vybranému studentovi je 20 let, je stejná jako relativní četnost studentů, kterým je 20 let (7/40 = 0,175). b) Určete pravděpodobnost, že náhodně vybraný student bude mladší než 21 let. Řešení: Z tabulky je vidět, že 18 (2+9+7) studentům je méně než 21 let. Takže f = 18 a pravděpodobnost je rovna .

Statistická definice pravděpodobnosti
V některých případech není splněn základní požadavek klasické definice pravděpodobnosti, tj. předpoklad stejné možnosti všech jevů. U statistické definice je pravděpodobnost nastání jevu A přibližně rovna poměru m / n, přičemž m je počet situací, v nichž reálně nastal jev A a n je počet všech uskutečněných pokusů. Př.: pravděpodobnost narození syna dle klasické definice: 50 % dle statistické definice: 52 % (rodí se více mužů)

Pravidla pro počítání s pravděpodobností
Náhodné jevy neslučitelné (nemohou nastat současně) P(A  B) = 0 … průnik P(A  B) = P(A) + P(B) … sjednocení slučitelné nezávislé … s opakováním P(A  B) = P(A) * P(B) … průnik P(A  B) = P(A) + P(B) - P(A  B) … sjednocení závislé … bez opakování P(A  B) = P(A) * P(B/A) … průnik nebo = P(B) * P(A/B) P(A  B) = P(A) + P(B) - P(A  B) … sjednocení

Jevy nezávislé jevy A a B jsou nezávislé, jestliže pravděpodobnosti nastoupení nebo nenastoupení jednoho z jevů neovlivňuje pravděpodobnost nastoupení nebo nenastoupení jevu druhého Jevy závislé nastoupení jevu A ovlivňuje jevy další

Průzkum sledovanosti televizního pořadu Aréna manželskými páry ukázal, že pravidelně tento pořad sleduje 30% všech manželek a 50% všech manželů. Zároveň se ukázalo, že tento pořad sleduje 18% manželských párů. Náhodně vybereme manželský pár. Jaká je pravděpodobnost, že pořad bude sledovat alespoň jeden z manželů. Řešení: Označme A = [pořad sleduje manželka] a B = [pořad sleduje manžel]. Ze zadání příkladu plyne, že P(A) = 0,30 a P(B) = 0,50 a P(A ∩ B) = 0,18. Je zřejmé, že jev [pořad sleduje alespoň jeden z manželů] je roven sjednocení jevů A a B. Podle vzorce pro výpočet pravděpodobnosti sjednocení dvou jevů dostaneme Tudíž pravděpodobnost, že náhodně vybraný manželský pár sleduje TV pořad Aréna, je rovna 0,62.

Podmíněná pravděpodobnost
Náhodný jev určujeme vždy k určitým podmínkám. Nejsou-li na výskyt daného jevu A kladeny žádné další podmínky, potom pravděpodobnost P(A) jevu A označujeme jako nepodmíněnou pravděpodobnost. Pokud se jev A může vyskytnout pouze tehdy, vyskytl-li se jev B, jehož pravděpodobnost je P(B) > 0, pak hovoříme o podmíněné pravděpodobnosti jevu A a označujeme ji P(A | B). Při P(B) > 0 lze pravděpodobnost jevu A, která je podmíněna výskytem jevu B vyjádřit jako Máme-li náhodné jevy A1,A2,...,An, pak pravděpodobnost jejich průniku je Speciálním případem tohoto vztahu je pravděpodobnost průniku dvou jevů A,B, tedy pravděpodobnost, že jevy A,B nastanou současně. Podle tohoto vztahu je tato pravděpodobnost rovna součinu pravděpodobnosti jednoho jevu a podmíněné pravděpodobnosti jevu druhého, tzn.

Tudíž podmíněná pravděpodobnost je
Hodíme-li jedenkrát pravidelnou hrací kostkou, pak může nastat 6 stejně možných výsledků, tj. Nechť A = [padne číslo 5] a L = [padne liché číslo]. Určete následující pravděpodobnosti: a) Pravděpodobnost, že padlo číslo 5. b) Podmíněnou pravděpodobnost, že padne číslo 5, za podmínky, že padlo liché číslo. Řešení: Vzhledem k tomu, že je šest možných výsledků při hodu jednou kostkou a jev A nastane jen pokud padne číslo 5, je b) V tomto případě nastal jev L, že padlo liché číslo, tudíž už není šest možných výsledků, ale pouze 3 možné výsledky. Prostor elementárních jevů je nyní Tudíž podmíněná pravděpodobnost je Porovnáme-li tuto pravděpodobnost s pravděpodobností vypočtenou v a) vidíme, že to znamená, víme-li, že padlo liché číslo, pak to má vliv na pravděpodobnost, že padne číslo 5.

Formule úplné pravděpodobnosti a Bayesův vzorec
V případě, že jsou známy nejen nepodmíněné pravděpodobnosti P(Bi) a podmíněné pravděpodobnosti P(A/Bi), ale je také známo, že výsledkem pokusu je nastoupení jevu A, lze podmíněné pravděpodobnosti P(Bi/A) vypočítat pomocí Bayesova vzorce, který vyplývá z věty o násobění pravděpodobností a z formule úplné pravděpodoobnosti pro i = 1, 2, …, n.

Příklad: Je známo, že 90% výrobků odpovídá standardu. Byla vypracována zjednodušená kontrolní zkouška, která u standardního výrobku dá kladný výsledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s pravděpodobností 0,20. Jaká je pravděpodobnost, že výrobek, u něhož zkouška dopadla kladně je standardní?

Označme: Jev A – zkouška u výrobku dopadla kladně, Jev B1 – výrobek je standardní, Jev B2 – výrobek je nestandardní. Pravděpodobnost obou hypotéz B1 a B2 je P(B1) = 0,9 a P(B2) = 0,1. Podmíněné pravděpodobnosti jevu A vzhledem k hypotézám B1 a B2 nabývají hodnot P(A/B1) = 0,95 a P(A/B2) = 0,2. Pak pravděpodobnost, že výrobek, u něhož zkouška dala kladný výsledek, je standardní, dostaneme

Aplikovaná statistika 2. seminář

Podobné prezentace

Prezentace na téma: "Aplikovaná statistika 2. seminář"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Aplikovaná statistika 2. seminář

Podobné prezentace

Prezentace na téma: "Aplikovaná statistika 2. seminář"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář