Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Aplikovaná statistika 2. seminář Popisná statistika statistika. Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistika.

Podobné prezentace


Prezentace na téma: "Aplikovaná statistika 2. seminář Popisná statistika statistika. Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistika."— Transkript prezentace:

1 Aplikovaná statistika 2. seminář Popisná statistika statistika. Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistika.

2 Základní pojmy: Statistický soubor - je množina všech prvků, které jsou předmětem daného statistického zkoumání. Podle druhu hodnot dělíme sledované (statistické) znaky na: Kvantitativní a kvalitativní diskrétníspojitéordinálnínominální

3

4 Jednoduché třídění četností Tarifní třída (x i ) Počet pracovníků (n i ) Relativní četnosti (p i ) Kumulativní absolutní četnosti Kumulativní relativní četnosti 320, ,147130, ,253320, ,360590, , Celkem751xx

5 Intervalové třídění četností Intervaly počtu odpracovaných hodin Počet pracovníků (n i )Střed intervalu (x i ) 100 – – – – – – – – Celkem75x Na počet intervalů (tříd) a jejich délku neexistuje jednotný názor, ani obecný předpis. Používá se řada pravidel pro stanovení počtu tříd, z nichž uvedeme tzv. Yulesovo pravidlo Pro stanovení délky intervalu d se používá tzv. Sturgesovo pravidlo

6 Statistické grafy Histogram a polygon

7 Výsečový graf pomer = [1, 3, 7, 0.9, 0.5]; pie(pomer);

8 Krabičkový graf (vousatá krabička) X1 = normrnd(5, 1, 100,1); X2 = normrnd(6, 1, 100,1); Boxplot([x1,x2],‘notch‘,‘on‘)

9 Paretův graf Příčina závadyPočet [Ks] Chyba navažování211 Špatné vstupní suroviny124 Míchání42 Špatný filtr20 Nedodržení teplotního režimu35 Špatné pracovní prostředí15 Situace, kdy 80% následků způsobuje 20 % příčin. Zdůraňuje fakt, že není nutné zabývat se všemi příčinami, nýbrž že pro dostatečný efekt stačí postihnout pouze nejdůležitější z nich. Např. seřadíme-li ve výrobě všechny příčiny zmetkovosti dle počtu jimi způsobených zmetků, zjistíme, že zhruba prvních 20 % příčin nám způsobuje zhruba 80 % všech zmetků, stačí se tedy obvykle zabývat jimi.

10 Tvary rozdělení

11 Základní statistické charakteristiky úroveňx variabilita Střední hodnoty průměryostatní střední hodnoty aritmetický geometrický kvadratický harmonický chronologický modus medián variační rozpětí rozptyl směrodatná odchylka variační koeficient průměrná odchylka míra variability hodnot kardinální proměnné variabilita hodnot kategoriální proměnné

12 Kvantily Kvantil je hodnota, která rozděluje soubor hodnot určitého statistického znaku na dvě části, jedna obsahuje ty hodnoty, které jsou menší (nebo stejné) než tento kvantil, druhá část naopak obsahuje hodnoty, které jsou větší (nebo stejné) než kvantil. Výpočet kvantilu z intervalového rozdělení:, kde z p je pořadové číslo jednotky, jejíž hodnota bude hledaný kvantil, n je počet pozorování, p udává relativní četnosti nižších hodnot, jejíž horní mez je hledaný kvantil, n 1 je kumulativní četnost jednotek ležících před kvantilovým intervalem, n 2 je četnost intervalu, v němž leží hledaný kvantil, h je délka kvantilového intervalu, a p je hodnota, která tvoří dolní hranici kvantilového intervalu.

13 Medián, modus Medián (padesátiprocentní kvantil), x ̃ 50 - extrémní hodnoty, robustnost Soubor: Počet dat v souboru je 13, tedy liché číslo: medián je tudíž roven (13+1)/2=7 (sedmá hodnota uspořádané posloupnosti, tedy číslo 30) Soubor: Počet dat v datovém souboru je 10, tedy sudé číslo: medián je tudíž roven (20+30)/2=25 Modus (hodnota s nejvyšší četností) Soubor: Nejvyšší četnost v tomto datovém souboru zastává hodnota 20.

14 Př.: Výpočet mediánu z intervalového rozdělení četností Interval měsíčních příjmů Počet pracovníků (n i ) Kumulativní součty – – – – – – a více1116 Celkem116x

15 1.Zjistíme pořadové číslo jednotek, z jejichž hodnot medián vypočteme Medián tedy leží v intervalu, který obsahuje prvek s pořadovým číslem 58,5. Z posledního sloupce tabulky, jenž obsahuje kumulativní součty, zjistíme, že nejbližší vyšší číslo, obsahující v sobě hodnotu z 0,50 je 65. Hledaný medián bude tedy ležet v intervalu – Chceme-li znát konkrétní hodnotu mediánu, dosadíme do Odpověď: Střední mzda tedy činí 7 719,75.

16 Míry polohy Vážený aritmetický průměr Vahou např. četnost (ni) z rozdělení četností pro nespojitou proměnnou s k variantami hodnot Tarifní třída (x i )Počet pracovníků (n i ) xinixini Celkem75419 Př.: Z následující tabulky vypočteme průměrnou tarifní třídu v souboru 75 provozních pracovníků. (Vážený aritmetický průměr) Průměrné tarifní zařazení provozních pracovníků je tedy 5,6.

17 Geometrický průměr: uplatnění v případech, kdy hodnoty tvoří alespoň přibližně geometrickou řadu analýza časových řad, výpočty tempa růstu atd. Příklad: Meziroční indexy cen jistého zboží jsou uvedeny v tabulce. Vypočítejte průměrný cenový index. (je tedy nutné vypočítat geometrický průměr) RokCenaIndex , , , ,121

18 Harmonický průměr Harmonický průměr z nenulových hodnot statistického souboru je definován jako podíl rozsahu souboru (počtu členů) a součtu převrácených hodnot znaků. Jinými slovy je to převrácená hodnota aritmetického průměru převrácených hodnot zadaných členů. Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké.

19 Př.: Z údajů v následující tabulce vypočítáme vážený harmonický průměr. xixi nini n i /x i 451, , , , ,67 Součet506,45 Harmonický průměr se převážně používá v teorii indexů (výpočet průměrových tvarů souhrnných indexů)

20 Kvadratický průměr: Diskrétní verze kvadratického průměru je použita například při výpočtu směrodatné odchylky. Spojitý kvadratický průměr je použit při výpočtu efektivní hodnoty střídavého napětí nebo střídavého proudu.

21 Chronologický průměr Druh váženého průměru, užívaný ve statistice k výpočtu průměru z časových řad.

22 Prostý chronologický průměr: prostý chronologický průměr při konstantní vzdálenosti mezi okamžiky měření

23 Vážený chronologický průměr: nestejné vzdálenosti mezi okamžiky o velikosti tw (pro vzdálenost mezi t–tým a (t–1) okamžikem).

24 Pořadí jednotlivých typů průměrů vypočtených ze stejného souboru: Pro harmonický a geometrický průměr musí být všechny počítané hodnoty kladné. Vlastnosti aritmetického průměru: Součet jednotlivých odchylek od průměru je nulový. Aritmetický průměr konstanty je opět roven konstantě. Přičteme-li k jednotlivým hodnotám znaku konstantu, zvýší se o tuto konstantu i aritmetický průměr. Násobíme-li jednotlivé hodnoty znaku konstantou, je touto konstantou násoben i průměr. Násobíme-li váhy aritmetického průměru konstantou, průměr se nezmění.  x h  x g  x  x k

25 Další odhady polohy rozdělení Useknutý (uřezaný) průměr - desetiprocentní uřezaný průměr - vynechá se 10% nejnižších výsledků - 10% nejvyšších výsledků - ze zbytku se počítá průměr. - volí se 5%, 10% nebo 25% - robustní Polosuma - citlivá na odlehlé hodnoty

26 Vzájemná poloha průměru a mediánu

27 Míry variability

28 Dva různé soubory

29 Míry absolutní variability Variační rozpětí Rozptyl Směrodatná odchylka Interkvartilové rozpětí Kvartilová odchylka Kvartilová odchylka je tedy průměrem kladných sousedních kvartilů. nebo (výběrový)

30 Viz příklad ve cvičebnici

31 Výpočet rozptylu ve váženém tvaru: Počet pracovníků Počet prodejen (n i ) xixi xinixini xi2nixi2ni 1 – – – – – – Celkem33X

32 Vlastnosti rozptylu: Rozptyl konstanty je roven nule. Přičteme-li ke všem hodnotám znaku konstantu, rozptyl se nezmění. Násobíme-li všechny hodnoty znaku konstantou, rozptyl je násoben čtvercem této konstanty. Rozptyl součtu (rozdílu) dvou proměnných, kde je roven součtu rozptylů obou proměnných zvětšenému (+) nebo zmenšenému (-) o dvojnásobek tzv. kovariance, tj. Předpokládejme, že statistický soubor o rozsahu n statistických jednotek je rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí průměry a četnosti i-tého podsouboru n i. Potom rozptyl celého souboru je dán součtem rozptylu dílčích (skupinových) průměrů a průměru z dílčích (skupinových) rozptylů.

33 Míry relativní variability Variační koeficient Relativní kvartilové odchylky Relativní decilové odchylky Relativní percentilové odchylky

34 Viz příklad ve cvičebnici

35 Charakteristiky šikmosti a špičatosti Šikmost jak jsou hodnoty symetricky či asymetricky rozloženy kolem středu naměřených hodnot Symetrické - koeficient nula sešikmení k vyšším hodnotám - koeficient kladný sešikmení k nižším hodnotám - koeficient záporný Asymetrických rozdělení - pořadí průměru, mediánu a modu sešikmení k vyšším hodnotám < x ̃ 50 <  x sešikmení k nižším hodnotám > x ̃ 50 >  x koeficient šikmosti

36 Špičatost jak je rozdělení špičaté (strmé) nebo naopak ploché koeficient špičatosti: normální (Gausovo) rozdělení vychází β=3

37 Praktický příklad

38 Úvod do teorie pravděpodobnosti Házení hrací kostkou, statistické průzkumy, otázky spojené s řízením jakosti, čekání na obsluhu. Definice pravděpodobnosti náhodného jevu statistická klasická geometrická axiomatická

39 Základní pojmy Náhodný jev jev, který za daných podmínek nastat může a nemusí; jeho nastání je věc náhody výsledek náhodného pokusu je to výchozí pojem počtu pravděpodobnosti a označujeme ho A, B, C, … Jev jistý jev, který za daných podmínek nastane vždy Jev nemožný jev, který za daných podmínek nastat nemůže Elementární náhodný jev jev, který se nedá dále rozdělit na podrobnější jevy konečný jev

40 Operace s náhodnými jevy Jestliže při každé realizaci jevu A nastává i jev B, pak říkáme, že jev A má za následek jev B neboli jev A je částí jevu B. A  B Jevy A a B jsou rovnocenné, jestliže pokaždé, kdy nastal jev A, nastal také jev B a naopak. A = B Jev spočívající v nastoupení jak jevu A, tak jevu B nazýváme průnikem jevů A a B. A  B (A * B) Jev spočívající v nastoupení alespoň jednoho z jevů A a B nazýváme sjednocení jevů A a B. A  B (A + B) Rozdílem jevů A a B nazýváme jev spočívající v nastoupení jevu A a současném nenastoupení jevu B. A - B Jev, který spočívá v nenastoupení jevu A, je jevem opačným k jevu A. Jevy A a B se nazývají neslučitelné, jestliže výskyt jednoho z nich bude vylučovat možnost výskytu druhého jevu, tj. jejich průnik je jev nemožný. A  B = 

41 Definice pravděpodobnosti Klasická definice pravděpodobnosti Podle klasické definice pravděpodobnosti nastání jevu A je dáno poměrem m ku n, kde m je počet všech situací příznivých jevu A a n je počet všech možných situací, přičemž n musí být konečné číslo a předpokládá se, že každá z celkového počtu situací má stejnou šanci nastat.

42 Uvažujme tabulku četností a relativních četností stáří 40 studentů v jednom ročníku na nějaké univerzitě. Předpokládejme, že jsme vybrali jednoho studenta náhodně, míněno tím, že každý student měl stejnou možnost, že bude vybrán. a) Určete pravděpodobnost, že náhodně vybranému studentovi je 20 let. Stáří Četnost Relativní č. 0,0500,2250,175 0,1250,0750,1000,025 Řešení: Z druhého řádku tabulky je vidět, že 7 ze 40 studentů je ve věku 20 let. Tudíž je šance 7 ku 40, že náhodně vybranému studentovi bude 20 let. Pravděpodobnost je tudíž počet 20 let starých studentů/celkový počet studentů = 7/40 Všimněme si, že pravděpodobnost, že náhodně vybranému studentovi je 20 let, je stejná jako relativní četnost studentů, kterým je 20 let (7/40 = 0,175). b) Určete pravděpodobnost, že náhodně vybraný student bude mladší než 21 let. Řešení: Z tabulky je vidět, že 18 (2+9+7) studentům je méně než 21 let. Takže f = 18 a pravděpodobnost je rovna.

43 Statistická definice pravděpodobnosti V některých případech není splněn základní požadavek klasické definice pravděpodobnosti, tj. předpoklad stejné možnosti všech jevů. U statistické definice je pravděpodobnost nastání jevu A přibližně rovna poměru m / n, přičemž m je počet situací, v nichž reálně nastal jev A a n je počet všech uskutečněných pokusů. Př.: pravděpodobnost narození syna dle klasické definice: 50 % dle statistické definice: 52 % (rodí se více mužů)

44 Pravidla pro počítání s pravděpodobností Náhodné jevy neslučitelné (nemohou nastat současně) P(A  B) = 0… průnik P(A  B) = P(A) + P(B)… sjednocení slučitelné nezávislé… s opakováním –P(A  B) = P(A) * P(B)… průnik –P(A  B) = P(A) + P(B) - P(A  B)… sjednocení závislé… bez opakování P(A  B) = P(A) * P(B/A)… průnik nebo = P(B) * P(A/B) P(A  B) = P(A) + P(B) - P(A  B)… sjednocení

45 Jevy nezávislé jevy A a B jsou nezávislé, jestliže pravděpodobnosti nastoupení nebo nenastoupení jednoho z jevů neovlivňuje pravděpodobnost nastoupení nebo nenastoupení jevu druhého Jevy závislé nastoupení jevu A ovlivňuje jevy další

46 Průzkum sledovanosti televizního pořadu Aréna manželskými páry ukázal, že pravidelně tento pořad sleduje 30% všech manželek a 50% všech manželů. Zároveň se ukázalo, že tento pořad sleduje 18% manželských párů. Náhodně vybereme manželský pár. Jaká je pravděpodobnost, že pořad bude sledovat alespoň jeden z manželů. Řešení: Označme A = [pořad sleduje manželka] a B = [pořad sleduje manžel]. Ze zadání příkladu plyne, že P(A) = 0,30 a P(B) = 0,50 a P(A ∩ B) = 0,18. Je zřejmé, že jev [pořad sleduje alespoň jeden z manželů] je roven sjednocení jevů A a B. Podle vzorce pro výpočet pravděpodobnosti sjednocení dvou jevů dostaneme Tudíž pravděpodobnost, že náhodně vybraný manželský pár sleduje TV pořad Aréna, je rovna 0,62.

47 Náhodný jev určujeme vždy k určitým podmínkám. Nejsou-li na výskyt daného jevu A kladeny žádné další podmínky, potom pravděpodobnost P(A) jevu A označujeme jako nepodmíněnou pravděpodobnost. Pokud se jev A může vyskytnout pouze tehdy, vyskytl-li se jev B, jehož pravděpodobnost je P(B) > 0, pak hovoříme o podmíněné pravděpodobnosti jevu A a označujeme ji P(A | B). Při P(B) > 0 lze pravděpodobnost jevu A, která je podmíněna výskytem jevu B vyjádřit jako Podmíněná pravděpodobnost Máme-li náhodné jevy A1,A2,...,An, pak pravděpodobnost jejich průniku je Speciálním případem tohoto vztahu je pravděpodobnost průniku dvou jevů A,B, tedy pravděpodobnost, že jevy A,B nastanou současně. Podle tohoto vztahu je tato pravděpodobnost rovna součinu pravděpodobnosti jednoho jevu a podmíněné pravděpodobnosti jevu druhého, tzn.

48 Hodíme-li jedenkrát pravidelnou hrací kostkou, pak může nastat 6 stejně možných výsledků, tj. Nechť A = [padne číslo 5] a L = [padne liché číslo]. Určete následující pravděpodobnosti: a) Pravděpodobnost, že padlo číslo 5. b) Podmíněnou pravděpodobnost, že padne číslo 5, za podmínky, že padlo liché číslo. Řešení: a)Vzhledem k tomu, že je šest možných výsledků při hodu jednou kostkou a jev A nastane jen pokud padne číslo 5, je b) V tomto případě nastal jev L, že padlo liché číslo, tudíž už není šest možných výsledků, ale pouze 3 možné výsledky. Prostor elementárních jevů je nyní Tudíž podmíněná pravděpodobnost je Porovnáme-li tuto pravděpodobnost s pravděpodobností vypočtenou v a) vidíme, že to znamená, víme-li, že padlo liché číslo, pak to má vliv na pravděpodobnost, že padne číslo 5.

49 Formule úplné pravděpodobnosti a Bayesův vzorec formule úplné pravděpodobnosti V případě, že jsou známy nejen nepodmíněné pravděpodobnosti P(B i ) a podmíněné pravděpodobnosti P(A/B i ), ale je také známo, že výsledkem pokusu je nastoupení jevu A, lze podmíněné pravděpodobnosti P(B i /A) vypočítat pomocí Bayesova vzorce, který vyplývá z věty o násobění pravděpodobností a z formule úplné pravděpodoobnosti pro i = 1, 2, …, n.

50 Příklad: Je známo, že 90% výrobků odpovídá standardu. Byla vypracována zjednodušená kontrolní zkouška, která u standardního výrobku dá kladný výsledek s pravděpodobností 0,95, zatímco u výrobku nestandardního s pravděpodobností 0,20. Jaká je pravděpodobnost, že výrobek, u něhož zkouška dopadla kladně je standardní?

51 Označme: Jev A – zkouška u výrobku dopadla kladně, Jev B 1 – výrobek je standardní, Jev B 2 – výrobek je nestandardní. Pravděpodobnost obou hypotéz B 1 a B 2 je P(B 1 ) = 0,9 a P(B 2 ) = 0,1. Podmíněné pravděpodobnosti jevu A vzhledem k hypotézám B 1 a B 2 nabývají hodnot P(A/B 1 ) = 0,95 a P(A/B 2 ) = 0,2. Pak pravděpodobnost, že výrobek, u něhož zkouška dala kladný výsledek, je standardní, dostaneme


Stáhnout ppt "Aplikovaná statistika 2. seminář Popisná statistika statistika. Jeden mrtvý je tragédie. Desítka mrtvých je masakr. Tisíce mrtvých je statistika."

Podobné prezentace


Reklamy Google