Popisná statistika Přednáška č.1
Požadavky k zápočtu Na Tamtéž studijní literatura
Požadavky k zápočtu
Studijní okruhy Popisná statistika: Statistický soubor, statistické veličiny Kvantilové charakteristiky Momentové charakteristiky Pravděpodobnost: Obecná pravděpodobnost Diskrétní náhodná veličina, (rozdělení alternativní, binomické, poissonovo, hypergeometrické) Spojitá náhodná veličina (rozdělení rovnoměrné, normální, exponenciální) Zákon velkých čísel, centrální limitní věty
Statistika Matematická teorie o chování dat Údaje získané výpočtem z dat Činnost vedoucí k získání dat Úloha statistiky: Popis(deskripce) Analýza( tvorba modelů, odhady, testy) Předmět statistiky: zkoumání hromadných jevů, jeho kvalitativní a kvantitativní stránky Hromadný jev: jev, který nastává jako výsledek neomezeně opakovaných pozorování
Statistický soubor, statistická jednotka Statistický soubor- souhrn objektů-živých neživých abstraktních Musí být vymezen časově a místně Základní statistický soubor (populace)- množina všech statistických jednotek, které splňují z hlediska cíle zkoumání podmínku příslušnosti ke statistickému souboru Rozsah stat. souboru: konečný nekonečný Statistická jednotka: prvek statistického souboru
Jak získávat data? Vlastní šetření ČSÚ EUROSTAT Státní úřady firmy
Statistické šetření Úplné (celá populace) výběrové (reprezentativnost)- náhodný výběr Systematický výběr Stratifikovaný výběr Způsob pořizování dat: anketa, dotazník, rozhovor
Statistický znak(veličina) Vlastnost statistické jednotky Statistická veličina: kategoriální (diskrétní) nekategoriální (spojitá) Kategoriální veličina: alternativní (dvě kategorie) množné Kategoriální veličina: kvalitativní(slovní) kvantitativní(číselné, kardinální) Kvalitativní: nominální ordinální Kvantitativní : ordinální Nekategoriální: kvantitativní ordinální
Příklad zaměstnan ec Dosažené vzdělání pohlavíPočet cizích jazyků Měsíční mzda(Kč)v tis. Počet vyživovaných osob věkRodinný stavRozloha bytových prostor(m 2 ) Vlastnictví auta J.K. Všm219025svobodný50ano M.P. Sšm133242ženatý100ne O.B. Všž227235vdaná80ano P.Č. Zákl.ž013027svobodná50ano M.S. Sš.m115348ženatý75ne K.O. Sšm235261vdovec82ne E.V. všm331133rozvedený45ano D.R. vyučenž220137svobodná60ano F.J. vyučenm123155rozvedený85ano C.L. Sšž442245vdaná120ano
Příklad Soubor 10 zaměstnanců jisté firmy Jednotliví zaměstnanci- statistické jednotky Vlastnosti statistických jednotek- statistické veličiny Např. počet vyživovaných osob –tato veličina x má deset hodnot označených x 1, x 2,……. x 10 Některé hodnoty jsou stejné např. x 1 = x 4 =x 8 =0 Mohu tedy pracovat jen s různými obměnami (kategoriemi) veličiny x
Četnosti Absolutní četnosti- počty výskytů n…rozsah souboru n i …absolutní četnost Vlastnosti: Relativní četnosti p i Vlastnosti: Modus- nejčetnější kategorie Pokud nejčetnější kategorie jsou dvě- bimodální soubor Absolutní a relativní četnosti má smysl zjišťovat u všech typů veličin
Kumulativní četnosti Kumulativní absolutní četnosti Kumulativní relativní četnosti Má smysl počítat pouze u ordinálních veličin
Tabulka rozdělení četností Podle znaku dosažené vzdělání xixi nini pipi niKniK piKpiK základní 10,11 Vyučen/a 20,230,3 Sš 40,470,7 Vš 30,3101 suma 101Xx
Tabulka rozdělení četností podle znaku počet vyživovaných osob xixi nini pipi niKniK piKpiK 0 20, ,350,5 2 40,490,9 3 10,1101 suma 101Xx
Polygon četností veličiny počet vyživovaných osob
Kvantily Udávají pro ordinální veličinu x hodnotu pod níž leží požadovaný podíl pozorování -p%-ní kvantil rozděluje soubor setříděný vzestupně na dvě části 100p% hodnot v souboru je menších nebo rovno a 100(1-p)% je větších nebo rovno 50%-ní kvantil – medián 25%-ní kvantil-dolní kvartil 75%-ní kvantil-horní kvartil
Jak p% kvantil v souboru zjistit? Hodnoty veličiny x v souboru setřídíme vzestupně a pak nalezneme jaká hodnota v takto seřazeném souboru odděluje p% hodnot menších nebo rovných a (100-p)% hodnot větších nebo rovných Například u veličiny „počet vyživovaných osob“ Medián bude hodnota, která je přesně uprostřed takto setříděného souboru Protože v našem souboru máme sudý počet jednotek (10), medián bude ležet mezi pátou a šestou hodnotou Nalezneme ho jako průměr hodnot na pátém a šestém místě
Jak hledat kvantily v souboru setříděném do tabulky rozdělení četností? Podle kumulovaných relativních četností Hodnota té kategorie, ve které kumulovaná četnost p i K *100 poprvé bude rovna nebo převýší hodnotu p je rovna p%-nímu kvantilu Medián (červeně) xixi nini pipi niKniK piKpiK 0 20, ,350,5 2 40,490,9 3 10,1101 suma 101Xx
Interpretace p% kvantilu v daném souboru dat má p% hodnot znaku x hodnotu nejvýše V daném souboru dat má (1-p)% hodnot znaku má alespoň
Jak hledat kvantily v souboru setříděném do tabulky rozdělení četností? Pomocí kumulovaných absolutních četností Nejprve zjistím na kolikátém místě (pořadí) z p vzestupně setříděném souboru budu p%-ní kvantil hledat Pokud jsou obě strany nerovnosti celočíselné, p%-ní kvantil najdu jako aritmetický průměr hodnot stojících na daných místech v pořadí podle komulovaných absolutních četností Pokud hodnota není celočíselná, pak není ani celočíselná a z p je přirozené číslo ležící mezi nimi. Příslušný kvantil pak podle kumulovaných absolutních četností nalezneme jako odpovídající hodnotu znaku na tomto pořadí.
Jak hledat kvantily v souboru setříděném do tabulky rozdělení četností? xixi nini pipi niKniK piKpiK 0 20, ,350,5 2 40,490,9 3 10,1101 suma 101Xx
Empirická distribuční funkce Slouží k popisu rozdělení (distribuce) číselných dat Značíme Udává podíl pozorování s hodnotou nejvýše x Vlastnosti: neklesající fce, definiční obor R, obor hodnot Spojitá zprava
Graf empirické distribuční funkce veličiny „počet vyživovaných osob“
Momenty Počítají se jen u číselných veličin Obecné momenty k-tý obecný moment První obecný moment Aritmetický průměr charakteristika polohy- typická hodnota Druhý obecný moment
Vážené tvary prvního a druhého obecného momentu Pomocí absolutních četností Pomocí relativních četností
Příklad: průměrná hodnota počtu vyživovaných osob xixi nini pipi niKniK piKpiK xinixini xipixipi 020, ,350,530,3 240,490,980,4 310,110130,3 suma101Xx141,4
Vlastnosti aritmetického průměru Nepříjemné: bývá ovlivněn byť málo četnými, ale extrémními hodnotami Příjemné: Pokud ke všem hodnotám znaku přičteme stejnou konstantu, aritmetický průměr těchto hodnot bude roven aritmetickému průměru původních hodnot zvětšenému o danou konstantu. Pokud všechny hodnoty znaku vynásobíme stejnou konstantou, aritmetický průměr těchto hodnot bude roven aritmetickému průměru původních hodnot vynásobenému touto konstantou.
Příklad Z údajů byla vypočítána průměrná měsíční mzda Kč. Určete průměrnou měsíční mzdu, zvýší-li se mzdy: 1) o 500 Kč 2) o 4% 3) 1.2 krát
Výpočet celkového průměru z dílčích průměrů Pokud máme vypočítat aritmetický průměr skupiny sloučené z k menších skupin reprezentovaných ar. průměry, můžeme ho vypočítat jako vážený průměr dílčích průměrů Příklad: Ve třídě je 20 dívek a 15 chlapců. průměrná známka dívek z biologie 1,8. Průměrná známka chlapců je 2,3. Vypočtěte průměrnou známku z biologie ve třídě.
Centrované momenty k-tý centrovaný moment Průměr k-tých mocnin odchylek od průměru První centrovaný moment Druhý centrovaný moment-rozptyl Charakteristika variability
Vlastnosti druhého centrovaného momentu Výpočet pomocí absolutních četností Výpočet pomocí relativních četností Výpočet pomocí prvního a druhého obecného momentu
Příklad: výpočet rozptylu (druhého centrovaného momentu) z tabulky rozdělení četností nini pipi niKniK piKpiK (x i -x¯) 2 n i (x i -x¯) 2 p i xi2nixi2ni 020,22 3,920, ,350,5 0,480, ,490,9 1,440, ,1101 2,560,2569 suma 101xx8,40,8428
Vlastnosti rozptylu Nezáporný pro jakákoli data (nulový pouze pro data s jednou kategorií) Pokud počítáme variabilitu veličiny, která je uvedena v jednotkách(cm, kg, Kč,atd) pak druhý centrovaný moment vychází ve druhé mocnině stejných jednotek Pokud ke všem hodnotám znaku přičteme stejnou konstantu, hodnota rozptylu se nezmění Pokud všechny hodnoty znaku vynásobíme stejnou nenulovou konstantou, hodnota se změní c 2 krát
Další míry variability Variační rozpětí Kvartilová odchylka Směrodatná odchylka Variační koeficient -bezrozměrná charakteristika variability- slouží k porovnání variability různých souborů
Další druhy průměrů Motivační příklad:V každém čtvrtletí koupil pan Jan 100 akcií otevřené společnosti za tyto ceny Paní Zuzana kupuje akcie jiným způsobem. Každé čtvrtletí investuje 800$ do nákupu tolika akcií, kolik lze koupit za momentální cenu. Kdo má nižší průměrné náklady na akcii? čtvrtletíCena za akcii($) x i I.8 II.8 III.10 IV.5
Řešení Průměrné náklady=celkové náklady/počet akcií Menší průměrné náklady měla paní Zuzana. Příští rok chce paní Zuzana prodat každého čtvrt roku část svých akcií a chce, aby cena jedné akcie byla relativně vysoká. Jakou strategii má zvolit? Prodat každého čtvrt roku 20 akcií, nebo akcie za 160 $?
Rozbor řešení Veličina, kterou průměrujeme je cena/akcií (intenzivní veličina) V případě pana Jana byl počet akcií absolutní četností ve výpočtu průměru (tedy jmenovatel intenzivní veličiny) Klasický aritmetický průměr V případě paní Zuzany byl absolutní četností v každém čtvrtletí počet investovaných dolarů (tady čitatel intenzivní veličiny) Harmonický průměr
Motivační příklad Změna stavu účtu v únoru oproti lednu byl nárůst o 40%, v březnu oproti únoru stav účtu poklesl o 30% a v dubnu oproti březnu stav účtu poklesl o 10%. Vypočtěte průměrnou změnu stavu účtu. Stav účtu v únoru = původní stav x 1,4 Stav účtu v březnu= (původní stav x 1,4)x0,7 Stav účtu v dubnu= ((původní stav x 1,4)x0,7)x0,9 Změny……1,4x0,7x0,9 Má smysl tyto hodnoty násobit Geometrický průměr V průměru stav účtu každý měsíc klesal o 4%