PRAVDĚPODOBNOST A STATISTIKA Doc. Ing. Dagmar Blatná, CSc.
Statistika statistické údaje o hromadných jevech činnost, která vede k získání statistických údajů a jejich zpracování teorie statistiky - věda o stavu, vztazích a vývoji hromadných jevů - popisná statistika - statistická indukce (matematická statistika) - statistická analýza
Základní statistické pojmy statistický soubor základní soubor výběrový soubor statistická jednotka statistický znak hodnoty statistického znaku - shodné : identifikační znak - proměnlivé (variabilní) = "proměnné"
Statistické proměnné slovní = kategoriální (kvalitativní) nominální ordinální alternativní možné číselné = numerické (kvantitativní) metrické - kardinální spojité nespojité (diskrétní)
POPISNÁ (deskriptivní) STATISTIKA Zpracování hodnot numerické proměnné Numerická proměnná X nabývá obměn x1, x2, … , xn n = rozsah souboru (celkový počet jednotek) k = počet skupin (obměn) (i = 1, … k ) četnosti absolutní relativní
kumulativní četnosti absolutní relativní
Tabulka jednorozměrného rozdělení četností Obměny znaku četnosti kumulativní četnosti absolutní relativní xi ni pi x1 n1 p1= n1 / n p1 x2 n2 p2 = n2 / n n1 + n2 p1 + p2 x3 n3 p3 = n3 / n n1+ n2 +n3 p1 + p2+p3 xk nk n 1 x
Příklad : soubor 30 domácností - sledovaný znak počet členů Obměny znaku četnosti kumulativní četnosti absolutní relativní xi ni pi 1 0,0333 2 8 0,2667 9 0,3000 3 18 0,6000 4 6 0,2000 24 0,8000 5 0,1667 29 0,9667 30 1,0000 x
GRAFY ROZDĚLENÍ ČETNOSTÍ polygon (spojnicový graf) histogram (sloupcový graf) výsečový (koláčový) graf
Skupinové (intervalové) rozdělení četností vhodné pro velký počet variant velikost intervalu = šířka intervalu = délka intervalu snaha volit intervaly stejné délky střed intervalu celé číslo označení intervalů musí být jednoznačné určení počtu intervalů k v závislosti na rozsahu souboru n Různá doporučení např. Sturgesovo pravidlo
Příklad : soubor 39 osob, sledovaný znak výška Příklad : soubor 39 osob, sledovaný znak výška Data: 156, 179, 149, 165, 168, 192, 184, 158, 189, 163, 176, ... k = k = 1+3,3.1,59 = 7,16 volíme počet intervalů: k = 6 rozsah hodnot 192-149=43 šíře intervalu 43:6 = 7,16 volíme šířku intervalu 10
Tabulka jednorozměrného rozdělení četností obměny znaku četnosti kumulativní četnosti absolutní relativní intervaly ni pi 150 1 0,0256 -160 2 0,0513 3 0,0767 -170 12 0,3077 15 0,3846 -180 18 0,4615 33 0,8461 -190 5 0,1282 38 0,9744 190 39 1,0000 x
Charakteristiky polohy charakterizují obecnou úroveň, na níž se pohybují numerické hodnoty statistického znaku ve statistickém souboru. střední hodnoty průměry aritmetický, harmonický, geometrický medián modus kvantily kvartily decily percentily
vážený aritmetický průměr prostý aritmetický průměr je definován jako součet hodnot jednotek souboru dělený jejich počtem používáme v případě netříděného souboru vážený aritmetický průměr používáme v případě souboru rozděleného do k skupin
Příklad : soubor 30 domácností - sledovaný znak počet členů Obměny znaku četnosti výpočty absolutní relativní xi ni pi 1 0,0333 2 8 0,2667 9 0,3000 3 18 0,6000 4 6 0,2000 24 0,8000 5 0,1667 29 9,9667 30 1,0000 99 3,3
Výpočet průměru ze skupinových četností jsou skupinové průměry (lze je nahradit středy intervalů) ni jsou skupinové četnosti výpočet pomocí skupinových průměrů Příklad : výpočet průměrné výšky skupiny 39 děvčat Inter. ni xi 150 1 149 145 -160 2 156,158 157 155 314 310 -170 12 163,168,165, 168 165 2016 1980 -180 18 179,173,176,. 174 175 3132 3150 -190 5 184,186, … 183 185 915 925 190 192 195 39 6718 6705 výpočet pomocí středů intervalů který výsledek je přesnější a proč?
Vlastnosti aritmetického průměru 1. Součet odchylek jednotlivých hodnot od průměru je roven 0. 2. Aritmetický průměr konstanty je roven této konstantě. Připočteme-li ke každé hodnotě xi tutéž konstantu, aritmetický průměr hodnot se zvýší o tuto konstantu Vynásobíme-li všechny hodnoty stejnou konstantou k, aritmetický průměr hodnot xi se zvýší k-krát 5. Aritmetický průměr se nezmění, vynásobíme-li všechny váhy ni stejnou konstantou k. 6. Je-li pak
výpočet průměrné rychlosti, Další průměry Harmonický výpočet průměrné rychlosti, výpočet průměrné pracnosti… Geometrický Průměrný koeficient růstu
Příklad: Výpočet průměrné rychlosti Auto jede vzdálenost 30 km. 10 km rychlostí 30 km/hod. ............ 20 min. 10 km 80 km/hod. ............ 7,5 min. 10 km 100 km/ hod...............6 min. -------------------------------------------------------------------- 30 km 33,5 min.= 0,5583hod = 30/0,5583 = 53,73 km/hod.
modus medián liché n Další střední hodnoty je nejčastěji se vyskytující (nejčetnější) hodnota statistického znaku v souboru medián je hodnota znaku prostřední statistické jednotky uspořádaného statistického souboru liché n sudé n
Kvantily p % - ní kvantil je hodnota numerického znaku, který odděluje p jednotek s nejnižšími hodnotami sledovaného znaku medián kvartily decily percentily pořadí jednotky, jejíž hodnotou je p% - ní kvantil
Příklad : soubor 30 domácností - sledovaný znak počet členů xi ni pi 1 0,0333 2 8 0,2667 9 3 0,3000 18 4 6 0,2000 24 5 0,1667 29 30 x modus =3 medián dolní kvartil
Charakteristiky variability míry variability měří měnlivost hodnot znaku od sebe navzájem nebo od nějaké střední hodnoty míry variability: absolutní nebo relativní
Absolutní míry variability variační rozpětí Příklad: známky – stejný průměr 3 soubor 1: 3 3 3 R1= 0 soubor 2: 2 3 4 R2= 2 soubor 3: 1 3 5 R3= 4 Nevýhoda: závisí pouze na extrémních hodnotách kvantilová rozpětí: kvartilové rozpětí decilové rozpětí percentilové rozpětí
rozptyl = nejpoužívanější míra variability je definován jako aritmetický průměr čtverců odchylek hodnot od průměru výpočetní tvar rozptylu rozptyl z relativních četností
směrodatná odchylka Výběrový rozptyl (variance)- počítá PC Výhoda: směrodatná odchylka má stejné jednotky jako pozorování Výběrový rozptyl (variance)- počítá PC Výběrová směrodatná odchylka (standard deviation) Vztah mezi rozptylem a výběrovým rozptylem
1. Připočteme-li ke všem hodnotám xi konstantu k, rozptyl se nezmění. Vlastnosti rozptylu 1. Připočteme-li ke všem hodnotám xi konstantu k, rozptyl se nezmění. 2. Vynásobíme-li všechny hodnoty xi konstantou k, rozptyl se zvýší k2 krát 3. Rozklad rozptylu Skládá-li se soubor z k dílčích souborů (skupin) s četnostmi ni se skupinovými průměry a skupinovými rozptyly , pak můžeme celkový rozptyl rozložit na součet dvou rozptylů, z nichž jeden charakterizuje variabilitu mezi skupinami a druhý variabilitu uvnitř skupin rozptyl skupinových průměrů (variabilita mezi skupinami ) průměr skupinových rozptylů (variabilita uvnitř skupin)
Příklad: Vypočítejte rozptyl souboru složeného ze tří skupin. 1 2;4;6 3 4 8/3 12 8 1,5 6,75 2 5;5;5 5 15 0,5 0,75 6;7;7;8 7 ½ 28 9,0 10 x 55 16,5
Variační koeficient Je míra relativní variability umožní porovnat variabilitu různých souborů, různých ukazatelů v různých měrných jednotkách relativní míry variability dostaneme vydělením absolutní míry variability střední hodnotou (nejčastěji průměrnou hodnotou) Příklad: porovnat variabilitu výšky a váhy skupiny osob sváha = 12,5 kg s výška = 18 cm
Vlastnosti variačního koeficientu Variační koeficient konstanty je nula. Násobíme-li každé pozorování toutéž konstantou, variační koeficient se nezmění. Přičteme-li ke každému pozorování tutéž konstantu, variační koeficient se sníží, odečteme-li tutéž konstantu, variační koeficient se zvýší.