Popisná statistika: přehled Míry střední hodnoty Modus Medián Průměr * Míry rozptýlenosti Rozpětí Inter-kvartilové rozpětí Rozptyl Směrodatná odchylka * Míry symetrie Šikmost Míry polohy Percentil Diferenční skór Z-skór *
Centrální tendence Poskytuje jednu hodnotu, která reprezentuje celé rozložení dat
Centrální tendence Hodiny spánku
Centrální tendence Příjem v dolarech (1000)
Centrální tendence Poskytuje jednu hodnotu, která reprezentuje celé rozložení dat. Typické míry (charakteristiky) jsou modus medián průměr
Modus Nejčastěji se vyskytující hodnota Odpovídá nejvyššímu bodu histogramu nebo frekvenční funkce Pro daný výběr N=16: 33 35 36 37 38 38 38 39 39 39 39 40 40 41 41 45 Modus = 39 Skór
Modus Modus není citlivý k vychýleným hodnotám Pro daný výběr N=16: 33 35 36 37 38 38 38 39 39 39 39 40 40 41 41 50 Modus = 39 Hodnota
Modus Rozložení může mít více vrcholů Pro daný výběr N=16: 34 34 35 35 35 35 36 37 38 38 39 39 39 39 40 40 Modus = 35 a 39 Hodnota
Modus Nemusí být jediný nebo definovaný= rektangulární rozložení Pro daný výběr N=16: 33 33 34 34 35 35 36 36 37 37 38 38 39 39 40 40 Není určený Hodnota
Medián Údaj, který dělí rozložení na polovinu 50% percentil Pro N = 15 medián je devátá hodnota = 37 Hodnota
Medián Pro N = 16 medián je průměr osmého a deváté hodnoty = 37.5 Hodnota
Průměr Znamená, co lidé obvykle považují za střední hodnotu. Součet hodnot vydělený jejich počtem. Pro výběr: Po populaci: Změna jedné hodnoty nemění medián a modus, ale mění průměr.
Průměr __ V mnoha případech dáváme přednost průměru, jde o popis hodnot i odhad parametru. X=7.07 Aby to mělo smysl, musí se jednat o intervalovou škálu. 1 2 3 4 5 Budhista Protestant Katolík Žid Muslim Hodnota Frequency X=2.4 __ Hodiny spánku Hodnota
Průměr X=36.8 __ X=36.5 __ X=93.2 __ Hodnota Hodnota Průměr je citlivý k extrémním hodnotám a je vhodný pro symetrická rozložení. Příjem
Symetrie (pro jednovrcholové) Hodiny spánku symetrické rozložení není šikmé pro symetrické rozložení platí Průměr = Medián = Modus (pro jednovrcholové) Hodiny spánku
Šikmá rozložení Šikmost označuje asymetrii rozložení Kladně sešikmené rozložení je asymetrické a prodloužené do kladných hodnot. medián modus průměr Modus = 70,000$ Medián = 88,700$ Průměr = 93,600$ Příjem modus < median < průměr
Šikmá rozložení Záporně sešikmené rozložení medián průměr modus modus > medián > průměr Hodnota
Míry střední hodnoty + - Modus Medián Průměr rychlá & jednoduše vypočtená užitečná pro nominální data Špatná výběrová stabilita Medián není ovlivněná extrémními hodnotami, jasná interpretace Poměrně slabá výběrová stabilita Průměr výběrová stabilita vztah k rozptylu Nevhodná pro diskrétní data Ovlivněná sešikmeným rozložením
Rozložení Centrální hodnota: modus, medián, průměr Tvar: symetrické, sešikmené Rozptýlenost Hodnota
Míry rozptýlenosti rozptýlenost skórů od středu rozložení skórů je velmi variabilní, jestliže hodnoty se navzájem velmi liší Tři statistiky měří variabilitu rozpětí interkvartilové rozpětí rozptyl
Rozpětí Nejvyšší minus nejnižší hodnota (R) Obě mají stejné rozpětí (80), ale vypadají jinak Moc neříká o tom, jak jsou rozptýlené kolem středu. Velmi ovlivněná vychýlenými hodnotami. Hodnota
Interkvartilové rozpětí Vzdálenost mezi 25% percentilem a 75% percentilem Q3-Q1 = 70 - 30 = 40 Q3-Q1 = 52.5 - 47.5 = 5 Ignoruje extrémy Nebere v úvahu 50% rozložení Hodnota
Míry rozptýlenosti a rozdílu Skór Rozdíl Amálka 10 -40 Václav 20 -30 Jan 30 -20 Jiří 40 -10 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 Průměr Posuzujeme vzdáleností od průměru Skóry dále od průměru mají větší rozdílový skór
Míry rozptýlenosti a rozdílu Hodnota Rozdíl Amálka 10 -40 Václav 20 -30 Jan 30 -20 Jiří 40 -10 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 SUMA Abychom posoudili rozdílnosti, můžeme vypočítat průměr rozdílů, ale vždy dostaneme nulu.
Míry rozptýlenosti a rozdílu Hodnota Rozdíl Čtverec rozdílů Amálka 10 -40 1600 Václav 20 -30 900 Jan 30 -20 400 Jiří 40 -10 100 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 Suma 6000 Raději umocníme vypočtené rozdíly od průměru Spočteme součet čtverců (SS) __ SS= ∑(X-X)2
Rozptyl Spočteme průměr SS a dostaneme rozptyl Pro populaci: Pro výběr: (korekce na dopočtenou hodnotu průměru)
Rozptyl Spočtene průměr. Odečteme průměr od hodnot. Spočteme čtverce. Hodnota Rozdíl Čtverec rozdílů Amálka 10 -40 1600 Václav 20 -30 900 Jan 30 -20 400 Jiří 40 -10 100 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 Suma 6000 6000/8=750 Spočtene průměr. Odečteme průměr od hodnot. Spočteme čtverce. SS. Podělíme SS hodnotou N nebo N-1.
Směrodatná odchylka Standardní odchylka (směrodatná odchylka) je odmocnina z rozptylu Směrodatná odchylka měří rozptýlenost v původních jednotkách, kdežto rozptyl to činí ve mocninách jednotek. Rozptyl se používá v inferenční statistice. Směrodatná odchylka je vhodná popisná statistika.
Příklad N = 28 X = 50 s2 = 140.74 s = 11.86 N = 28 X = 50 s2 = 555.55 Hodnota
Popisná statistika: přehled Míry polohy Modus Medián Průměr * Míry rozptýlenosti Rozpětí Inter-kvartilové rozpětí Rozptyl Směrodatná odchylka * Míry symetrie Šikmost
Popisná statistika: přehled Pro populaci: Pro výběr: Průměr Rozptyl Směrodatná odchylka
Cvičení Jde o výběr, vypočteme: Modus, medián, průměr Rozpětí, rozptyl, směrodatnou odchylku
Míra šikmosti Pro populaci Pro výběr
Popisná statistika: přehled Centrální hodnoty Modus Medián Průměr * Míry rozptýlenost Rozpětí Inter-kvartil Rozpětí Rozptyl Směrodatná odchylka * Míry symetrie Šikmost Míry polohy Percentil Diferenční skór Z-skór *
Míry polohy Jak popsat hodnotu vzhledem k rozložení?
Míry polohy Kvantil Diferenční skór Z-skór
Kvantily Kvartil Rozděluje seřazené hodnoty na čtyři stejné díly 25% (minimum) (maximum) (medián)
Kvantily Decil 10% Rozděluje seřazené hodnoty na deset stejných dílů
Kvantily Percentilové pořadí Rozděluje seřazené hodnoty na sto stejných dílů Počet skórů menších než x Percentilová hodnota x = • 100 Celkový počet hodnot
Rozdílové skóry Pro populaci: Pro výběr: Hodnota Rozdíl Amálka 10 -40 Václav 20 -30 Jan 30 -20 Jiří 40 -10 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 Průměr Pro populaci: Pro výběr:
Jak postupovat při srovnání, jestliže máme různé průměry a směrodatné odchylka? Příklad 9 studentů má naměřené hodnoty dvěmi různými testy Hodnoty jsou na různých škálách
9 studentů a dva testy Test 1 Test 2 Amálka 10 1 Václav 20 2 Jan 30 3 Jiří 40 4 Hana 50 5 Karla 60 6 Petr 70 7 Markéta 80 8 Lulu 90 9 Průměr
9 studentů a dva testy Test 1 Test 2 Diferenční hodnota 1 Amálka 10 1 -40 -4 Václav 20 2 -30 -3 Jan 30 3 -20 -2 Jiří 40 4 -10 -1 Hana 50 5 Karla 60 6 Petr 70 7 Markéta 80 8 Josef 90 9 Průměr
z-skóry Z-skóry modifikují rozložení dat tak, že se pohybují kolem nuly a směrodatnou odchylku mají 1. Odečteme průměr od hodnoty a pak dělíme směrodatnou odchylkou Pro populaci: Pro průměr:
z-skóry Test 1 Test 2 z- hodnota 1 z-hodnota 2 Amálka 10 1 -1.5 Václav 20 2 -1.2 Jan 30 3 -.77 Jiří 40 4 -.34 Hana 50 5 Karla 60 6 .34 Petr 70 7 .77 Markéta 80 8 1.2 Josef 90 9 1.5 Průměr Sm.odch. 25.8 2.58
z-skóry Rozložení z-skórů… Vždy má průměr nulu Vždy má směrodatnou odchylku 1 Konverze nemění tvar rozložení: z-skóry nemohou non-normální rozložení převádět na normální rozložení Z-skór se intepretuje jako počet směrodatných odchylek nad nebo pod průměrem
Cvičení Při třetím testu průměr třídy byl 45 a směrodatná odchylka 6. Doplňte zbytek. Test 3 Z-skór Amálka 52 Václav 39 Jan -1.5 Jiří 1.3
Popisná statistika: rychlý přehled Pro populaci: Pro průměr: Průměr Rozptyl Směr. odchylka Z-skór