Popisná statistika: přehled

Slides:



Advertisements
Podobné prezentace
Základní statistická analýza dat z pre- a klinických studií
Advertisements

Statistika.
Statistické funkce v tabulkovém kalkulátoru Excel MS
Histogram představuje grafické zobrazení intervalového zobrazení četnosti znaku jakosti slouží k názornému zobrazení „struktury“ naměřených dat hranice.
Charakteristiky úrovně
Statistické charakteristiky variability
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
EXPLORATORNÍ STATISTIKA
Charakteristiky variability
KVANTILY OA a VOŠ Příbram.
Popisná statistika - pokračování
DATA  INFORMACE Statistická analýza je založena na zhušťování informace – tj. jak s co nejmenšího množství vhodně zvolených údajů vytěžit maximum relevantních.
BOX - PLOT OA a VOŠ Příbram.
Statistika Vypracoval: Mgr. Lukáš Bičík
Tloušťková struktura porostu
Obsah statistiky Jana Zvárová
také Gaussovo rozdělení (normal or Gaussian distribution)
Obecné a centrální momenty
Nechť (, , P) je pravděpodobnostní prostor:
Principy konstrukce norem a základní statistické pojmy
Charakteristické rysy a typy jednorozměrného rozdělení četností.
STATISTICKÉ CHARAKTERISTIKY
Charakteristiky variability
Lineární regresní analýza
Biostatistika 4. přednáška
Charakteristiky variability
Popisná statistika III
Teorie psychodiagnostiky a psychometrie
Experimentální fyzika I. 2
Popisné statistiky. Výskyt strupovitosti se zdá být ve vztahu s obsahem některých chemických prvků “ve slupkách“ hlíz. Některé odrůdy trpí strupovitostí.
Na co ve výuce statistiky není čas
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
PSY717 – statistická analýza dat
RNDr. Monika Pávková Goldbergová
(Popis náhodné veličiny)
© Tom Vespa STATISTICKÉ ZPRACOVÁNÍ DAT (JEDNOROZMĚRNÉ SOUBORY)
… jak jsem na tom ve srovnání s ostatními?
Popisná analýza v programu Statistica
Inferenční statistika - úvod
Popisná statistika úvod rozdělení hodnot míry centrální tendence
Základy popisné statistiky
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
Základy statistiky Základní pojmy. Základy statistiky Statistiku můžeme chápat jako činnost - získávání stat. údajů, jejich zpracování a vyhodnocení jako.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
Popisné charakteristiky statistických souborů. ZS - přesné parametry (nelze je měřením zjistit) VS - výběrové charakteristiky (slouží jako odhad skutečných.
Popisná statistika I tabulky četností
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
t-test Počítání t-testu t statistika Měření velikosti efektu
Induktivní statistika
Normální rozložení Intervalová/poměrová proměnná
Statistika 2.cvičení
STATISTICKÉ ZPRACOVÁNÍ DAT (JEDNOROZMĚRNÉ SOUBORY)
Popisná analýza v programu Statistica
STATISTICKÉ CHARAKTERISTIKY
Induktivní statistika
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Prostorová analýza – Seminář 2 popisné statistiky, korelace
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Deskriptivní statistika
Kapitola 3: Centrální tendence a variabilita
Metodologie pro ISK 2 Úvod do práce s daty
Výukový materiál zpracován v rámci projektu EU peníze školám
Střední škola obchodně technická s. r. o.
Analýza kardinálních proměnných
Induktivní statistika
Základy statistiky.
Základy popisné statistiky
Transkript prezentace:

Popisná statistika: přehled Míry střední hodnoty Modus Medián Průměr * Míry rozptýlenosti Rozpětí Inter-kvartilové rozpětí Rozptyl Směrodatná odchylka * Míry symetrie Šikmost Míry polohy Percentil Diferenční skór Z-skór *

Centrální tendence Poskytuje jednu hodnotu, která reprezentuje celé rozložení dat

Centrální tendence Hodiny spánku

Centrální tendence Příjem v dolarech (1000)

Centrální tendence Poskytuje jednu hodnotu, která reprezentuje celé rozložení dat. Typické míry (charakteristiky) jsou modus medián průměr

Modus Nejčastěji se vyskytující hodnota Odpovídá nejvyššímu bodu histogramu nebo frekvenční funkce Pro daný výběr N=16: 33 35 36 37 38 38 38 39 39 39 39 40 40 41 41 45 Modus = 39 Skór

Modus Modus není citlivý k vychýleným hodnotám Pro daný výběr N=16: 33 35 36 37 38 38 38 39 39 39 39 40 40 41 41 50 Modus = 39 Hodnota

Modus Rozložení může mít více vrcholů Pro daný výběr N=16: 34 34 35 35 35 35 36 37 38 38 39 39 39 39 40 40 Modus = 35 a 39 Hodnota

Modus Nemusí být jediný nebo definovaný= rektangulární rozložení Pro daný výběr N=16: 33 33 34 34 35 35 36 36 37 37 38 38 39 39 40 40 Není určený Hodnota

Medián Údaj, který dělí rozložení na polovinu 50% percentil Pro N = 15 medián je devátá hodnota = 37 Hodnota

Medián Pro N = 16 medián je průměr osmého a deváté hodnoty = 37.5 Hodnota

Průměr Znamená, co lidé obvykle považují za střední hodnotu. Součet hodnot vydělený jejich počtem. Pro výběr: Po populaci: Změna jedné hodnoty nemění medián a modus, ale mění průměr.

Průměr __ V mnoha případech dáváme přednost průměru, jde o popis hodnot i odhad parametru. X=7.07 Aby to mělo smysl, musí se jednat o intervalovou škálu. 1 2 3 4 5 Budhista Protestant Katolík Žid Muslim Hodnota Frequency X=2.4 __ Hodiny spánku Hodnota

Průměr X=36.8 __ X=36.5 __ X=93.2 __ Hodnota Hodnota Průměr je citlivý k extrémním hodnotám a je vhodný pro symetrická rozložení. Příjem

Symetrie (pro jednovrcholové) Hodiny spánku symetrické rozložení není šikmé pro symetrické rozložení platí Průměr = Medián = Modus (pro jednovrcholové) Hodiny spánku

Šikmá rozložení Šikmost označuje asymetrii rozložení Kladně sešikmené rozložení je asymetrické a prodloužené do kladných hodnot. medián modus průměr Modus = 70,000$ Medián = 88,700$ Průměr = 93,600$ Příjem modus < median < průměr

Šikmá rozložení Záporně sešikmené rozložení medián průměr modus modus > medián > průměr Hodnota

Míry střední hodnoty + - Modus Medián Průměr rychlá & jednoduše vypočtená užitečná pro nominální data Špatná výběrová stabilita Medián není ovlivněná extrémními hodnotami, jasná interpretace Poměrně slabá výběrová stabilita Průměr výběrová stabilita vztah k rozptylu Nevhodná pro diskrétní data Ovlivněná sešikmeným rozložením

Rozložení Centrální hodnota: modus, medián, průměr Tvar: symetrické, sešikmené Rozptýlenost Hodnota

Míry rozptýlenosti rozptýlenost skórů od středu rozložení skórů je velmi variabilní, jestliže hodnoty se navzájem velmi liší Tři statistiky měří variabilitu rozpětí interkvartilové rozpětí rozptyl

Rozpětí Nejvyšší minus nejnižší hodnota (R) Obě mají stejné rozpětí (80), ale vypadají jinak Moc neříká o tom, jak jsou rozptýlené kolem středu. Velmi ovlivněná vychýlenými hodnotami. Hodnota

Interkvartilové rozpětí Vzdálenost mezi 25% percentilem a 75% percentilem Q3-Q1 = 70 - 30 = 40 Q3-Q1 = 52.5 - 47.5 = 5 Ignoruje extrémy Nebere v úvahu 50% rozložení Hodnota

Míry rozptýlenosti a rozdílu Skór Rozdíl Amálka 10 -40 Václav 20 -30 Jan 30 -20 Jiří 40 -10 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 Průměr Posuzujeme vzdáleností od průměru Skóry dále od průměru mají větší rozdílový skór

Míry rozptýlenosti a rozdílu Hodnota Rozdíl Amálka 10 -40 Václav 20 -30 Jan 30 -20 Jiří 40 -10 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 SUMA Abychom posoudili rozdílnosti, můžeme vypočítat průměr rozdílů, ale vždy dostaneme nulu.

Míry rozptýlenosti a rozdílu Hodnota Rozdíl Čtverec rozdílů Amálka 10 -40 1600 Václav 20 -30 900 Jan 30 -20 400 Jiří 40 -10 100 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 Suma 6000 Raději umocníme vypočtené rozdíly od průměru Spočteme součet čtverců (SS) __ SS= ∑(X-X)2

Rozptyl Spočteme průměr SS a dostaneme rozptyl Pro populaci: Pro výběr: (korekce na dopočtenou hodnotu průměru)

Rozptyl Spočtene průměr. Odečteme průměr od hodnot. Spočteme čtverce. Hodnota Rozdíl Čtverec rozdílů Amálka 10 -40 1600 Václav 20 -30 900 Jan 30 -20 400 Jiří 40 -10 100 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 Suma 6000 6000/8=750 Spočtene průměr. Odečteme průměr od hodnot. Spočteme čtverce. SS. Podělíme SS hodnotou N nebo N-1.

Směrodatná odchylka Standardní odchylka (směrodatná odchylka) je odmocnina z rozptylu Směrodatná odchylka měří rozptýlenost v původních jednotkách, kdežto rozptyl to činí ve mocninách jednotek. Rozptyl se používá v inferenční statistice. Směrodatná odchylka je vhodná popisná statistika.

Příklad N = 28 X = 50 s2 = 140.74 s = 11.86 N = 28 X = 50 s2 = 555.55 Hodnota

Popisná statistika: přehled Míry polohy Modus Medián Průměr * Míry rozptýlenosti Rozpětí Inter-kvartilové rozpětí Rozptyl Směrodatná odchylka * Míry symetrie Šikmost

Popisná statistika: přehled Pro populaci: Pro výběr: Průměr Rozptyl Směrodatná odchylka

Cvičení Jde o výběr, vypočteme: Modus, medián, průměr Rozpětí, rozptyl, směrodatnou odchylku

Míra šikmosti Pro populaci Pro výběr

Popisná statistika: přehled Centrální hodnoty Modus Medián Průměr * Míry rozptýlenost Rozpětí Inter-kvartil Rozpětí Rozptyl Směrodatná odchylka * Míry symetrie Šikmost Míry polohy Percentil Diferenční skór Z-skór *

Míry polohy Jak popsat hodnotu vzhledem k rozložení?

Míry polohy Kvantil Diferenční skór Z-skór

Kvantily Kvartil Rozděluje seřazené hodnoty na čtyři stejné díly 25% (minimum) (maximum) (medián)

Kvantily Decil 10% Rozděluje seřazené hodnoty na deset stejných dílů

Kvantily Percentilové pořadí Rozděluje seřazené hodnoty na sto stejných dílů Počet skórů menších než x Percentilová hodnota x = • 100 Celkový počet hodnot

Rozdílové skóry Pro populaci: Pro výběr: Hodnota Rozdíl Amálka 10 -40 Václav 20 -30 Jan 30 -20 Jiří 40 -10 Hana 50 Karla 60 Petr 70 Markéta 80 Josef 90 Průměr Pro populaci: Pro výběr:

Jak postupovat při srovnání, jestliže máme různé průměry a směrodatné odchylka? Příklad 9 studentů má naměřené hodnoty dvěmi různými testy Hodnoty jsou na různých škálách

9 studentů a dva testy Test 1 Test 2 Amálka 10 1 Václav 20 2 Jan 30 3 Jiří 40 4 Hana 50 5 Karla 60 6 Petr 70 7 Markéta 80 8 Lulu 90 9 Průměr

9 studentů a dva testy Test 1 Test 2 Diferenční hodnota 1 Amálka 10 1 -40 -4 Václav 20 2 -30 -3 Jan 30 3 -20 -2 Jiří 40 4 -10 -1 Hana 50 5 Karla 60 6 Petr 70 7 Markéta 80 8 Josef 90 9 Průměr

z-skóry Z-skóry modifikují rozložení dat tak, že se pohybují kolem nuly a směrodatnou odchylku mají 1. Odečteme průměr od hodnoty a pak dělíme směrodatnou odchylkou Pro populaci: Pro průměr:

z-skóry Test 1 Test 2 z- hodnota 1 z-hodnota 2 Amálka 10 1 -1.5 Václav 20 2 -1.2 Jan 30 3 -.77 Jiří 40 4 -.34 Hana 50 5 Karla 60 6 .34 Petr 70 7 .77 Markéta 80 8 1.2 Josef 90 9 1.5 Průměr Sm.odch. 25.8 2.58

z-skóry Rozložení z-skórů… Vždy má průměr nulu Vždy má směrodatnou odchylku 1 Konverze nemění tvar rozložení: z-skóry nemohou non-normální rozložení převádět na normální rozložení Z-skór se intepretuje jako počet směrodatných odchylek nad nebo pod průměrem

Cvičení Při třetím testu průměr třídy byl 45 a směrodatná odchylka 6. Doplňte zbytek. Test 3 Z-skór Amálka 52 Václav 39 Jan -1.5 Jiří 1.3

Popisná statistika: rychlý přehled Pro populaci: Pro průměr: Průměr Rozptyl Směr. odchylka Z-skór