Třídění dat OA a VOŠ Příbram
Třídění rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů uspořádání údajů do přehledné formy včetně jejich zhuštění jednostupňové – podle obměn jednoho znaku vícestupňové – podle obměn více znaků najednou
Prosté rozdělení četností nespojité statistické znaky údaje uspořádáme do rostoucí posloupnosti a každé hodnotě znaku přiřadíme počty (četnosti) příslušných statistických jednotek Četnosti lze vyjádřit různým způsobem: absolutní četnost n i – skutečný počet jednotek; udává, kolikrát se která hodnota znaku v souboru vyskytuje; jejich součet je roven rozsahu souboru
relativní četnost p i – pro porovnávání různých rozdělení, nejčastěji se vyjadřuje v % kumulativní četnost – absolutní (kn i ), relativní (kp i ) podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má variantu znaku menší nebo rovnou určité dané obměně kn 1 = n 1 kn 2 = n 1 + n 2 kn3 3 = n 1 + n 2 + n 3
Intervalové rozdělení četností znak spojitý nebo diskrétní s velkým počtem obměn Je nutno řídit se několika pravidly: Počet intervalů musí být takový, aby vynikly podstatné a charakteristické rysy souboru stanovení počtu intervalů nebo dle Sturgesovo pravidla
délka intervalu – spíše stejná R = variační rozpětí (R = x max – x min ) - extrémní hodnota – otevřené intervaly Při zařazování jednotlivých hodnot znaku do intervalů musí být jednoznačně určeno, kam kterou jednotku zařadit.
Příklad Máme k dispozici údaje o výdajích (Kč) vybraných domácností. Uvedená data je potřeba setřídit do přehlednější formy. Sice jde o znak diskrétní, ale nabývá velkého počtu obměn. Proto bude vhodné uspořádat daný soubor do intervalového rozdělení četností.
Nejprve určíme počet intervalů. V případě použití Sturgesova pravidla je počet intervalů zhruba stejný. Zde je potřeba zvážit, jaký počet intervalů požadujeme. Vhodnější bude zvolení 6 intervalů. Dále určíme šířku intervalu.
Vzhledem k hodnotě, která vychází, je optimální zaokrouhlovat na celá čísla, v tomto případě na hodnotu Následně je důležité správně určit počátek prvního intervalu (blízko nejmenší hodnoty).
Určení středu intervalu Je možné určit jako průměr dolní a horní meze v rámci jednoho intervalu nebo v případě stejně širokých intervalů jako průměr dvou po sobě jdoucích mezí. Univerzální způsob Použitelné pouze tehdy, jestliže všechny intervaly mají stejnou šířku.
Základní pojmy Tabulka rozdělení četností – příklad