Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou konkrétní hodnoty náhodné veličiny. (je dána pravděpodobnost, s níž o hypotéku žádá 30-letý jedinec) X může být definována popsána též svými momenty. Často se předpokládá, že rozdělení pravděpodobností je normální. K definování normálního rozdělení (jeho hustoty, tj. k definování rozdělení pravděpodobností) stačí střední hodnota a směrodatná odchylka . Problém je, že a nejsou známy. Tím nejsme schopni definovat náhodnou veličinu X. Statistika umožňuje na základě výběrového šetření charakterizovat teoretickou Náhodnou veličinu X.
Náhodný výběr. Je to posloupnost nezávislých, stejně rozdělených náhodných veličin X 1, …, X n. Mluvíme o výběru z určitého rozdělení (z toho, které je společné posloupnosti náhodných veličin a i teoretické náhodné veličině X). (X i je definována rozdělením pravděpodobností věku i-tého žadatele) n je rozsah výběru Všichni potenciální žadatelé (tj. všichni ti, kteří mohou žádat o hypotéku) tvoří základní prostor. Vzorek n náhodně vybraných žadatelů tvoří statistický prostor. Definujeme výběrové náhodné veličiny : výběrový průměr: výběrová variance (rozptyl): výběrová směrodatná odchylka:, častěji se používá Výběrové charakteristiky jsou také náhodné veličiny, můžeme definovat jejich střední hodnoty (střední hodnota se označuje E, variance var).
Platí: Jestliže náhodný výběr rozsahu n pochází z rozdělení charakterizovaného střední hodnotou a variabilitou 2, pak střední chyba průměru (standard error of mean, S.E.) S rostoucím rozsahem výběru se snižuje kolísání průměru. Rozlišujeme mezi S.D. a S.E. Náhodná veličina X: “Věk žadatele o hypotéku“ Náhodný výběr X i, i=1, …, 12: “věk i-tého žadatele o hypotéku“. Realizace náhodné veličiny = statistický soubor: dvanáct údajů o věku žadatelů o hypotéku: 42, 25, 25, 25, 24, 25, 28, 39, 32, 31, 28, 23. Příklad. Výběrové charakteristiky jsou náhodné veličiny, které v jistém smyslu aproximují charakteristiky náhodné veličiny X, což jsou čísla (nenáhodná).
Rozsah výběru: n = 12 Výběrová střední hodnota: Výběrová variance: Charakteristiky polohy a variability statistického souboru: =(42, 25, 25, 25, 24, 25, 28, 39, 32, 31, 28, 23)/12 =28.92 = Charakteristika přesnosti odhadu: Střední chyba průměru (S.E.): = Střední chyba průměru tvoří 10.7% hodnoty průměru. Pro zmenšení této chyby je nutno zvětšit rozsah výběru. Poznámka. Další možnost, jak charakterizovat variabilitu vzorku je variační koeficient Používá se v případech, kdy je nutno porovnávat variabilitu vzorků s rozdílnými výběrovými středními hodnotami.
Frekvenční histogramy = histogramy četností: Další možnosti charakterizace náhodné veličiny pomocí náhodného výběru.
Polygon pro absolutní četnosti: Aproximace distribuční funkce (ogive):
Kvantily. Jestliže F je distribuční funkce náhodné veličiny X, tj. například pro spojitou náhodnou veličinu je,, Pak p- kvantil je definován jako p = 0.25 x 0.25 je dolní kvartil p = 0.5 x 0.5 je medián p = 0.75 x 0.75 je horní kvartil x p = 190 p = 0.101, počet je 200*0.101=10.1. Zaokrouhlit je nutno na 10 jedinců. x p = 190 p = – = Příklad. Nechť výška 18-letých mužů je popsána normálním rozdělením se střední hodnotou = 176 cm a variabilitou 2 = 121. Kolik je mezi 200 muži jedinců nad 190 cm? S jakou pravděpodobností je náhodně vybraný muž vyšší než 160 cm a nižší než 200 cm?
Cvičení. Následující posloupnost čísel představuje výsledky série sto dvaceti hodů hrací kostkou: Definujte rozdělení náhodných veličin Xi, i =1,…,6: “padne číslo i“. Vypočítejte charakteristiky středu a variability, určete přesnost odhadu středu. Vypočítejte median, dolní a horní kvartil. Vypočítejte a nakreslete graf absolutních a relativních četností.