Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

MATEMATICKÉ METODY VYHODNOCOVÁNÍ EXPERIMENTŮ Miroslav Pokorný.

Podobné prezentace


Prezentace na téma: "MATEMATICKÉ METODY VYHODNOCOVÁNÍ EXPERIMENTŮ Miroslav Pokorný."— Transkript prezentace:

1 MATEMATICKÉ METODY VYHODNOCOVÁNÍ EXPERIMENTŮ Miroslav Pokorný

2 A. Statistika a pravděpodobnost Všechny lidské aktivity jsou provázeny a ovlivňovány výskytem jevů. S ohledem na možnost jejich existence je dělíme na jevy: - jisté - systémem podmínek je vždy zaručeno uskutečnění jevu - nemožné - systémem podmínek je uskutečnění jevu zcela vyloučeno - náhodné - za daného systému podmínek mohou, ale nemusí nastat Procesy měření a šetření jsou spojeny se specifickou třídou jevů, nazývaných chybami měření. Ty lze dělit podle příčin jejich vzniku na: 1. Chyby systematické - jsou vázány na čas nebo parametry měřicího procesu. Jsou předvídatelné a zvyšují nebo snižují výsledek měření o konstantní hodnotu. Lze je ovlivnit volbou dokonalejší měřicí metody nebo přístroje. 2. Chyby nahodilé - mají pravděpodobnostní charakter, nedají se předvídat a jsou popsány statistickými charakteristikami. Jejich příčiny nelze odstranit, pouze omezit.

3 Náhodná veličina a náhodný jev Náhodná veličina X – počet pracovníků, přítomných na pracovišti v pondělí v 10hod dopoledne Náhodný jev A - je přítomno 15 pracovníků Pravděpodobnost náhodného jevu A 0  P(A)  1 Relativní četnost jevu n – celkový počet pokusů m – počet pokusů, při nichž jev A nastal Statistická pravděpodobnost jevu

4 Datové soubory náhodné veličiny X Úplný soubor dat – vyhodnocením získáme číselné charakteristiky Výběrový soubor dat – vyhodnocením získáme statistické odhady číselných charakteristik Při instrumentálních měřeních získáváme náhodný výběr dat, jehož prvky (jednotlivá měření, pozorování) jsou uvažovány jako realizace náhodné veličiny X. Podstatné je získat tzv. reprezentativní náhodný výběr (datový soubor), který je základním předpokladem korektnosti výsledků jeho vyhodnocení při použití statistických metod.

5 Vlastnosti reprezentativního datového souboru Vlastnosti reprezentativního výběru (výběrového datového souboru): - vzájemná nezávislost jednotlivých prvků výběru - homogenita výběru, podmíněná tím, že všechny prvky výběru pocházejí ze stejného typu rozdělení hustoty pravděpodobnosti - stejná pravděpodobnost všech prvků, že budou do výběru zařazeny

6 Ověření předpokladů o datech Ověření předpokladu nezávislosti prvků výběru - statistický test – viz dále Ověření homogenity výběru – diagram rozptýlení, histogram Stejná pravděpodobnost všech prvků – plán a organizace sběru dat Ověření normality výběru - statistický test – viz dále

7 Funkční charakteristiky náhodné veličiny X Distribuční funkce (spojité) náhodné veličiny X Funkce rozložení hustoty pravděpodobnosti (spojité) náhodné veličiny X

8 Číselné charakteristiky náhodné veličiny Funkční charakteristiky jsou často obtížně dosažitelné a navíc i málo přehledné. Pro lepší představu o chování náhodné veličiny proto hledáme častěji její číselné charakteristiky, které jsou významnými parametry jejích charakteristik funkčních. 1. Charakteristiky polohy nás informují o střední hodnotě (středu) rozdělení. 2. Charakteristiky rozptýlení (variability) udávají, v jak velké míře kolísají (jsou rozptýleny) hodnoty náhodné veličiny kolem střední hodnoty. Patří sem např. disperze (rozptyl) a směrodatná odchylka. 3. Charakteristiky tvaru, tedy šikmosti (asymetrie) - které udávají nesouměrnost hodnot náhodné veličiny vzhledem k její střední hodnotě - a špičatosti (excesu), které hodnotí, jak dalece je křivka funkce rozložení hustoty pravděpodobnosti ve střední hodnotě špičatá. Patři sem koeficient šikmosti (asymetrie) resp. koeficient špičatosti (excesu).

9 Obecná definice číselných parametrů (momentů) Střední hodnota funkce Rozptyl (disperze) funkce Směrodatná (standardní) odchylka

10 Kvantily Kvantily jsou zvláštním druhem číselných charakteristik polohy. p-procentní kvantil je taková hodnota náhodné veličiny X, která má tu vlastnost, že pod ní leží p% procent prvků náhodného výběrového souboru. p – (procentní) kvantil 0,5 - kvantil

11 B. Předsledná analýza dat Cíle předběžné analýzy naměřených dat Prvotním úkolem při statistickém rozboru výběrového souboru musí být etapy ověření vlastností tohoto souboru a potvrzení, případně zajištění jeho reprezentativnosti. Ověření vlastností výběrového souboru provádíme pomocí robustních metod, které jsou zahrnuty do tzv. průzkumové (předběžné, explorační, exploratorní) analýzy. Průzkumová analýza poskytuje také mnohé možnosti ke zlepšení vlastností výběrového datového souboru, což vede k získání lepších výsledků statistické analýzy. Cílem předběžné průzkumové analýzy dat je prvotní zhodnocení jejich vlastností a stanovení předpokladů pro jejich korektní následné statistické zpracování.

12 Grafy identifikace vlastností výběrového souboru Diagram rozptýlení Krabicový graf

13 Histogram Počet tříd (empiricky) zde L = 8

14 Vybraná rozdělení hustoty pravděpodobnosti Rovnoměrné (rektangulární) rozdělení Normální (Gaussovo) rozdělení

15 Exponenciální jednostranné rozdělení Umělá rozdělení Studentovo t-rozdělení Fischerovo F-rozdělení Gama rozdělení Chí-kvadrát rozdělení jejich (tabelizované) kvantily jsou použity v proceduách statistické analýzy – viz dále

16 Ukázka histogramů vybraných rozdělení a) rovnoměrné b) normální c) exponenciální d) Laplaceovo

17 Předsledná analýza v programovém systému MATLAB – Statistic ToolBox Příklady uvedeny v materiálech Statistické výpočty v MATLABu příkazů a ukázky řešených úloh Statistické výpočty v MATLABU – Statistic ToolBox stručný manuál

18 C. Vlastní statistická analýza dat Cíle statistické analýzy dat – Statistickou analýzou rozumíme řadu procedur, kterým podrobujeme výběrový soubor, abychom stanovili odhady parametrů základního souboru, z něhož výběr pochází. Naším cílem je, aby odhady parametrů se co nejvíce blížily přesným (deterministickým) hodnotám parametrů (které bychom získali pouze statistickou analýzou úplného datového souboru s nekonečně velkým rozsahem). – Pro správnost a přesnost výsledků statistické analýzy je podstatné odhalení všech zvláštností výběrového souboru a jeho případná úprava na základě výsledků předsledné (průzkumové, exploratorní) analýzy, kterou jsme se zabývali v minulé části. Bez této etapy vyhodnocení dat mohou být výsledky statistické analýzy nekorektní, zcela bezcenné a zavádějící.

19 Bodové odhady - číseln é parametr y náhodné veličiny Výběr je dostatečně podrobně charakterizován: a) informací o střední hodnotě velikosti prvků (střední hodnota náhodné veličiny) b) informaci o rozptýlení prvků kolem střední hodnoty (rozptyl náhodné veličiny) c) tvarem výběrového rozdělení (koeficient šikmosti a špičatosti)

20 Normální (Gaussovo) rozložení hustoty pravděpodobnosti % - interval, v něm leží hodnota náhodné veličiny X s pravděpodobností P(X) = 0,62 % - interval, v něm leží hodnota náhodné veličiny X s pravděpodobností P(X) = 0,95 Analytické vyjádření Gaussovy funkce Odhad střední hodnoty Odhad rozptylu

21 Stanovení minimální velikosti výběru Např.při požadavku: chyba odhadu parametrů  = 0,1 (tj.10%) Typ rozložení rovnoměrné21 normální51 exponenciální126 Laplaceovo176 logonormální351

22 Intervalové odhady číselných parametrů náhodné veličiny Intervalový odhad definuje číselné rozmezí, ve kterém se bude se zadanou pravděpodobností P = (1 -  ) nacházet skutečná hodnota daného parametru . V případě bodového odhadu byl neznámý parametr  určen jedinou číselnou hodnotou; v případě odhadu intervalového je určen dvěma hraničními hodnotami L1 a L2, které tvoří meze tzv. konfidenčního intervalu (neboli intervalu spolehlivosti): kde P je tzv. koeficient spolehlivosti (konfidenční koeficient, statistická jistota) a parametr  se nazývá hladina významnosti. Rovnice tak představuje tvrzení, že pravděpodobnost, s níž se bude skutečná hodnota  nacházet v mezích L1 a L2, je rovna právě ( 1 -  ).

23 Intervaly spolehlivosti se vyznačují těmito vlastnostmi: a) čím je rozsah výběru n větší, tím je interval spolehlivosti užší b) čím je odhad přesnější a má menší rozptyl, tím je interval užší c) čím vyšší je statistická jistota (1-  ) tím je interval spolehlivosti širší Pro konstrukci intervalu spolehlivosti musíme znát buď typ rozdělení daného náhodné veličiny. Jako příklad uvedeme konstrukci konfidenčního intervalu střední hodnoty  normálního rozdělení. Nejlepším bodovým odhadem střední hodnoty  je výběrový aritmetický průměr V intervalu pak leží skutečná střední hodnota µ s pravděpodobností

24 D. Testování statistických hypotéz Metoda statistických testů V průběhu průzkumové i statistické analýzy vyslovujeme různé předpoklady o vlastnostech a zvláštnostech jednoho výběrového souboru nebo vyslovujeme hypotézy o vzájemných proporcích vlastností dvou souborů při jejich porovnávání. Takové předpoklady nazýváme statistické hypotézy a jejich platnost ověřujeme tzv. testy (platnosti/neplatnosti) vyslovených statistických hypotéz.

25 Při ověřování (testování) hypotézy postupujeme vždy standardním způsobem, který má tyto kroky: 1. Zformulujeme nulovou hypotézu H 0 a alternativní hypotézu H A podle povahy problému. 2. Zvolíme hladinu významnosti testu . 3. Zvolíme testovací statistiku, (tj. funkci hodnot náhodného výběru) se známým rozdělením pravděpodobnosti. 4. Určíme kritický obor hodnot testové statistiky na základě jejího rozdělení pravděpodobnosti a zvolené hladiny významnosti . 5. Vytvoříme náhodný výběr, vypočítáme hodnotu testovací statistiky (tato hodnota se někdy nazývá testovací kritérium) a určíme její kvantily, které tvoří meze kritického oboru (tzv. kritické hodnoty). 6. Rozhodneme o zamítnutí H 0 a přijetí H A v případě, že hodnota testovacího kritéria padne do kritického oboru. 7. Rozhodneme naopak, pokud hodnota testovacího kritéria do oboru kritického nepadne.

26 Testy o reprezentativnosti výběrového souboru Ověření předpokladu nezávislosti prvků výběru Nulová hypotéza: Alternativní hypotéza: Testovací statistika prvky výběru jsou nezávislé prvky výběru jsou závislé

27 Stanovení a použití kritického oboru. Platí-li: je nutno hypotézu o nezávislosti prvků výběru na hladině významnosti odmítnout (hypotéza o nezávislosti prvků výběru neplatí), přičemž je (1- α/2) kvantil Studentova t-rozdělení s (n-1) stupni volnosti (nalezneme ve statistických tabulkách).

28 Ověření normality výběru Testovací statistika kde výběrové šikmosti a špičatosti resp. jejich rozptyly a jejich střední hodnota jsou dány vztahy: výběr pochází z normálního rozložené výběr nepochází z normálního rozložení

29 Definice a použití kritického oboru. Je ‑ li je nutno hypotézu o normalitě rozdělení výběru odmítnout a výběr nelze považovat jako soubor s Gaussovým rozdělením, přičemž. je kvantil rozdělení se 2 stupni volnosti (nalezneme ve statistických tabulkách)

30 Testy hypotéz o statistických parametrech jednoho souboru Testy hypotéz o parametrech  a normálního rozdělení. Nulová hypotéza: Alternativní hypotéza Testovací statistika Kritický obor a jeho použití. Platí-li je nutno nulovou hypotézu o velikosti střední hodnoty zamítnout.

31 Nulová hypotéza: Alternativní hypotéza: Testovací statistika Stanovení a použití kritického oboru. Platí-li je nutno nulovou hypotézu o velikosti rozptylu zamítnout.

32 Testy hypotéz o statistických parametrech dvou souborů Hypotéza H 0 je na hladině významnosti  zamítnuta tehdy, pokud: a) v případě, že platíje testovací statistika rovna Předem je třeba povést test hypotézy o shodě rozptylů obou souborů – viz dále.

33 b) v případě, že platí Kritický obor a jeho použití. Platí-li je nutno nulovou hypotézu o shodě středních hodnot zamítnout. je testovací statistika rovna

34 Platí-li je nulová hypotéza H 0 o shodě rozptylů na hladině významnosti  zamítnuta, přičemž Nulová hypotéza: Alternativní hypotéza: Testovací statistika Je (1- α/2) kvantil Fischerova rozdělení s stupni volnosti (nalezneme ve statistických tabulkách) Předsledný test hypotézy o shodě obou rozptylů

35 E. Robustní metody statistické analýzy Robustní odhady parametrů Při narušení předpokladu normality dat, což je obvykle způsobeno vybočujícími hodnotami měření, nebo nejistoty v rozložení dat, lze získat efektivní odhady parametrů s využitím tzv. robustních metod. neurčují běžně odhady rozptylů, ani meze intervalů spolehlivosti Medián a jeho rozptyl Příkladem robustního odhadu polohy je medián. Má přesnou interpretaci pro symetrická i nesymetrická rozdělení. Jde vždy o 50% kvantil, kdy polovina prvků leží pod a polovina nad jeho hodnotou. Modus Střední prvek výběrového souboru

36 Vyhodnocení malých výběrů n=2 Pro ní konfidenční interval střední hodnoty je možno použít vztahu: n=3 Pro ní konfidenční interval střední hodnoty lze použít vztahu:

37 4

38 podle toho, které z H bude celé číslo. Dolní a horní pivoty jsou pak

39 F. Zkoumání statistických závislostí Závislost náhodných veličin X a Y

40 Zkoumáním stupně statistické závislosti mezi náhodnými veličinami se zabývá korelační analýza. Stupeň těsnosti (lineární) vazby mezi dvěma náhodnými veličinami hodnotíme velikostí koeficientu korelace. Uvažujme dvě náhodné veličiny X a Y, které jsou reprezentovány svými výběrovými soubory naměřených hodnot a, i = 1, …, n Párový (Pearsonův) koeficient korelace R XY vypočteme podle vztahu: Korelační koeficient R XY může nabývat hodnot z uzavřeného intervalu. Čím je korelační koeficient bližší hodnotě 1, tím je závislost náhodných veličin vyšší.

41 Náhodné procesy Náhodný proces zohledňuje průběh velikosti vlastností náhodné veličiny v čase. Je charakterizován množinou svých realizací.

42 Chceme-li získat popis náhodného procesu, musíme uvažovat minimálně dva řezy ve zvolených okamžicích, např. t1 a t2. Pro tuto dvojici pak budeme definovat všechny pravděpodobnostní charakteristiky, které popisují systém dvou náhodných veličin a) dvojrozměrnou (simultánní) integrální funkci: b) dvojrozměrnou (simultánní) hustotu rozdělení:

43 a) střední hodnota náhodného procesu ve zvoleném okamžiku tn b) rozptyl (disperze) náhodného procesu ve zvoleném okamžiku tn c) kovarianci můžeme definovat pro dva řezy v okamžicích t 1 a t 2 Praktickou důležitost má střední hodnota ze součinů hodnot náhodného procesu ve zvolených okamžicích t1 a t2 – autokorelační funkce

44 Autokorelační funkce vyjadřuje vnitřní strukturu náhodného procesu, je mírou závislosti mezi okamžitými hodnotami náhodného procesu ve dvou řezech. Korelační funkce je mírou závislosti mezi okamžitými hodnotami mezi dvěma různými náhodnými procesy.

45 Typy náhodných procesů Stacionární náhodné procesy jsou takové náhodné procesy, jejichž funkce rozdělení libovolného řádu jsou časově invariantní (nezávislé na volbě počátku času). Funkce rozdělení jsou shodné pro libovolnou hodnotu. Ergodické náhodné procesy jsou pak takové stacionární náhodné procesy, u nichž při sledování jednoho řezu dostatečně velkého množství realizací se projeví všechny možné stavy tohoto procesu téměř ve stejných poměrech, v jakých se projeví při pozorování jediné, dostatečně dlouhé realizace tohoto procesu. Pravděpodobnostní charakteristiky ergodického náhodného procesu lze tedy určit z jediné dostatečně dlouhé realizace tohoto procesu. a) střední hodnota ergodického náhodného procesu:

46 b) rozptyl ergodického náhodného procesu u(t): c) autokorelační funkce ergodického náhodného procesu u(t): d) vzájemnou korelační funkci ergodických procesů u(t) a v(t):

47 G. Ekonomická statistika Statistika a ekonomie Aplikací statistických metod na ekonomická a sociálně ekonomická data vznikla samostatná statistická disciplína – ekonomická statistika. Předmětem ekonomické statistiky je analýza stavu a vývoje jevů v hospodářské oblasti jako východiska k hospodářskému rozhodování či stanovení hospodářské politiky. Statistickými jednotkami mohou být například: osoby - např. pracovníci firmy, studenti, voliči, organizace - např. podniky, obce, školy, věci - např. stroje, výrobky, budovy, události - např. úrazy, meteorologické jevy, poruchy.

48 Statistické jednotky se obvykle vymezují z hlediska: věcného - např. osoba mužského pohlaví prostorového - např. občan České republiky časového - např. jedinec, který letos dosáhne alespoň 18 let. Ve statistickém zjišťování rozlišujeme dva typy objektů: úplný objekt (populace) – obsahuje všechny existující vymezené statistické jednotky, výběrový objekt (vzorek) – vybraná část populace, která se podrobuje statistickému šetření. Výběrový objekt (vzorek): - výběrové šetření je méně náročné na čas i finanční prostředky - úplný objekt nemusí být vždy celý dostupný - některé průzkumy mohou testované jednotky znehodnotit (např. degustace).

49 Podle způsobu zobrazení hodnot s tatistické znaky dělíme na: znaky kvalitativní – jsou vyjádřeny slovně a obvykle představují určitou vlastnost (např. pohlaví, typ podnikání, apod.) znaky kvantitativní – jsou vyjádřeny číselně (číselná data) a obvykle představují množství nebo velikost (např. počet studentů v ročníku, cena výrobku, apod.). Podle způsobu zpracování dělíme statistické znaky na: znaky nominální – obvykle jsou vyjádřeny kvalitativně, znaky jsou rovnocenné, tj. nelze je navzájem porovnávat ani seřadit do hodnotové stupnice (např. rodinný stav nebo typ podnikání), znaky ordinální – bývají rovněž vyjádřeny kvalitativně, jednotlivým znakům lze přiřadit pořadí a navzájem je porovnávat nebo seřadit (např. dosažené vzdělání nebo jakostní třída výrobku), znaky metrické – jsou vyjádřeny výhradně kvantitativně, jejich varianty jsou plnohodnotná výška osoby nebo počet prodaných výrobků za týden.

50 Podle počtu variant rozlišujeme statistické znaky: alternativní – mohou nabývat pouze dvou různých hodnot (např. muž – žena, ano – ne), množné – nabývají více než dvou hodnot, jsou variantní.

51 Statistické ukazatele a šetření Podle charakteru rozlišujeme ukazatele: přímo zjistitelné – jde o statistické znaky, které daná statistická jednotka přímo vykazuje, například ze svého účetnictví, odvozené (agregované) – tyto ukazatele lze vypočítat na základě daných pokynů z jiných ukazatelů - např. průměrný plat, úhrnná produkce apod. Podle typu měrových jednotek můžeme členit ukazatele na: naturální – jsou vyjádřeny v množstevních či objemových jednotkách – např. kusech, kilogramech, hektolitrech apod., hodnotové – jsou vyjádřeny v peněžních jednotkách - korunách, eurech, dolarech apod.

52 Podle periodicity zjišťování dělíme ekonomické ukazatele na: krátkodobé – měsíční a čtvrtletní (kvartální), dlouhodobé – roční. Základní formy statistického zjišťování jsou: pozorování dotazování (včetně výkaznictví) experiment sekundární výzkum.

53 H.Organizace statistických experimentů a šetření Přípravná etapa – definice problému Etapa sběru dat – vytvoření výběrového souboru dat cestou statistických šetření Kontrolní etapa – ověřování správnosti použité metodiky sběru dat Etapa přípravy dat ke zpracování – předsledná statistická analýza Etapa zpracování dat - vlastní statistická analýza Etapa interpretace výsledků – závěry z provedeného šetření


Stáhnout ppt "MATEMATICKÉ METODY VYHODNOCOVÁNÍ EXPERIMENTŮ Miroslav Pokorný."

Podobné prezentace


Reklamy Google