Dobývání znalostí z databází základy statistiky

Slides:



Advertisements
Podobné prezentace
Sedm základních nástrojů řízení jakosti. Kontrolní tabulky Vývojové diagramy Histogramy Diagramy příčin a následků Paretovy diagramy Bodové diagramy Regulační.
Advertisements

Strategické otázky výzkumníka 1.Jaký typ výzkumu zvolit? 2.Na jakém vzorku bude výzkum probíhat? 3.Jaké výzkumné metody a techniky uplatnit?
Kapitola 1: Popisná statistika jednoho souboru2  Matematická statistika je věda, která se zabývá studiem dat vykazujících náhodná kolísání.  Je možno.
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ.
Testy hypotéz - shrnutí Testy parametrické Testy neparametrické.
Základy zpracování geologických dat Rozdělení pravděpodobnosti R. Čopjaková.
STATISTICKÉ METODY V GEOGRAFII. Odhady parametrů intervaly spolehlivosti.
Statistika Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc.
Metodologie ISK Základy statistického zpracování dat Ladislava Suchá, 28. dubna 2011.
9. SEMINÁŘ INDUKTIVNÍ STATISTIKA 2. TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ.
Induktivní statistika
POČET PRAVDĚPODOBNOSTI
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Náhodná veličina je veličina, která při opakování náhodného pokusu mění své hodnoty v závislosti na náhodě Náhodné veličiny označujeme X, Y, Z, ... hodnoty.
Jak modelovat výsledky náh. pokusů?
Interpolace funkčních závislostí
„VĚDA JE, DÁVÁ SPRÁVNÉ ÚDAJE, NEKLESEJTE NA MYSLI, ONA VÁM TO VYČÍSLÍ“
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Rozhodování 1.
STATISTICKÉ METODY V GEOGRAFII
Statistické pojmy. Statistické pojmy Statistika - vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter Pojem statistika slouží k.
Obecné a centrální momenty
„Svět se skládá z atomů“
Charakteristiky variability
Charakteristiky variability
Výběrové metody (Výběrová šetření)
ASTAc/01 Biostatistika 2. cvičení
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Základy zpracování geologických dat testování statistických hypotéz
Popisná /deskriptivní/ statistika
Základy statistické indukce
Molekulová fyzika 3. prezentace.
Základy zpracování geologických dat testování statistických hypotéz
Parametry polohy Modus Medián
SÁRA ŠPAČKOVÁ MARKÉTA KOČÍBOVÁ MARCELA CHROMČÁKOVÁ LUKÁŠ BARTOŠ B3E1
Rozšířené modely časových řad
Míry asociace obecná definice – síla a směr vztahu
FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace
Kvadratické nerovnice
V.a1 Teoretické pozadí statistické analýzy
HODINY - poznej stejný čas, velikost
Spojité VELIČINY Vyšetřování normality dat
PSY252 Statistická analýza dat v psychologii II
Střední hodnoty Udávají střed celé skupiny údajů, kolem kterého všechny hodnoty kolísají (analogie těžiště). Aritmetický průměr - vznikne součtem hodnot.
Pravděpodobnost a statistika
Jevy a náhodná veličina
STATISTIKA Exaktní věda Úkoly statistiky zjišťovat data
XII. Binomické rozložení
Metody sociálního výzkumu 6. blok
STATISTIKA PRO EKONOMY (kombinovaná forma)
Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Základní statistické pojmy
Úvod do praktické fyziky
Teorie chyb a vyrovnávací počet 1
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
TŘÍDĚNÍ DAT je základní způsob zpracování dat.
Lineární regrese.
Metody sociálních výzkumů
Cauchyho rozdělení spojité náhodné veličiny
Běžná pravděpodobnostní rozdělení
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie chyb a vyrovnávací počet 1
Náhodný jev, náhodná proměnná
Centrální limitní věta
Lineární funkce a její vlastnosti
Více náhodných veličin
… jak přesně počítat s nepřesnými čísly
Grafy kvadratických funkcí
Teorie chyb a vyrovnávací počet 2
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Dobývání znalostí z databází základy statistiky Roman Danel Institut ekonomiky a systémů řízení

Statistická významnost Hodnota se nedá vysvětlit jako náhodu Generalizovatelnost – výsledek průzkumu nebo studie lze uplatnit na širší soubor (např. populaci)

Základní soubor Hromadné jevy u velkého množství prvků Počet prvků se nazývá rozsah souboru Vlastnosti prvků se nazývají znaky Číselné Slovní (kvantitativní)

Náhodný výběr Někdy je nesnadné nebo nemožné zjišťovat znaky všech prvků souboru Pracujeme s výběrem (vzorkem) základního souboru – je-li vytvořen statisticky správně -náhodný vzorek

Rozdělení četnosti znaku – ve výběru, což by mělo odpovídat i základnímu souboru Jedná se o hodnotu znaku a kolikrát je obsažena v základním souboru Pro spojité znaky (vlastnosti) se vypisují znaky v zvolených intervalech – četnosti nepřísluší hodnotám, ale intervalu -> HISTOGRAM

Optimální počet intervalů Sturgersovo pravidlo Počet intervalů k = 1 + 3,3 log10(n) Kde n-počet různých hodnot znaků

Intervaly: Stejné délky – Ekvidistantní – četnosti jsou přímo porovnatelné Nestejné délky – neekvidistantní – musí se normovat (upravit) podle délky intervalů

Rozdělení četností Symetrie – symetrické x asymetrické Variabilita – malá, velká Šikmost – kladně sešikmené, záporně Špičatost – ploché rozdělení, špičaté

Aritmetický průměr Aritmetický průměr – součet hodnot znaku dělený jejich počtem Zakrývá extrémy, zároveň jej jimi ovlivněn Medián – prostřední hodnota výběru v pořadí hodnot uspořádaných podle velikosti Použití, chceme-li odstranit vliv extrémních hodnot Nebo pokud krajní intervaly nejsou uzavřené a aritmetický průměr nemůžeme spočítat

Medián - průměr Medián – střední hodnota - polovina prvků leží vlevo a polovina vpravo Průměr – aritmetický průměr – může být zkreslen výskytem několika extrémních hodnot – viz průměrný plat 1,2,3,6,40 Medián = 3 Průměr = 26

Modus Nejčetnější hodnota znaku

Kvantily Medián Dolní kvartil Horní kvartil Decil percentil

Variabilita Rozpětí – rozdíl mezi největší a nejmenší hodnotou znaku Rozptyl – součet kvadratických odchylek od průměru, dělený rozsah výběru zmenšeným o 1 Směrodatná odchylka – odmocnina z rozptylu Absolutní odchylka – průměr absolutních odchylek od průměru

Rozptyl (směrodatná odchylka) Je variabilita způsobena několika extrémními hodnotami nebo se na ní podílejí všechny hodnoty výběru? Používají se jako kritérium, jak moc se dá věřit průměru Velká hodnota rozptylu – hodnoty znaku mají vysokou variabilitu a průměr může být zavádějící

Charakteristika šikmosti Jsou hodnoty kolem zvoleného středu rozloženy souměrně nebo je rozdělení hodnot sešikmeno na jednu stranu? Čím více se liší od nuly, tím je asymetrie rozděleí vyšší

Charakteristika špičatosti Udává, jaký průběh má rozdělerní hodnot (graf) kolem středu Čím víc špičatější, tím víc jsou hodnoty soustředěny kolem středu Nízká špičatost – obsahuje hodnoty vzdálené od středu rozdělení

Charakteristiky Kvantilové – medián, kvartilové rozpětí… Charakteristiky méně citlivé na velké změny (chyby) Momentové – průměr, rozptyl

Korelace a kauzalita Korelace – dva jevy jsou spolu propojeny Kauzalita – jeden jev způsobuje druhý Příklad – prodej zmrzlin a opalovacích krémů se zvyšuje ve stejném období – je tam korelace, ale ne kauzalita

Korelační koeficient Nabývá hodnot -1 až 1 Čím je absolutní hodnota větší, tím větší je závislost mezi sledovanými znaky Znaménko udává, jak spolu hodnoty souvisí Je-li roven 0 –znaky jsou nekorelované

Průzkumová analýza dat Přehledné grafické zobrazení dat Třídění – jednoduché, vícenásobné (podle více faktorů) Při porovnání souborů by měly mít stejnou variabilitu Transformace dat

Pravděpodobnostní rozdělení Binomické Geometrické, Pascalovo Poissonovo Logaritmické

Binomické rozdělení Popisuje četnost výskytu náhodného jevu v n pokusech, v nichž má jev stejnou pravděpodobnost

Poissonovo rozdělení má náhodná veličina, která vyjadřuje počet výskytů jevů v určitém intervalu (času, délky, objemu), když nastávají nezávisle na sobě. Příklad – počet příchozích dopisů každý den v průběhu roku „rozdělení řídkých jevů“, které mají malou četnost pravděpodobnosti

Regresní model Statistický postup, který zjišťuje vztah mezi proměnnými Nezávislé proměnné, závislé proměnné Odhadujeme hodnotu závislé proměnné na základě znalosti nezávislých proměnných Příklad: odhad ráno, jaké bude počasí

Logistická regrese Odhad pravděpodobnosti nějakého jevu (závislé proměnné) na základě určitých známých zkušeností Příklady – výskyt onemocnění, kreditní riziko

Diskriminační analýza Discriminant analysis Rozlišení (diskriminace) objektů z konečného počtu kategorií na základě objektů z trénovací množiny; objekty jsou charakterizovány sérií znaků Metoda souvisí se shlukovou analýzou (cluster analysis) a faktorovou analýzou /factor analysis)

ANOVA Analysis of variance – analýza rozptylu Ověření, zda na hodnotu náhodné veličiny má pro určitého jedince statisticky významný vliv hodnota nějakého znaku Vícenásobné porovnání středních hodnot – hodnotí se vztahy mezi rozptyly výběrových souborů Výpočetně náročné

ANOVA - příklad V experimentu byl zjišťován stresový účinek 3 různých intenzit hluku: 50 dB (kontrola), 80 dB, 100 dB na změny ve vybraných biochemických ukazatelích (glukóza, triglyceridy, cholesterol, AST) v krvi laboratorních králíků. Každé intenzitě hluku byla vystavena skupina králíků, z níž bylo náhodně vybráno vždy 10 jedinců, u kterých byly naměřeny následující hodnoty vybraných biochemických ukazatelů v krvi. Zdroj: http://cit.vfu.cz/stat/fvl/priklady.htm#Pr13

Časové řady Data uspořádaná v čase Od minulosti do přítomnosti

Složky časových řad Sezonní složka Cyklická složka – kolísání okolo trendu v důsledku dlouhodobého cyklického vývoje Bílý šum – náhodná složka Trend

Analýza časových řad Popis, informace o charakteru procesu Předpovídání budoucích hodnot

Analýza trendu v časové řadě Grafické metody Analýza klouzavého průměru (MA - Moving Average) – modelování dynamiky časových řad Autoregresní model (AR) – yt je funkce předchozích hodnot ARMA – smíšený model výrazů autoregresního typu a zpožděných klouzavých průměrů u stacionárních procesů ARIMA – autoregresní integrovaný model, pro nestacionární procesy