Datové sklady Analýza dat
Datové sklady DW je integrovaná, subjektově orientovaná, stálá a časově rozlišitelná sbírka dat, spořádaná pro potřeby managementu (popř. dalšího využití - věda, výzkum, lékařství, marketing…) Zdroj může být z archivů, ale i z operativní databáze Nutností je oddělení uložených dat tak, aby zpracování nenarušovalo provoz operativní databáze Obsahují většinou velké objemy dat (až TB)
Datové sklady Pracují na odlišných technologiích než klasické databázové systémy (IS) Nepoužívají klasické DB operace (insert, select, update, delete…) Analyzujía velkéh množství údajů, výsledkem jsou souhrny a reporty, podpora rozhodování Mají flexibilní uživatelské rozhraní Před „požitím“ je nutná předpříprava a zpracování dat
Zpracování dat OLTP (On-Line Transactional Processing) je primárně uzpůsobeno pro relační databázovou základnu, nad kterou běží klíčové aplikace a systémy OLAP (On-Line Analytical Processing) určena pro analýzu dat, která jsou za tímto účelem uložena v multidimenzionální podobě
OLAP databáze MOLAP (Multidimensional OLAP) ROLAP (Relational OLAP) nejrozšířenější způsob uložení dat Data jsou uložena v optimalizované multidimenzionální databázi, kde se nachází všechny potřebné agregace ROLAP (Relational OLAP) poskytuje uživatelům multidimenzionální zobrazení dat, která však zůstávají uložena v původní relační databázi, což poskytuje vyšší úroveň škálovatelnosti a rychlejší dobu odezvy
OLAP databáze HOLAP (Hybrid OLAP) DOLAP (Desktop OLAP) hybridní uložení dat, které je kombinací předchozích dvou variant a snaží se maximalizovat jejich výhody. Data jsou ponechána v původních relačních tabulkách a agregace jsou uloženy v multidimenzionální podobě propojení mezi velkými objemy dat v relačních tabulkách a výhoda rychlejšího zpracování multidimenzionálních agregací. DOLAP (Desktop OLAP) nejmladší technologie, která umožňuje uživateli stáhnout si požadovanou podmnožinu z OLAP databáze na lokální disk a provádět nad ní analytické operace
OLAP databáze - Struktura Tabulky faktů jedná se o nejobjemnější tabulky v databázi (např. číselná vyjádření měrných jednotek, počet prodaných kusů daného zboží, zisk z prodeje… Kromě měrných jednotek obsahují tyto tabulky ještě cizí klíče tabulek dimenzí, pomocí kterých jsou k nim dimenze napojené. Tabulky dimenzí obsahují logicky nebo organizačně uspořádané údaje – dimenze nejčastěji se používají časové, produktové a geografické dimenze
Tabulky faktů a dimenzí mohou tvořit různá topologická uspořádání (hvězda, sněhová vločka - viz obr.)
OLAP - datová kostka jedná se o vícerozměrnou tabulku, jejíž struktura je tvořena daty, která pocházejí z jedné nebo více tabulek faktů a informacemi prezentovanými formou dimenzí jedna databáze může být základem pro více datových kostek
Multidimezionální datová kostka
Fáze přípravy DS DS SŘBD Zdrojová data Extrakce Transformace Loading
Metody tvorby DS – ETL (Extraction, Transformation, Loading) Určit data, která mají být uložena v datovém skladu Vybrat zdroje dat, interní i externí Příprava mapování mezi zdrojovými a cílovými daty Stanovení pravidel pro extrakci dat Určit pravidla pro transformaci a „čištění dat“ Plán pro agregaci tabulek Návrh oblasti přípravy dat Vytvoření procedury pro nahrávání dat ETL pro tabulky dimenzí a faktů
Příklad návrhu DS Rozhodneme, které atributy z původní DB vybereme do DS a jak provedeme rozdělení atributů původního konceptuálního modelu na dimenze, fakty a ostatní atributy
Příklad návrhu DS Určíme hierarchie dimenzí D_Zákazník (id_zak, zak_jm_prijmeni, zak_ulice, zak_obec, úroveň (3) D_Prodejka (id_pro, prod_cislo, úroveň (2) D_Pobočka (id_pob, pob_ulice, pob_mesto, úroveň (3) D_Obsluha (id_obs, obs_jm_prijmeni, úroveň (2) D_Sklad (id_zbo, zbo_nazev, úroveň (2) D_Doba (id_doba, datum, den, týden, měsíc, rok, den_v_tydnu, úroveň (6)
Příklad návrhu DS Vytvoříme ER Diagram tvořený tab. Faktů a tabulkami Dimenzí
Analýza dat Úkolem analýzy dat je redukce, organizace, syntéza a sumarizace informací s cílem dát výsledkům význam a zjistit z dat nové skutečnosti (=>znalosti) Pro názorné zobrazení dat se používají tabulky, grafy a obrázky.
Analýza dat Analýza spočívá v rozboru dat a jejich syntéze Výsledkem jsou závěry s ohledem na položené výzkumné otázky a hypotézy
statistická analýza Identifikace proměnných (rozlišujeme nezávislé a závislé proměnné) Nezávislé proměnné mohou být kontrolované (jsme schopni jimi manipulovat) Závislé proměnné jsou ovlivňovány nezávisle proměnnými. Závislé proměnné jsou často cílové (výstupní) proměnné nějaké intervence. Analýza závisí na tom, na jaké škále (v jakém rozsahu) proměnné měříme
Statistická analýza atribut dat. typ min max avg std. odch. rozptyl medián jmeno string 1 216 - A - pohl boolean 0 (137) 1 (79) B- vek integer 15 19 16,227 1,227 2,49529 16 C- rocn 4 2,375 1,109 1,22512 2 D - doj 0 (121) 1 (95) E - sk_abs 302 62,843 44,284 1951,97522 57 F - rel_abs real 0,208 0,147 0,02140 0,1887417 G - mat 1,809 0,796 0,0917 H - int 5 2,644 1,176 1,37755 3 I - zpv 2,486 1,165 1,35166 J - prx 1,180 1,38681 K - cj 2,778 1,055 1,10802 L - anj 2,324 0,996 0,98757 M - dcj 2,259 1,064 1,12723
Korelační matice míra lineární závislosti mezi jednotlivými (zvolenými) atributy Hodnoty => 1 (vysoká lineární závislost) Hodnoty => 0 (nízká lineární závislost)
Analýza hlavních komponent (PCA) výpočet vlastních vektorů pro hlavní komponenty a jejich zobrazení
Asociační pravidla Určují, jak spolu jednotlivé atributy (vlastnosti) navzájem souvisí „IF Podmínka THEN Výsledek“ reálné atributy je třeba upravit (kategorizovat, normalizovat a binarizovat)
Shlukování Slouží k třídění objektů do skupin (shluků) tak, aby si objekty náležící do stejné skupiny byly podobnější než objekty z ostatních skupin
Rozhodovací stromy identifikují objekty, popsané různými atributy, do jednotlivých tříd každý uzel stromu představuje rozhodování podle jedné (vybrané) vlastnosti objektu