Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Datové sklady (Data Warehouse) Dolování dat (Data Mining)

Podobné prezentace


Prezentace na téma: "Datové sklady (Data Warehouse) Dolování dat (Data Mining)"— Transkript prezentace:

1 Datové sklady (Data Warehouse) Dolování dat (Data Mining)

2  Data  Informace  Znalosti  (Moudrost) Informační systémy Znalostní systémy

3 Informační systémy  Kdo je potřebuje? Exekutiva a nižší management Exekutiva a nižší management  Co obsahují? Informace o jednotlivých objektech a transakcích Informace o jednotlivých objektech a transakcích  K čemu slouží? K operativnímu řízení K operativnímu řízení  Jak je realizovat? Pomocí databázových systémů Pomocí databázových systémů

4 Znalostní systémy  Kdo je potřebuje? Vyšší management Vyšší management  Co obsahují? Informace o dlouhodobých trendech Informace o dlouhodobých trendech  K čemu slouží? K strategickému řízení K strategickému řízení  Jak je realizovat? Všelijak, ale také pomocí datových skladů Všelijak, ale také pomocí datových skladů

5 K čemu je data mining?  Stále větší množství dat uložených v databázích Neustále generujeme data Neustále generujeme data Obchodní a bankovní transakceObchodní a bankovní transakce Biologická, astronomická data atd…Biologická, astronomická data atd… Ukládáme stále více dat Ukládáme stále více dat Databázové technologie jsou stále rychlejší a levnějšíDatabázové technologie jsou stále rychlejší a levnější Databázové systémy jsou schopny pracovat se stále rozsáhlejšími datyDatabázové systémy jsou schopny pracovat se stále rozsáhlejšími daty

6 Proč data mining?  Data jsou stále rozsáhlejší, ale vyvodit z nich užitečné závěry je stále složitější Velké množství nákupů v supermarketech Velké množství nákupů v supermarketech Miliony hovorů denně u telekomunikačních operátorů Miliony hovorů denně u telekomunikačních operátorů …  Smysl: Dát uloženým datům význam

7 Co je to data mining?  Zavedení pojmu: 1991 – Frawley  Definice Netriviální proces identifikace Netriviální proces identifikace nových,nových, platných,platných, potenciálně použitelnýchpotenciálně použitelných a snadno pochopitelných vzorů v datecha snadno pochopitelných vzorů v datech  Zahrnuje poznatky z několika oborů matematiky a informatiky

8 Související obory Statistika Databázové systémy Vizualizace Data Mining, získávání znalostí z dat Umělá inteligence

9 Proces získávání znalostí z dat Stanovení cílů DB (Datový sklad) Výběr dat Vstupní data Předzpracování dat Dolování dat (Data Mining) Prezentace znalostí Výsledné vzory (pravidla) Interpretace a vyhodnocení ZNALOST Pochopení

10 Data Mining a Business Intelligence Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems

11 Proces získávání znalostí z dat  Stanovení cílů Jaký typ znalosti chceme nalézt? Jaký typ znalosti chceme nalézt? Nad jakými daty budeme proces získávání znalostí provádět? Nad jakými daty budeme proces získávání znalostí provádět? Je problém řešitelný? Je problém řešitelný? Budou získané výsledky užitečné v praxi? Budou získané výsledky užitečné v praxi? V jakém tvaru a formě chceme výsledky získávání znalostí zobrazit? V jakém tvaru a formě chceme výsledky získávání znalostí zobrazit? Jsou naše data vhodná pro danou dolovací metodu vhodná? Jsou naše data vhodná pro danou dolovací metodu vhodná?

12 Proces získávání znalostí z dat  Výběr zdrojů dat Typy databází z hlediska obsahu Typy databází z hlediska obsahu Zákaznické databáze – údaje o zákazníka, případně o jeho aktivitáchZákaznické databáze – údaje o zákazníka, případně o jeho aktivitách Transakční databáze – údaje o aktivitách zákazníků (většinou anonymních)Transakční databáze – údaje o aktivitách zákazníků (většinou anonymních) Databáze historie nabídek – databáze o oslovování zákazníků kampaněmiDatabáze historie nabídek – databáze o oslovování zákazníků kampaněmi Externí dataExterní data

13 Proces získávání znalostí z dat  Výběr zdrojů dat Typy dat z hlediska formátu Typy dat z hlediska formátu Relační a transakční databázeRelační a transakční databáze Objektově-orientované databázeObjektově-orientované databáze Multimediální databázeMultimediální databáze WWWWWW Textové dokumentyTextové dokumenty Prostorová, časová data…Prostorová, časová data…

14 Předzpracování dat  Proč předzpracování? Objemné databáze – je potřeba vybrat relevantní data Objemné databáze – je potřeba vybrat relevantní data Nesprávná, nekonzistentní data, chybějící hodnoty Nesprávná, nekonzistentní data, chybějící hodnoty Zvýší efektivitu a usnadní proces získávání znalostí Zvýší efektivitu a usnadní proces získávání znalostí

15 Předzpracování dat – čištění dat  Položky obsahující neúplné hodnoty Zanedbání záznamu, doplnění průměrnou hodnotou, doplnění mediánu, doplnění knstanty „unknown“, ruční zadání, predikce Zanedbání záznamu, doplnění průměrnou hodnotou, doplnění mediánu, doplnění knstanty „unknown“, ruční zadání, predikce  Položky obsahující chybné hodnoty Binding – vyhlazení na základě sousedních hodnot Binding – vyhlazení na základě sousedních hodnot Shlukování – podobné hodnoty jsou organizovány do skupin, ostatní jsou chybné Shlukování – podobné hodnoty jsou organizovány do skupin, ostatní jsou chybné Regresní metody Regresní metody Kombinace lidské a počítačové kontroly Kombinace lidské a počítačové kontroly

16 Předzpracování dat – čištění dat  Nekonzistentní data Vznikají při vkládání dat do databáze Vznikají při vkládání dat do databáze Při integraci dat (např. různé názvy atributů) Při integraci dat (např. různé názvy atributů)  Řešení Ruční opravení Ruční opravení Opravné rutiny Opravné rutiny

17 Předzpracování dat – integrace dat  Integrace více zdrojů do jedné databáze Redundance Redundance Jak určit ekvivalentní entity z více zdrojů? Jak určit ekvivalentní entity z více zdrojů? Detekce a řešení konfliktů hodnot atributů Detekce a řešení konfliktů hodnot atributů např. různé kódování, měrné jednotky nebo různé vyjádření hodnoty, různé časové intervaly měření,…např. různé kódování, měrné jednotky nebo různé vyjádření hodnoty, různé časové intervaly měření,…

18 Předzpracování dat – transformace dat  Transformace dat do formátu vhodného pro dolování dat Slučující techniky Slučující techniky Sumační operace atd… (z více hodnot jedna hodnota)Sumační operace atd… (z více hodnot jedna hodnota) Generalizace Generalizace Data nižší úrovně nahrazena úrovní vyšší (např. ulice – město)Data nižší úrovně nahrazena úrovní vyšší (např. ulice – město) Normalizace Normalizace Přepočítání hodnot do daného bezrozměrného intervaluPřepočítání hodnot do daného bezrozměrného intervalu

19 Předzpracování dat – transformace dat  Diskretizace hodnot numerických atributů Rozdělení numerických hodnot na intervaly Rozdělení numerických hodnot na intervaly EkvidistantníEkvidistantní Se stejným počtem prvkůSe stejným počtem prvků Hierarchické (B stromy)Hierarchické (B stromy) S různou délkou, např.podle noremS různou délkou, např.podle norem

20 Dolování dat  Aplikace zvoleného algoritmu na předzpracovaná data, dle typu znalosti a dat  Typy znalostí Asociační pravidla Asociační pravidla Shlukování Shlukování Klasifikace Klasifikace Predikce Predikce

21 Asociační pravidla – analýza nákupního košíku

22 Asociační pravidla  Původně pro transakční data  Pravidlo ve tvaru A  B A, B … množiny položekA, B … množiny položek s … podporas … podpora c … spolehlivostc … spolehlivost  Interpretace asociačního pravidla: „Jestliže transakce obsahuje položky z množiny A, pak také pravděpodobně obsahuje položky z B“ „Jestliže transakce obsahuje položky z množiny A, pak také pravděpodobně obsahuje položky z B“

23 Asociační pravidla – základní pojmy  Zajímavost pravidla A  B určují tyto ukazatele: podpora (support) - pravděpodobnost, že se vyskytují v databázi položky z obou stran asociačního pravidla podpora (support) - pravděpodobnost, že se vyskytují v databázi položky z obou stran asociačního pravidla spolehlivost (confidence) - podmíněná pravděpodobnost, že se vyskytuje v transakci množina položek B, za předpokladu, že se tam vyskytují položky z A spolehlivost (confidence) - podmíněná pravděpodobnost, že se vyskytuje v transakci množina položek B, za předpokladu, že se tam vyskytují položky z A

24 Shlukování  Nejstarší nástroje data miningu  Roztřídění skupiny objektů do skupin (shluků), které nejsou předem stanoveny  Rozdíly objektů uvnitř shluků minimalizujeme, rozdíly jednotlivých shluků maximalizujeme  Problém: Jakou metriku použít pro měření rozdílu?

25 Shlukování - ilustrace  Např. je možné nyní oslovit kampaní skupinu zákazníků tvořících shluk

26 Shlukování - vlastnosti  Shluky nejsou předem dány a nemají tedy předem daný význam – ten je potřeba zjistit – ne vždy se to podaří  Při 2-3 atributech je možné použít grafickou metodu, pro více atributů je potřeba použít pokročilé metody

27 Shlukování – některé metody  Rozdělovací metody Rozdělení objektů na předem daný počet shluků Rozdělení objektů na předem daný počet shluků Např. algoritmus K-means, který optimalizuje těžiště jednotlivých shluků a dané prvky pak přiřadí k nejbližšímu těžišti Např. algoritmus K-means, který optimalizuje těžiště jednotlivých shluků a dané prvky pak přiřadí k nejbližšímu těžišti Vzniká tzv. Voroného diagram Vzniká tzv. Voroného diagram

28 Shlukování – některé metody  Hierarchické metody Postupné rozdělování velkých shluků nebo postupné slučování malých shluků Postupné rozdělování velkých shluků nebo postupné slučování malých shluků Vzniká tím hierarchická struktura shluků Vzniká tím hierarchická struktura shluků Ukončení procesu rozdělování (slučování) při splnění určité podmínky (např. maximální, či minimální počet o bjektů ve shlulku) Ukončení procesu rozdělování (slučování) při splnění určité podmínky (např. maximální, či minimální počet o bjektů ve shlulku)  Další metody (neuronové sítě, mřížky apod.)

29 Shlukování – příklady aplikací  Marketing – možnost identifikace skupin zákazníků, použití cílených reklam  Obchodování s realitami – identifikace skupin nemovitostí na základě typu, ceny a polohy  Studie zemětřesení – shlukování epicenter zemětřesení dle jejich vlastností  Pojištění – hledání potenciálních zákazníků s vysokým povinným ručením  Geografie – hledání shluků pozemků na základě jeho typu

30 Klasifikace  Rozdělování objektů do předem známých skupin  Nejčastěji se využívají rozhodovací stromy 1. krok: konstrukce rozhodovacího stromu na základě vzorku dat 1. krok: konstrukce rozhodovacího stromu na základě vzorku dat 2. krok: klasifikace objektů na základě vytvořeného rozhodovacího stromu 2. krok: klasifikace objektů na základě vytvořeného rozhodovacího stromu  Úspěšnost se měří procentem úspěšně klasifikovaných objektů

31 Klasifikace – příklady  Určení, zda je možné zákazníkovi možné poskytnout úvěr na základě několika atributů (věk, příjem…)  Určení pohlaví zákazníka na základě toho, jaký notebook si koupí – to např. umožňuje směrovat kampaň…

32 Klasifikace – příklad (buys_computer) age? overcast student?credit rating? noyes fair excellent <=30 >40 no yes

33 Data Mining a datové sklady Soubory s extrahova- nými a transformo- vanými daty Soubory s daty pro nahrání do datového skladu Datový sklad Data připravená pro data mining Zdrojové DB DATA MINING OLAP systém Možnost extrakce dat Oblast přípravy dat


Stáhnout ppt "Datové sklady (Data Warehouse) Dolování dat (Data Mining)"

Podobné prezentace


Reklamy Google