Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilBarbora Brožová
1
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku Zbyněk Hyský – IV/15
2
Data mining z angličtiny: „data“ – informace „mining“ – dolování, těžení Důvody vzniku Data Miningu: rozsáhlé informační databáze a databázové sklady nemožnost snadné analýzy – chybějící hodnoty nelze použít standardní statistické metody potřeba „vytěžení“ efektivních informací
3
Tipické úlohy Data Miningu Detekce podvodů:Detekce podvodů: v bankovnictví při přidělování úvěrů Profily zákazníků:Profily zákazníků: cílené oslovení zákazníka (úspora peněz) Udržení zákazníka:Udržení zákazníka: vytipování zákazníka se sklonem přechodu ke konkurenci Stanovení diagnózy:Stanovení diagnózy: podání správného léčiva na základě známých příznaků
4
Analýza časových řad:Analýza časových řad: provádění předpovědí na základě historických dat, např. ekonomika, meteorologie... Analýza prohlížení stránek na Internetu:Analýza prohlížení stránek na Internetu: (web mining) segmentace zákazníků podle jejich chování na Internetu Tipické úlohy Data Miningu
5
Data Miningové metody Lineární regrese: Klasický statistický model, který předpokládá, že spojité závislé proměnné jsou lineární kombinací prediktorů. Logistická regrese: Model pro kategorizované výstupy, který předpokládá, že šance kategorií závislé proměnné lineárně závisí na hodnotách prediktorů. Diskriminační analýza: Statistiský predikční model, pro separaci kategorií výstupní proměnné ve vícerozměrném prostoru pomocí oddělovacích ploch. Seskupovací (klastrová) analýza: Model, který vytváří skupiny případů tak, aby případy spadající do jedné skupiny si byly co nejvíce podobné, zatímco případy z různých skupin se co nejvíce odlišují.
6
Faktorová analýza: Postup pro redukci dimenzionality dat. Metoda se snaží nahradit velký počet proměnných menším počtem tzv. faktorů takovým způsobem, aby ztracená informace byla minimální. Asociační pravidla: Nacházení typických vzorů v datech, tj. určení které kombinace atributů se spolu vyskytují nejčastěji. Vhodné především pro analýzy nákupních košíků nebo web mining. Indukce logických podmínek: Nalezení nezávislých implikačních podmínek typu "když je splněno... pak..." pro předpověď hodnot výstupní proměnné. Data Miningové metody
7
Rozhodovací stromy: Hierarchický systém pravidel pro klasifikaci a vysvětlení variability cílové vlastnosti. o hodnotě výstupní proměnné se rozhoduje podobným způsobem jako při určování rostlin podle botanického klíče. Neuronové sítě: Zjednodušný model nervové soustavy. Skládá se z vrstev neuronů, které si pomocí synapsí vyměňují informace. Model se učí tak, že vhodně nastavuje cilivost na podměty přicházející po synapsích. Metoda nejbližších sousedů: Model komparuje zpracovávaný případ se známými případy, které se novému nejvíce podobají ve vstupních proměnných. Data Miningové metody
8
Data Miningový projekt proces, který je značně finančně nákladný jedna z možností ušetření je postupovat standardizovaným způsobem vypracovány různé metodologie asi nejznámější je CRISP-DM
9
CRISP-DM CRoss-Industry Standard Process for Data Mining nabízí návod krok za krokem (úkoly a cíle) rychlejší a efektivnější řešení Data Miningových úloh pomáhá vyhnout se běžným chybám
10
Rozdělení DM projektu podle CRISP-DM 1. Definování cílů 2. Porozumění datům 3. Příprava dat 4. Modelování 5. Hodnocení výsledků 6. Implementace vytvořeného modelu
11
Popis jednotlivých částí projektu Definování cílů: ve vstupní fázi je nutné určit cíl projektu z obchodního hlediska Porozumění datům: tzn. získání dat nebo přístupu k nim a jejich pochopení Příprava dat: jedna z nejnáročnějších fází, převod různých formátů, tabulek, doplnění chybějících hodnot
12
Modelování: výběr konkrétního algoritmu, který bude použit pro analýzu Hodnocení výsledků: hodnocení úrovně dosažení obchodních cílů Implementace: vlastní nasazení Data Miningového modelu do obchodní činnosti Popis jednotlivých částí projektu
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.