Klasifikace pomocí asociačních pravidel

Slides:



Advertisements
Podobné prezentace
Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační.
Advertisements

:-) Asymptotická složitost algoritmů Autor: Antonín DANĚK Semestrální projekt 1 – Y14TED.
Redukce lůžek Existuje prostor pro redukci lůžek akutní péče?
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
Ověřené výstupy z ISKN elektronická značka Jiří Formánek
Název školy ZÁKLADNÍ ŠKOLA, JIČÍN, HUSOVA 170 Číslo projektu CZ.1.07/1.4.00/ Číslo a název klíčové aktivity 3.2 Inovace a zkvalitnění výuky prostřednictvím.
Učení ducha v praktickém životě. Učení ducha je praxe vlastních myšlenek, citů a činů Učení ducha znamená učit se správně utvářet své myšlenky a city.
Název kapitoly Název podkapitoly Text Schvalovací proces + hodnoticí kritéria Jakub Krátký Praha, 5. května 2016.
Management počítačových sítí Počítačové sítě VUT v Brně Fakulta podnikatelská Lekce 4 – Management síťové vrstvyIng. Viktor Ondrák, Ph.D.strana 1 Lekce.
Průvodní list Šablona: VI/2 Vytváření podmínek pro rozvoj znalostí, schopností a dovedností v oblasti finanční gramotnosti Vzdělávací materiál: Prezentace.
Principy Základních registrů Ing. Ondřej Felix, CSc.
Univerzitní informační systém III., Lednice 2004 Vývoj a koncepce nového univerzitního webu Ondřej Kudlík
Autor práce: Denisa Vydrová Vedoucí práce: Ing. Petra Solarová, Ph.D. Oponent práce: Ing. František Martíšek České Budějovice, červen 2016.
NAT64: připraven do praxe?
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav podnikové strategie Analýza marketingového mixu vybrané banky Autor bakalářské práce:
Databáze © Mgr. Petr Loskot
model fungování a praxe
Vysoká škola technická a ekonomická
Vysoká škola technická a ekonomická v Českých Budějovicích Motivační a věrnostní programy jako nástroj budování loajality zákazníků Autor práce: skopalová.
Kalkulátor emisí skleníkových plynů
Internet.
Procesní management v oddělení logistiky
Analýza konkurenčního prostředí
Indukce Definice: nalezení obecných zákonitostí z příkladů.
Detekce malware na základě informací z PE hlaviček
Stroje a zařízení – části a mechanismy strojů
Interpolace funkčních závislostí
Vnitropodniková komunikace ve vybraném subjektu
Vysoká škola technická a ekonomická v Českých Budějovicích
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Evaluace předmětů studenty (Anketky)
Řešení nerovnic Lineární nerovnice
Způsoby zápisu algoritmů
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Uživatelem definované datové typy
Algoritmizace - opakování
Algoritmizace - opakování
úlohy lineárního programování
Financováno z ESF a státního rozpočtu ČR.
Operační výzkum Lineární programování – cvičení
ADT zásobník - příklad Prakticky aplikovatelný příklad využití ADT zásobník je vyhodnocování aritmetických výrazů v Postfixové notaci: Pro zápis aritmetických.
Databáze MS ACCESS 2010.
Veřejná správa, Regionální rozvoj Litoměřice Jan Jůna 2012
Workshop projektu systémová podpora sociální práce v obcích na téma:
Oblast: Dobré životní podmínky zvířat
PV056, Strojové učení a dobývání znalostí Jakub Tischler, jaro 2010
Schvalovací proces + hodnoticí kritéria
CW-057 LOGISTIKA 34. PŘEDNÁŠKA Lineární programování – 4/G Leden 2017
DIGITÁLNÍ UČEBNÍ MATERIÁL
Z8119 Vyhledávání znalostí v prostorových datech
ZAL – 8. cvičení 2016.
USMĚRŇOVAČE V NAPÁJECÍCH OBVODECH
Kvadratické nerovnice
Schvalovací proces + hodnoticí kritéria
Název projektu: ZŠ Háj ve Slezsku – Modernizujeme školu
Významné normy Bibliografické citace - obsah, forma, struktura ČSN ISO 690 Úprava písemností psaných strojem nebo zpracovávaných textovými editory ČSN.
Programování (14PRG) 1. cvičení.
Řešení nerovnic Lineární nerovnice
BIBS Informatika pro ekonomy přednáška 2
Informatika pro ekonomy přednáška 8
SIGNÁLY A LINEÁRNÍ SYSTÉMY
GPRS, EDGE, CDMA, WiFi, vytáčené připojení, linka euro ISDN, ADSL
PŘIJÍMACÍ ŘÍZENÍ NA STŘEDNÍ ŠKOLY PRO ŠKOLNÍ ROK 2018/19
Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Úvod do praktické fyziky
A5M33IZS – Informační a znalostní systémy
M-Commerce Šárka Přibíková 3MA
Dynamické programování Úloha batohu neomezená
Analýza informačního systému
Grafy kvadratických funkcí
Transkript prezentace:

Klasifikace pomocí asociačních pravidel Tomáš Kliegr Katedra informačního a znalostního inženýrství Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze Seminář strojového učení a modelování, 18. března 2019

Osnova Asociační pravidla Klasifikace na bázi asociačních pravidel Algoritmus CBA Evaluace a srovnání s jinými algoritmy Shrnutí

Osnova Asociační pravidla Klasifikace na bázi asociačních pravidel Algoritmus CBA Evaluace a srovnání s jinými algoritmy Shrnutí

Asociační pravidla - představení Slouží pro objevování zajímavých vztahů v datech Mají tvar konjunktivních pravidel Jsou nalezena všechna pravidla, vyhovující uživatelem specifikovanému zadání Nejznámější použití je pro analýzu položek v nákupním košíku a následné doporučování Nejznámější je algoritmus Apriori (Agrawal, 1994) IF milk and diapers THEN beer

Asociační pravidla – aktuální příklad použití Když zákazník koupí zboží X, tak koupí i zboží Y

Osnova Asociační pravidla Klasifikace na bázi asociačních pravidel Algoritmus CBA Evaluace a srovnání s jinými algoritmy Shrnutí

Asociační pravidla – použití pro klasifikaci Algoritmus Apriori byl brzy po svém uveřejnění v roce 1994 považován za velký průlom: „ … jeden z největších úspěchů technologií pro dolování znalostí.“ Hastie et al. Elements of Statistical Learning

Asociační pravidla – použití pro klasifikaci Algoritmus Apriori byl brzy po svém uveřejnění v roce 1994 považován za velký průlom: „ … jeden z největších úspěchů technologií pro dolování znalostí.“ Hastie et al. Elements of Statistical Learning Přínos algoritmu spočíval ve schopnosti zpracovat velká multidimenzionální data v krátkém čase.

Asociační pravidla – použití pro klasifikaci Algoritmus Apriori byl brzy po svém uveřejnění v roce 1994 považován za velký průlom: „ … jeden z největších úspěchů technologií pro dolování znalostí.“ Hastie et al. Elements of Statistical Learning Přínos algoritmu spočíval ve schopnosti zpracovat velká multidimenzionální data v krátkém čase. V roce 1998 byl adaptován i pro klasifikační úlohu strojového učení: Bing Liu, Wynne Hsu, and Yiming Ma. 1998. Integrating classification and association rule mining. In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining (KDD'98), Rakesh Agrawal and Paul Stolorz (Eds.). AAAI Press 80-86.

Osnova Asociační pravidla Klasifikace na bázi asociačních pravidel Algoritmus Classification based on Associations (CBA) Příprava dat Fáze algoritmu Použití modelu Evaluace a srovnání s jinými algoritmy Shrnutí

Ilustrační problém Dataset obsahující historická data o komfortu pracovníka Dva prediktory: teplota (osa Y) a vlhkost v místnosti (osa X) Jeden cílový atribut: komfort pracovníka (1 = nejhorší, 4 = nejlepší) Data byla sestavena tak, aby umožnila snadnou vizualizaci ve 2D

Seznam klasifikačních pravidel Klasifikace na bázi asociačních pravidel princip algoritmu CBA (Liu, 1998) Diskretizace Časté množiny položek (itemsety) Asociační pravidla Seznam klasifikačních pravidel

Seznam klasifikačních pravidel Klasifikace na bázi asociačních pravidel (CBA) vstupem jsou pouze nominální atributy Diskretizace Časté množiny položek (itemsety) Asociační pravidla Algoritmy pro dolování asociačních pravidel akceptují na vstupu pouze nominální atributy. Pro diskretizaci – převod numerických veličin na intervaly – se používá nejčastěji ekvidistanční metoda nebo algoritmus MDLP (Fayyad, 93) Položkou je dvojice atribut=hodnota Seznam klasifikačních pravidel Humidity=(40;60]

Klasifikace na bázi asociačních pravidel (CBA) podpora množiny položek Diskretizace 4 4 4 Časté množiny položek (itemsety) Asociační pravidla Temp=(25;30] AND Hum=(40;60] AND Comf=4; podpora = 3 Množina položek = konjunkce podmínek Seznam klasifikačních pravidel minimální podpora (support): algoritmus nalezne všechny množiny položek, které jsou časté – vyskytují se alespoň v uživatelem zadaném minimálním počtu vstupních řádků.

Klasifikace na bázi asociačních pravidel (CBA) spolehlivost asociačního pravidla Diskretizace Časté množiny položek (itemsety) Asociační pravidla Temp=(25;30] AND Hum=(40;60] => Comf=4 Podpora = 3; Spolehlivost = 0.6 = 3/5 Nalezení pravidla musí splňovat uživatelem zadanou minimální spolehlivost (confidence): Seznam klasifikačních pravidel počet řádků splňujících X i Y počet řádků splňujících X Conf(X  Y) =

Seznam klasifikačních pravidel Klasifikace na bázi asociačních pravidel (CBA) z častých množin položek jsou utvořena pravidla Diskretizace Časté množiny položek (itemsety) Asociační pravidla Nalezená pravidla, barvy – predikovaný komfort při minimální spolehlivosti = 0.5 1= červená, 2 = zelená, 3 = nepřiřazena, 4 = modrá {Humidity=(80;100]} => {Comfort=1} {Temperature=(30;35]} => {Comfort=4} {Temperature=(25;30],Humidity=(40;60]}=> {Comfort=4} {Temperature=(15;20]} => {Comfort=2} {Temperature=(25;30]} => {Comfort=4} Seznam klasifikačních pravidel

Seznam klasifikačních pravidel Klasifikace na bázi asociačních pravidel (CBA) jádro CBA je algoritmus pro efektivní výběr pravidel Diskretizace Část algoritmu nazývaná Classifier Builder (CBA-CB) ze vstupních pravidel vybere jejich podmnožinu, která tvoří výsledný klasifikátor. Časté množiny položek (itemsety) Asociační pravidla Seznam klasifikačních pravidel Algoritmus CBA-CB ve verzi M1

Seznam klasifikačních pravidel Klasifikace na bázi asociačních pravidel (CBA) ze seznamu pravidel je utvořen klasifikátor Diskretizace Časté množiny položek (itemsety) Asociační pravidla Nejlepších výsledků CBA dosahuje, pokud výběr probíhá alespoň z 60.000 vstupních pravidel. Takový počet není problém vygenerovat ani na malých datasetech Na konec je přidáno výchozí pravidlo, to zajistí klasifikaci pro všechny instance (symbolizováno světlě zeleným podbarvením). Seznam klasifikačních pravidel

Klasifikace na bázi asociačních pravidel (CBA) použití pro predikci Použito první pravidlo v pořadí spolehlivosti, podpory a délky (obecnější pravidla jsou preferována) Temperature Humidity Comfort 27 48 ? ? ? ## lhs rhs sup conf len ## [1] {Humidity=(80;100]} => {Comfort=1} 0.11 0.80 1 ## [2] {Temperature=(30;35]} => {Comfort=4} 0.14 0.64 1 ## [3] {Temperature=(25;30],Humidity=(40;60]} => {Comfort=4} 0.08 0.60 2 ## [4] {Temperature=(15;20]} => {Comfort=2} 0.11 0.57 1 ## [5] {Temperature=(25;30]} => {Comfort=4} 0.14 0.50 1 ## [6] {} => {Comfort=2} 0.28 0.28 x

Klasifikace na bázi asociačních pravidel (CBA) použití pro predikci Použito první pravidlo v pořadí spolehlivosti, podpory a délky (obecnější pravidla jsou preferována) Temperature Humidity Comfort 27 48 ? ? 4 ## lhs rhs sup conf len ## [1] {Humidity=(80;100]} => {Comfort=1} 0.11 0.80 1 ## [2] {Temperature=(30;35]} => {Comfort=4} 0.14 0.64 1 ## [3] {Temperature=(25;30],Humidity=(40;60]} => {Comfort=4} 0.08 0.60 2 ## [4] {Temperature=(15;20]} => {Comfort=2} 0.11 0.57 1 ## [5] {Temperature=(25;30]} => {Comfort=4} 0.14 0.50 1 ## [6] {} => {Comfort=2} 0.28 0.28 x

Osnova Asociační pravidla Klasifikace na bázi asociačních pravidel Algoritmus Classification based on Associations (CBA) Evaluace a srovnání s jinými algoritmy Asociační pravidlové klasifikátory Jiné pravidlové algoritmy a rozhodovací stromy Ostatní často používané klasifikátory Shrnutí

Evaluace - další asociační klasifikátory Za posledních dvacet let byla navržena řada algoritmů odvozených od CBA Cílem při návrhu bylo typicky dosažení lepší správnosti modelu při klasifikaci pomocí některé z následujících technik: Použití jednoho nejsilnějšího pravidla pro klasifikaci (single) vs skládání příspěvků vícero vyhovujících pravidel Použití klasických „ostrých - crisp“ pravidel vs fuzzy pravidla, kterému instance může vyhovovat s různým stupněm příslušnosti Použití deterministických algoritmů (det) generujících vždy stejný výstup, vs. optimalizace pomocí stochastických metod, zpravidla genetických nebo evolučních algoritmů pracujících s prvkem náhody. Kategorie single, crisp a det jsou použity při srovnání interpretovatelnosti algoritmů na následujícím snímku.

Evaluace - další asociační klasifikátory single znamená klasifikaci pomocí jednoho pravidla crisp zda podmínky v pravidlech tvořících klasifikátor mají ostré hranice (jako protiklad k fuzzy hranicím) det. zda je algoritmus deterministický s žádným náhodným prvkem jako například genetickým algoritmem assoc zda je metoda založena na asociačních pravidlech acc, rules a time odpovídá průměrné správnosti, průměrnému počtu pravidel a průměrnému času trénování modelu napříč 26 datasety v Alcala, 2011 Zdroj: autor

Evaluace - další asociační klasifikátory Zdroj: autor Nejlepší FARC—HD má v průměru o 4% vyšší správnost, ale generuje méně srozumitelná fuzzy pravidla CBA vytváří srozumitelnější modely než ostatní algoritmy pro klasifikaci na bázi asociačních pravidel

Evaluace – další interpretovatelné metody Zdroj: autor CBA je rychlý algoritmus a dává stejně kvalitní výsledky jako jiné široce rozšířené pravidlové klasifikátory, přičemž je často rychlejší CBA ale generuje více pravidel

Srovnání s jinými často používanými klasifikátory Neuronové sítě, hluboké učení Random forest Správnost Support vector machines Rozhodovací stromy a pravidla Interpretovatelnost (vysvětlitelnost, srozumitelnost) Zdroj: autor Ilustrace vychází z publikací: Explainable Artificial Intelligence – Program Update, DARPA, Spojené státy, 2017. Ilustrace modelů: Wikipedia, autor

Srovnání s jinými často používanými klasifikátory Neuronové sítě, hluboké učení Random forest 82% 8% Správnost Support vector machines Rozhodovací stromy a pravidla 74% Interpretovatelnost (vysvětlitelnost, srozumitelnost) Zdroj: autor Ilustrace vychází z publikací: Explainable Artificial Intelligence – Program Update, DARPA, Spojené státy, 2017. Fernández-Delgado, Manuel, et al. "Do we need hundreds of classifiers to solve real world classification problems?." The Journal of Machine Learning Research 15.1 (2014): 3133-3181. Ilustrace modelů: Wikipedia, autor

Osnova Asociační pravidla Klasifikace na bázi asociačních pravidel Algoritmus Classification based on Associations (CBA) Evaluace a srovnání s jinými algoritmy Asociační pravidlové klasifikátory Jiné pravidlové algoritmy a rozhodovací stromy Ostatní často používané klasifikátory Shrnutí

Shrnutí Přednáška představila princip klasifikačních algoritmů tvořených na základě asociačních pravidel Velký počet vstupních pravidel je silnou stránkou i omezením Velký počet kandidátů, ze kterých se vybírá Citlivost na práh minimální podpory Na výstupu větší počet pravidel než u jiných pravidlových modelů Existuje řada algoritmů a implementací, které postupně usilují o odstranění omezení. Výzvou je nalezení rovnováhy mezi rychlostí, srozumitelností a správností modelů

Děkuji za pozornost