Analýza nákupního košíku Vlastimil Menčík
Data účtenky ze supermarketu celkem cca 60 použito asi 50 z různých zdrojů
Předzpracování dat ruční převod do XML časově náročné vytvoření dobré představy o struktuře dat
Číselník rozdělení zboží do hierarchických kategorií např = nealko.minerálka.perlivá vytváření během převodu dat do XML
Použitý software vlastní aplikace v Javě maximální přizpůsobení potřebám úlohy všechny potřebné nástroje v jednom prostředí (parsování XML, kolekce, …)
Reprezentace dat odpovídá struktuře XML přidány agregované informace (počty položek v transakci podle daných kategorií, atd.) třídy Category, Item, Receipt
Vlastní MBA vstup: seznam sledovaných kategorií výstup: pravidla (třída Rule) nad danými kategoriemi se spočítanou podporou, spolehlivostí a zlepšením
Výsledky (1) ovlivněné povahou získaných dat pestrý sortiment zboží => nízká podpora pravidel 2 typy transakcí: – malý „náhodný“ nákup – pravidelný velký nákup
Výsledky (2) mléčné výrobky=>pečivoS=0.6000R=0.8437I= pečivo => mléčné výrobky S=0.6000R=0.7941I= jogurt => houskyS=0.2000R=0.7500I= zelenina=>pečivoS=0.4666R=0.9545I= pečivo => zelenina S=0.4666R=0.6176I= olej =>čerstvá zeleninaS=0.1555R=1.0000I= olej => okurkyS=0.1111R=0.7142I= olej => rajčataS=0.1111R=0.7142I= olej => bramboryS=0.1111R=0.7142I= džus => chlebaS=0.1777R=0.8000I= maso => rohlíkyS=0.2222R=0.7692I= chleba =>pivoS=0.2888R=0.7222I=1.7105
Závěr bylo by potřeba (řádově) vetší množství dat důležitá volba kategorií, resp. úrovně granularity když už má pravidlo vysokou podporu, tak má malé zlepšení (problém častých položek)