IZI 229 - Cvičení 1 Click-Stream analýza (analýza sekvencí) Berka Petr Kočka Tomáš Laš Vladimír.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Odborná terminologie knihovnictví a informační vědy očima uživatelů databáze TDKIV Předběžné výsledky projektu Helena Kučerová VOŠIS Praha 1.
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Český Internet po (uši v?) krizi Marek Antoš. snímek |datum |dokument | 1. Internetové prostředí 2.
Cvičení Úloha 1: Rozhodněte zda posloupnost znaků v poli délky n tvoří palindrom (slovo, které je stejné při čtení zprava i zleva). Př.: [a,l,e,l,a] [a,n,n,a]
19.1 Odčítání v oboru do 100 s přechodem přes desítku
SQL – tříhodnotová logika
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: březen.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Školení internetového vyhledávače
Školení internetového vyhledávače. Co je to internetový vyhledávač Aplikace na internetu,která dokáže podle klíčového slova najít internetovou.
Školení internetového vyhledávače. Co je to internetový vyhledávač Aplikace na internetu, která dokáže podle klíčového slova najít internetovou.
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Skip-List je datová struktura, která může být použita jako náhrada za vyvážené stromy. představují pravděpodobnostní alternativu k vyváženým stromům (struktura.
Zápis čísla v desítkové soustavě
Výsledky NetMonitoru a AdMonitoringu za červenec 2008 Sdružení pro internetovou reklamu (SPIR) MEDIARESEARCH, a. s. a GEMIUS, S. A
MADSEN AccuScreen novorozenecký sluchový screener.
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
Dělitelnost přirozených čísel
Nejmenší společný násobek
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
ČLOVĚK A JEHO SVĚT 2. Ročník - hodiny, minuty Jana Štadlerová ŽŠ Věšín.
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Kalibrační křivka, produkce charmu v EAS
1 Vyhledávání Principy vyhledávání Klasifikace klíče:  Interní klíč – je součástí prohlížených záznamů  Externí klíč – není jeho součástí, je jím např.
Zábavná matematika.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
V rámci všech serverů společnosti Aliaweb, spol. s r.o. oslovíte přes uživatelů Kurzy.cz finanční portál pro laiky i odborníky, tj. investice a.
Největší společný dělitel – teorie a procvičování
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
Letokruhy Projekt žáků Střední lesnické školy a střední odborné školy sociální ve Šluknově.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
M O R A V S K O S L E Z S K Ý K R A J 1 Vedení správních řízení ve spisové službě a statistika vyřizování dokumentů.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Jazyk vývojových diagramů

Nejmenší společný násobek
Násobení zlomků – teorie a cvičení VY_32_INOVACE_19
73.1 Zaokrouhlování desetinných čísel
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Případové usuzování v expertním systému NEST Vladimír Laš, Petr Berka Vysoká škola ekonomická, Praha.
Pojmy a interpretace.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
Algoritmy vyhledávání a řazení
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Jazyk vývojových diagramů
Konstrukce střihu dětských sportovních kalhot (M 1:5)
ANALÝZA VÝSLEDKŮ LINEÁRNÍHO OPTIMALIZAČNÍHO MODELU
1 © Mediaresearch, a.s., 2008 NetMonitor a AdMonitoring Výsledky za říjen 2008.
Přednost početních operací
Slovní úlohy řešené soustavou rovnic
Copyright (C) 1999 VEMA počítače a projektování, spol. s r.o.1 Lucián Piller Intranet HR.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Kontakty slajdy: ftp://ulita.ms.mff.cuni.cz/predn/POS.
Vyhledávání v Internetu
Web Application Scanning
Transkript prezentace:

IZI 229 - Cvičení 1 Click-Stream analýza (analýza sekvencí) Berka Petr Kočka Tomáš Laš Vladimír

Obsah Co je Click-Stream analýza Praktický příklad Algoritmus hledání pravidel Implementace

Click-Stream 17. 3. 2005 Co je to Click-Stream Webové servery shromažďují obrovské množství dat (logové soubory) Tato data většinou nejsou dále využívána Tato data obsahují informace užitečné pro provoz serveru ? Jak tyto informace získat ?

Vlastnosti logových dat Click-Stream 17. 3. 2005 Vlastnosti logových dat Milióny záznamů Přibližně stejná podoba (time; IP address; session ID; page request; referee) Jednotlivé sessions (návštěvy jednoho uživatele) poměrně krátké (16 přístupů) Z požadované stránky lze poznat informace o stránce (u e-shopů např. typ stránky, typ zboží)

Příklad logového souboru Click-Stream 17. 3. 2005 Příklad logového souboru unix time ;IP address ; session ID ; page request; referee 1074589200;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/dp/?id=124 ;www.google.cz; 1074589201;194.213.35.234;3995b2c0599f1782e2b40582823b1c94;/dp/?id=182 ; 1074589202;194.138.39.56 ;2fd3213f2edaf82b27562d28a2a747aa;/ ;www.seznam.cz; 1074589233;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/dp/?id=148 ;/dp/?id=124; 1074589245;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/sb/ ;/dp/?id=148; 1074589248;194.138.39.56 ;2fd3213f2edaf82b27562d28a2a747aa;/contacts/ ; /; 1074589290;193.179.144.2 ;1993441e8a0a4d7a4407ed9554b64ed1;/sb/ ;/sb/; Příklad obsahuje 3 sessions

Click-Stream 17. 3. 2005 Předzpracování dat Z dat je z nich třeba vytvořit sekvence, které budeme analyzovat: Vytvořit časové sekvence stránek pro jednotlivé uživatele (sessions) Ze sekvence stránek (http adres) vytvořit sekvence analyzovaných „informací“ (sekvence typů stránek, sekvence druhů zboží) Lze přidat umělé „stránky“ ZAČÁTEK a KONEC Výsledná podoba: - start, lz, lz, dz, nk, end - start, 148, 128, end

Praktický příklad Internetový obchod Click-Stream 17. 3. 2005 Praktický příklad Internetový obchod Data za 24 dní (3 milióny záznamů) Logový soubor standardní informace Předzpracování dat: 200 000 uživatelů 1stránkové záznamy byly předem odstraněny Z těchto dat 2 základní vstupy: sekvence typů stránek a sekvence druhů zboží (30 kategorií)

Základní údaje Celkem přístupů 203 750 Shop1 35 864 Shop2 21 044 Click-Stream 17. 3. 2005 Základní údaje Celkem přístupů 203 750 Shop1 35 864 Shop2 21 044 Shop3 38 059 Shop4 48 656 Shop5 20 013 Shop6 27 498 Shop7 12 616

Základní údaje Nejvíce přístupů od jednoho uživatele: 15454 Click-Stream 17. 3. 2005 Základní údaje Nejvíce přístupů od jednoho uživatele: 15454 Průměrný počet přístupů: 16,186 Medián: 8 Modus: 2 Nejdelší čas: 433:27:53 (17 přístupů) Průměrný čas: 00:24:46 Medián: 0:03:08 Modus: 0:0:9

Shluková analýza Udělána pomocí MS SQL Server – Analysis services Click-Stream 17. 3. 2005 Shluková analýza Udělána pomocí MS SQL Server – Analysis services

Analýza statických dat Click-Stream 17. 3. 2005 Analýza statických dat Pomocí rozhodovacích stromů (pařezů) - SAS Pozorování: Lidé používající fulltextové vyhledávání se méně dívají na detaily zboží Závěry: Vyhledavač nenalezne to, co lidé chtějí.

Analýza statických dat Click-Stream 17. 3. 2005 Analýza statických dat Ukázka dalších pozorování: Při nákupu (návštěvě stránek s košíkem) se lidé často na něco ptají. Lidé čtoucí stránky poradny méně chodí na detaily a listy zboží. Při návštěvě stránky obchody-elektro se méně dívá na detaily zboží. Velmi málo přístupů na často kladené dotazy

Click-Stream 17. 3. 2005 Přechody mezi obchody Uděláno pomocí CSAnalyzeru vygenerováním všech pravidel délky 2 ze sekvencí obchodů Nepřineslo žádné zajímavé výsledky

Click-Stream 17. 3. 2005 Přechody mezi zbožím Uděláno pomocí CSAnalyzeru vygenerováním všech pravidel délky 2 ze sekvencí zboží Možné využít pro nabízení dalšího zboží uživateli Nejsilnější pravidlo: reproduktory-příslušenství -> video-DVD : 26,00% “Nejslabší” pravidlo: vysavače-žehličky -> pračky-sušičky : 3,80%

Analýza sekvencí Pomocí CSAnalyzeru Vybrány „zajímavá“ pravidla Click-Stream 17. 3. 2005 Analýza sekvencí Pomocí CSAnalyzeru Vybrány „zajímavá“ pravidla Pozorování: Lidé z faq chodí často dále do poradny Pravidlo: faq ->poradna předpoklad: 594 z toho závěr: 127 P: 21% Závěry: Na faq lidé nenajdou, co chtějí a hledají dále. Pozorování: Často lidé vyhledávají fultextem vícekrát za sebou Pravidlo: findf ->findf předpoklad: 52961 z toho závěr: 23298 P: 44% Závěry: Nenajdou co chtějí. Nevědí, jak hledat (co zadávat) Nejsilnější nalezené pravidlo Pravidlo: dt, kosik ->kosik předpoklad: 5174 z toho závěr: 4801 P: 93%

Click-Stream 17. 3. 2005 Závěry analýzy „Klasické“ metody a analýza sekvencí se částečně překrývají a částečně doplňují – pro získání více znalostí je třeba dělat oboje Některá „zajímavá“ pravidla odhalí jen člověk, který dobře zná dané stránky V datech se nepodařilo najít delší „zajímavá“ pravidla

Algoritmus hledání pravidel Click-Stream 17. 3. 2005 Algoritmus hledání pravidel Příklad sekvence: ABCDX Sekvenční pravidla DX, CD  X, BCD  X Obecná asociační pravidla A  X, AC  X, BD  X

Click-Stream 17. 3. 2005 Sekvenční pravidla Pokud je k pravidlu D X přidáno pravidlo CD X, mění se význam pravidla D X na (D, ale ne CD) X Př: 1. D X Ant: 9 AntSuc: 2 2. přidáme CD X Ant: 2 AntSuc: 2 změní se D X Ant: 7 AntSuc: 0

Click-Stream 17. 3. 2005 Sekvenční pravidla Je-li „správné“ pravidlo ABCDX, pak proces specializace, který ho najde je pouze tento: X, DX, CDX, BCDX, ABCDX Rozhodnutí o hledání dalších specializací je prováděno na základě ch2testu Neexistují konflikty mezi pravidly s výjimkou případu, kdy jedno pravidlo je specializací druhého (to umožňuje implementaci rychlého algoritmu na rozdíl od CN2)

Algoritmus pokrývání množin Click-Stream 17. 3. 2005 Algoritmus pokrývání množin Inicializace pro každou stránku page vyskytující se v datech spočítej její relativní četnost v datech jako P = počet_výskytů_stránky_na_pozici_lmax + 1 / počet_sekvencí_délky_lmax + 1 2. je-li četnost P  nmin, 2.1 zařaď do seznamu pravidel Rules pravidlo default  page 2.2 zařaď page do seznamu uvažovaných stranek Pages 3. Spusť hlavní cyklus s pomocným pravidlem * => *

- má-li aktuální pravidlo Ant page délku Ant menší než lmax Click-Stream 17. 3. 2005 Hlavní cyklus dokud není konec - má-li aktuální pravidlo Ant page délku Ant menší než lmax - pro všechny stránky pp z Pages najdi k pravidlu ppAnt  page nadpravidlo z Rules (pravděpodobně Ant  page, ale může se jednat o zkráceninu o více než jednu stránku zleva, extrémně až …  page – označme je Antx page) spočti chi2 test srovnáním ppAnt  page a Antxpage vyber maximální chi2 pravidlo ppAnt  page Pokud chi2<alfa pak Přidej ppAnt  page do Rules Uprav nadpravidlo Antx page pravidla ppAnt  page v Rules Otestuj významnost pravidla Antx page ve srovnání s jeho nadpravidlem v Rules a pokud nesplňuje významnost chi2 testu na hladině alfa pak vyjmi toto nadpravidlo z Rules a uprav jeho nadpravidlo, dtto …

Kompozicionální algoritmus Click-Stream 17. 3. 2005 Kompozicionální algoritmus Inicializace pro každou stránku page vyskytující se v datech spočítej její relativní četnost v datech jako P = počet_výskytů_stránky_na_pozici_lmax + 1 / počet_sekvencí_délky_lmax + 1 2. je-li četnost P  nmin, 2.1 zařaď do seznamu pravidel Rules pravidlo default  page 2.2 zařaď page do seznamu uvažovaných stranek Pages 2.3 zařaď default  page do seznamu implikací Impl

1. vezmi implikaci Ant  page z Impl Click-Stream 17. 3. 2005 1. vezmi implikaci Ant  page z Impl 2. je-li délka Ant menší než lmax pak pro každou stranu pp z Pages 2.1 prodluž Ant na ppAnt 2.2 je-li četnost ppAnt v datech  nmin pak 2.2.1 spočítej platnost pravidla ppAnt  page jako P(ppAnt=>page) = počet_výskytů_ppAntpage / počet_výskytů_ppAnt 2.2.2 z pravidel v Rules, jejichž je ppAnt  page levostranným rozšířením spočítej váhu w(ppAnt) 2.2.3 pokud se váha w(ppAnt) významně liší od platnosti P(ppAnt  page) pak 2.2.3.1 spočítej váhu w: w  w(ppAnt) = P(ppAnt  page) 2.2.3.2 zařaď pravidlo ppAnt  page(w) do Rules 2.2.4 přidej implikaci ppAnt  page na konec Impl

Click-Stream 17. 3. 2005 Implementace

Implementace Vývojové prostředí Borland’s Delphi Click-Stream 17. 3. 2005 Implementace Vývojové prostředí Borland’s Delphi Operační systém Windows Procesor > 600 MHz Paměť – čtyřnásobek vstupních dat

Click-Stream 17. 3. 2005 Implementace Algoritmus implementován jako objekt => lze snadno přidat jiný algoritmus Vyhledávání běží v samostatném vlákně => lze prohlížet částečné výsledky (případně včas přerušit vyhledávání) V systému zabudováno predikování na základě nalezených pravidel Ukládání pravidel, export, …

Click-Stream 17. 3. 2005 Implementace Systém umožňuje testování, tj. na základě vstupních dat určí pro každou stránku, kolikrát by podle vybraných pravidel byla predikovaná stránka správná a kolikrát špatná (pro sekvence typů stránek jsme dostali celkovou úspěšnost s 60 pravidly cca 60% [při predikování majoritní třídy bychom dostali 40%], jednotlivé stránky se pohybovaly mezi 30 – 80 %)

Click-Stream 17. 3. 2005 Testování algoritmů