Analýza chování návštěvníků na webu Web Usage Mining, Clickstream Analysis, Web Analytics Tomáš Kliegr
Osnova Definice Sběr dat Předzpracování JS tracker Google Analytics
Definice Clickstream analysis: proces sběru, analýzy a reportování agregátních dat o tom, jaké stránky si návštěvníci zobrazují a v jakém pořadí Web Usage Mining (přibližně): clickstream analýza jako vědecká disciplína Web Analytics (přibližně): clickstream analýza v praxi
Cíle clickstream analýzy Úlohy clickstream analýzy se obvykle rozdělují na: Analýzu provozu (traffic analysis) – Cesty návštěvníků po webu – Důraz na typické chování návštěvníků E-Commerce analýzu – Určení efektivity prodeje – Důraz na referrery (odkud návštěvník přišel?) a konverze (koupil něco?)
Způsoby sběru dat Log webového serveru Proxy servery TCP/IP packet sniffer – Příliš složité v praxi (facca?) Javascript tracker Klientská aplikace (toolbar) Každý z uvedených způsobů má své klady a zápory Vhodné kombinovat
Log webového serveru Webové servery (IIS, Apache) lze nastavit tak, aby vytvářely záznamy o požadavcích na ně učiněných Historicky zřejmě nejstarší způsob Dnes problémy s přesností
Příklad položek logu REMOTE HOST IP REMOTE HOST LOGIN NAME AUTH Login DATE REQUEST - přesné znění příkazu zaslaného webovému serveru WEB SERVER’s RETURN CODE SIZE OF RETURNED FILE REFERRER – URL stránky, která na požadovaný resource odkazovala USER AGENT
Proxy Servery Možnost získat data o provozu na vícero webech Nejkomplexnější data Zaznamená i požadavky, které na webový server vůbec nedorazí (jsou obslouženy proxy) Data z proxy serverů se dají koupit, nebo je možné je získat provozem vlastního proxy serveru – Google Web Accelarator: ”’..we may use log information about Google Web Accelerator usage to improve the quality of Google Web Accelerator and other Google services.“ Obvykle ale přístup k datům z dostatečně reprezentativního proxy serveru není k dispozici
Javascript Tracker Příklad realizace javascript trackeru (serverová část na MS technologii)
Klientská aplikace Java Applet(Shababi) Pomocí eyetrackeru lze např. studovat souvislost mezi pořadím linku ve výsledcích a pozorností, kterou získá. Míra pozornosti která se dostává linkům na 1. a 2. pozici je téměř stejná (Granka) – obr. ukazuje počet výsledků pod a nad vybraným dokumentem, který návštěvníci skenují
Javascript Tracker detailně Viz případová studie
Předzpracování získaných dat Liší se v závislosti od datového zdroje Náročná je kvalitní příprava dat z log souborů Pomocí Javascriptu to lze snadno
Předzpracování log souboru (Reichle et al)
Předzpracování log souboru Vynechání požadavků na obrázky Analýza refereru URL Encoding se používá pro zakódování speciálních znaků v URL – obvzlášť důležité v češtině Rozpoznání relací – existuje řada heuristik – Např. stejná zdrojová IP adresa a časový interval mezi dvěma požadavky max. 20 min. – Jedno ze slabých míst log souborů Identifikace robotů – lze dosáhnout cca 90% spolehlivost (Geens) – Seznamy user-agentů, IP adres, požadavek HEAD místo GET – Typicky nestahují obrázky a mají prázdná referrer Případně zpracování cookies, které mohou být v log souboru též uvedeny
Srovnání Bez problémů s proxy a cachemi Trackuje klient-side události (Javascript, Flash, Web 2.0) Klientské zachycení E-commerce dat Sběr dat v reálném čase Outsourcované aktualizace softwaru Efektivní ukládání dat, které může být snadno outsourcováno Znovupoužití historických dat Bez problémů s Firewally Lze sledovat bandwidth a dokončené downloady Automaticky sleduje spidery a roboty Automaticky sleduje návštěvníky z mobilních zařízení Transparentnost pro návštěvníka Špatné nastavení vede ke ztrátě dat Firewally mohou omezit použití tagů Výsledek měření je závislý na umístění tracking codu (začátek/konec body sekce) Nelze trackovat spidery Nepřesnosti spojené s proxy a cachováním Nelze sledovat události (js, Flash,W 2.0) Obecně složitější aktualizace a data storage Neefektivní datový formát Možné problémy v případě, že je použit přepis adres (ISAPI filter n. mod_rewrite) Upraveno dle Web analytics whitepape, Advanced-web-metrics.com Javascript (Page Tagging)Analýza logů
Kdy javascript tracker nemusí fungovat správně Prohlížeč nepodporuje cookies, podpora cookie je vypnuta nebo omezena na cookie prvních stran. Prohlížeč nestahuje obrázky Prohlížeč nepodporuje javascript Prohlížeč blokuje konkrétní scripty (adblocker) Reálným problémem je především podpora cookies – oom/NewsRoomArchive/2005/CookieRejection.aspx
Přehled komerčních řešení Špička – Omniture – Clicktracks – Webtrends „Contender“ – Google Analytics Jednoduché srovnání viz: web-data-sources.pdf Aktualizovaná srovnání produktů v Forrest Wave (r) – Web Analytics
Případová studie: Google Analytics INterceptor Rozšíření Google Analytics, které umí zasílat data jak na lokální server tak i na vzdálený Využívá možnosti placené verze Urchin, která umožňuje logovat požadavky i pomocí lokálního log souboru (vyšší přesnost) Google Analytics Google Analytics INterpceptor
Vložení trackovacího kódu <script src=" analytics.com/urchin.js" type="text/javascript"> _ugifpath=" _userv=2; _uacct = "UA "; _udn="none"; _ulink=1; urchinTracker(); Upozornění: stará verze GA
Mechanizmus předávání kliknutí z javascriptu na sledovácí server if ((_userv==0 || _userv==2) && _uSP()) { i[ii]=new Image(1,1); i[ii].src=_ugifpath+"?"+"utmwv="+_uwv+s; i[ii].onload=function() { _uVoid(); } } if ((_userv==1 || _userv==2) && _uSP()) { i2[ii]=new Image(1,1); i2[ii].src=_ugifpath2+"?"+"utmwv="+_uwv+s+"&utmac ="+_uacct+"&utmcc="+c; i2[ii].onload=function() { _uVoid(); } } _ugifpath = analytics.com/_utm.gif Upozornění: stará verze GA