Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analýza chování návštěvníků na webu Web Usage Mining, Clickstream Analysis, Web Analytics Tomáš Kliegr.

Podobné prezentace


Prezentace na téma: "Analýza chování návštěvníků na webu Web Usage Mining, Clickstream Analysis, Web Analytics Tomáš Kliegr."— Transkript prezentace:

1 Analýza chování návštěvníků na webu Web Usage Mining, Clickstream Analysis, Web Analytics Tomáš Kliegr

2 Osnova Definice Sběr dat Předzpracování JS tracker Google Analytics

3 Definice Clickstream analysis: proces sběru, analýzy a reportování agregátních dat o tom, jaké stránky si návštěvníci zobrazují a v jakém pořadí Web Usage Mining (přibližně): clickstream analýza jako vědecká disciplína Web Analytics (přibližně): clickstream analýza v praxi

4 Cíle clickstream analýzy Úlohy clickstream analýzy se obvykle rozdělují na: Analýzu provozu (traffic analysis) – Cesty návštěvníků po webu – Důraz na typické chování návštěvníků E-Commerce analýzu – Určení efektivity prodeje – Důraz na referrery (odkud návštěvník přišel?) a konverze (koupil něco?)

5 Způsoby sběru dat Log webového serveru Proxy servery TCP/IP packet sniffer – Příliš složité v praxi (facca?) Javascript tracker Klientská aplikace (toolbar) Každý z uvedených způsobů má své klady a zápory Vhodné kombinovat

6 Log webového serveru Webové servery (IIS, Apache) lze nastavit tak, aby vytvářely záznamy o požadavcích na ně učiněných Historicky zřejmě nejstarší způsob Dnes problémy s přesností

7 Příklad položek logu REMOTE HOST IP REMOTE HOST LOGIN NAME AUTH Login DATE REQUEST - přesné znění příkazu zaslaného webovému serveru WEB SERVER’s RETURN CODE SIZE OF RETURNED FILE REFERRER – URL stránky, která na požadovaný resource odkazovala USER AGENT

8 Proxy Servery Možnost získat data o provozu na vícero webech Nejkomplexnější data Zaznamená i požadavky, které na webový server vůbec nedorazí (jsou obslouženy proxy) Data z proxy serverů se dají koupit, nebo je možné je získat provozem vlastního proxy serveru – Google Web Accelarator: ”’..we may use log information about Google Web Accelerator usage to improve the quality of Google Web Accelerator and other Google services.“ Obvykle ale přístup k datům z dostatečně reprezentativního proxy serveru není k dispozici

9 Javascript Tracker Příklad realizace javascript trackeru (serverová část na MS technologii)

10 Klientská aplikace Java Applet(Shababi) Pomocí eyetrackeru lze např. studovat souvislost mezi pořadím linku ve výsledcích a pozorností, kterou získá. Míra pozornosti která se dostává linkům na 1. a 2. pozici je téměř stejná (Granka) – obr. ukazuje počet výsledků pod a nad vybraným dokumentem, který návštěvníci skenují

11 Javascript Tracker detailně Viz případová studie

12 Předzpracování získaných dat Liší se v závislosti od datového zdroje Náročná je kvalitní příprava dat z log souborů Pomocí Javascriptu to lze snadno

13 Předzpracování log souboru (Reichle et al)

14 Předzpracování log souboru Vynechání požadavků na obrázky Analýza refereru URL Encoding se používá pro zakódování speciálních znaků v URL – obvzlášť důležité v češtině Rozpoznání relací – existuje řada heuristik – Např. stejná zdrojová IP adresa a časový interval mezi dvěma požadavky max. 20 min. – Jedno ze slabých míst log souborů Identifikace robotů – lze dosáhnout cca 90% spolehlivost (Geens) – Seznamy user-agentů, IP adres, požadavek HEAD místo GET – Typicky nestahují obrázky a mají prázdná referrer Případně zpracování cookies, které mohou být v log souboru též uvedeny

15 Srovnání Bez problémů s proxy a cachemi Trackuje klient-side události (Javascript, Flash, Web 2.0) Klientské zachycení E-commerce dat Sběr dat v reálném čase Outsourcované aktualizace softwaru Efektivní ukládání dat, které může být snadno outsourcováno Znovupoužití historických dat Bez problémů s Firewally Lze sledovat bandwidth a dokončené downloady Automaticky sleduje spidery a roboty Automaticky sleduje návštěvníky z mobilních zařízení Transparentnost pro návštěvníka Špatné nastavení vede ke ztrátě dat Firewally mohou omezit použití tagů Výsledek měření je závislý na umístění tracking codu (začátek/konec body sekce) Nelze trackovat spidery Nepřesnosti spojené s proxy a cachováním Nelze sledovat události (js, Flash,W 2.0) Obecně složitější aktualizace a data storage Neefektivní datový formát Možné problémy v případě, že je použit přepis adres (ISAPI filter n. mod_rewrite) Upraveno dle Web analytics whitepape, Advanced-web-metrics.com Javascript (Page Tagging)Analýza logů

16 Kdy javascript tracker nemusí fungovat správně Prohlížeč nepodporuje cookies, podpora cookie je vypnuta nebo omezena na cookie prvních stran. Prohlížeč nestahuje obrázky Prohlížeč nepodporuje javascript Prohlížeč blokuje konkrétní scripty (adblocker) Reálným problémem je především podpora cookies – oom/NewsRoomArchive/2005/CookieRejection.aspx

17 Přehled komerčních řešení Špička – Omniture – Clicktracks – Webtrends „Contender“ – Google Analytics Jednoduché srovnání viz: web-data-sources.pdf Aktualizovaná srovnání produktů v Forrest Wave (r) – Web Analytics

18 Případová studie: Google Analytics INterceptor Rozšíření Google Analytics, které umí zasílat data jak na lokální server tak i na vzdálený Využívá možnosti placené verze Urchin, která umožňuje logovat požadavky i pomocí lokálního log souboru (vyšší přesnost) Google Analytics Google Analytics INterpceptor

19 Vložení trackovacího kódu

Reklamy Google