Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Obsah Úvod Cíle Paketový filtr Generování uživatelova profilu Personální vyhledávač Závěr 2 Filtrace web stránek s využitím profilu uživatele
Úvod Neustálé zvětšování objemu dat na webu Uživatel náročnější Vyšší nároky na internetové vyhledávače Vyhledávače vracejí miliony relevantních odkazů Předkládané výsledky jsou řazeny podle globálních kritérií Potřeba personalizovaného vyhledávání Podle společnosti Imation jsou ročně vyprodukovány dva exabajty digitálních dat (532 km DVDček) 3 Filtrace web stránek s využitím profilu uživatele
Cíle Vytvoření systému pro určování profilu uživatele Návrh a vývoj personálního vyhledávače Testování 4 Filtrace web stránek s využitím profilu uživatele
Paketový filtr Prostředek pro získání dat charakterizujících uživatele Získává textový obsah navštívených webových stránek Síťové pakety jsou odchytávány nad všemi síťovými rozhraními počítače Nezávislost na použitém prohlížeči Získaná data jsou odesílána prostřednictvím protokolu HTTP na server Uživatel má kontrolu nad poskytovanými daty 5 Filtrace web stránek s využitím profilu uživatele
Prostředek realizace Programovací jazyk Java Knihovna Jpcap (a Java library for capturing and sending network packets) Filtrace web stránek s využitím profilu uživatele6
Generování uživatelova profilu Vstupní data ◦Textový obsah uživatelem navštívených webových stránek (uloženy v databázi) ◦Hloubka Suffix Tree = Maximální délka fráze ◦Jazyk ◦Práh vytváření shluků Postup vytváření profilu ◦Úprava stránky (odstranění tagů, získání textu, …) ◦Rozpoznání jazyka ◦Lemmatizace slov ◦Odstranění stop-slov ◦Vložení slov stránky do Suffix Tree ◦Získání množiny nejlépe ohodnocených frází ◦Generování shluků frází (zájmové okruhy uživatele) Filtrace web stránek s využitím profilu uživatele7
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele8 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“ Budeme vytvářet Suffix Tree fráze délky 3 => hloubka stromu bude 3 Jsou dány dokumenty
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele9 bratr 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele10 bratr 1 často 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele11 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele12 často 1 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele13 často 1 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele14 často 1 bratr 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele15 často 1 bratr 1 mýt 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele16 často 1 bratr 1 mýt 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele17 často 1 bratr 1 mýt 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele18 často 1 bratr 1 mýt 1 auto 1 sestra 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele19 často 1 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele20 často 1 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele21 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele22 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele23 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele24 často 2 bratr 1 mýt 1 auto 1 sestra 1 řídit 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele25 často 2 bratr 1 mýt 1 auto 1 sestra 1 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele26 často 2 bratr 1 mýt 1 auto 2 sestra 1 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele27 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele28 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele29 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele30 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele31 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele32 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele33 často 3 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele34 často 3 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele35 často 3 bratr 2 mýt 2 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“
Výpočet ohodnocení fráze Z výsledné Suffix Tree struktury následně získáme jednotlivé fráze, jejichž maximální délka je rovna hloubce stromu a na základě vzorce určíme jejich ohodnocení. Jednotlivé symboly mají následující význam: F_ohod ◦Ohodnocení dané fráze F_čet ◦Četnost konkrétní fráze v kolekci dokumentů N_k,max ◦Počet výskytů nejčastější fráze délky k v kolekci dokumentů Filtrace web stránek s využitím profilu uživatele36
Vytváření shluků frází I. Z ohodnocených frází, které charakterizují danou kolekci dokumentů, je možné vytvořit shluky frází Shluky frází představují jednotlivé zájmové oblasti uživatele Počet shluků, který bude vytvořen není předem známý Filtrace web stránek s využitím profilu uživatele37
Vytváření shluků frází II. Vytváření shluků je založeno na podobnosti frází Princip je založen na předpokladu, že fráze vyskytující se často v jednom dokumentu jsou podobné Filtrace web stránek s využitím profilu uživatele38
Podobnost shluků Mějme dvě fráze f_a, f_b. Tyto fráze jsou podobné jestliže platí: D_a Počet dokumentů obsahujících frázi f_a D_b ◦Počet dokumentů obsahujících frázi f_b k ◦Prahová konstanta ovlivňující snadnost vytváření shluků Filtrace web stránek s využitím profilu uživatele39
Vytváření shluků frází III. Hledáním podobnosti mezi jednotlivými frázemi získáme několik shluků Podobné shluky sjednotíme Výsledkem je množina shluků frází reprezentující zájmové oblasti uživatele Získaný zájmový profil je možné použít k ovlivnění uživatelova dotazu Filtrace web stránek s využitím profilu uživatele40
Personální vyhledávač I. Vybraným shlukem (shluky) je možné ovlivnit vyhledávání Uživatel volí shluk nebo shluky, kterými chce dotaz ovlivnit Ovlivnění dotazu je prováděno postupným rozšířením dotazu o jednotlivé fráze shluku Dále zadává hloubku vyhledávání – tj. kolik stránek má personální vyhledávač načítat pro každý rozšířený dotaz Dalšími parametry jsou např. jazyk hledání, hledání stránek s podobným obsahem, … Jednotlivé shluky je možné upravovat, nebo vytvářen vlastní Filtrace web stránek s využitím profilu uživatele41
Personální vyhledávač II. Obsah jednotlivých načtených stránek je porovnáván s profilem uživatele Jednotlivým stránkám je přiřazováno skóre hodnotící míru schody s profilem uživatele Ohodnocené stránky jsou sestupně řazeny podle dosaženého skóre Uživatel má tak na prvním místě stránku, která nejlépe zapadá do jeho profilu Filtrace web stránek s využitím profilu uživatele42
Závěr Generátor profilu by bylo vhodné rozšířit o reklamní filtr Doba odezvy vyhledávače roste přímo úměrně s počtem načítaných stránek, ale zároveň roste i kvalita předkládaných výsledků Prakticky se ukazuje, že dotaz ovlivněný vhodně zvoleným shlukem, který zapadá do příslušné zájmové oblasti uživatele, poskytuje výsledky přesněji zapadající do jeho zájmového profilu Filtrace web stránek s využitím profilu uživatele43
Konec prezentace Otázky? Filtrace web stránek s využitím profilu uživatele44