Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Filtrace web stránek s využitím profilu uživatele Petr Doskočil

Podobné prezentace


Prezentace na téma: "Filtrace web stránek s využitím profilu uživatele Petr Doskočil"— Transkript prezentace:

1 Filtrace web stránek s využitím profilu uživatele Petr Doskočil Petr.Doskocil@email.cz

2 Obsah Úvod Cíle Paketový filtr Generování uživatelova profilu Personální vyhledávač Závěr 2 Filtrace web stránek s využitím profilu uživatele

3 Úvod Neustálé zvětšování objemu dat na webu Uživatel náročnější Vyšší nároky na internetové vyhledávače Vyhledávače vracejí miliony relevantních odkazů Předkládané výsledky jsou řazeny podle globálních kritérií Potřeba personalizovaného vyhledávání Podle společnosti Imation jsou ročně vyprodukovány dva exabajty digitálních dat (532 km DVDček) 3 Filtrace web stránek s využitím profilu uživatele

4 Cíle Vytvoření systému pro určování profilu uživatele Návrh a vývoj personálního vyhledávače Testování 4 Filtrace web stránek s využitím profilu uživatele

5 Paketový filtr Prostředek pro získání dat charakterizujících uživatele Získává textový obsah navštívených webových stránek Síťové pakety jsou odchytávány nad všemi síťovými rozhraními počítače Nezávislost na použitém prohlížeči Získaná data jsou odesílána prostřednictvím protokolu HTTP na server Uživatel má kontrolu nad poskytovanými daty 5 Filtrace web stránek s využitím profilu uživatele

6 Prostředek realizace Programovací jazyk Java Knihovna Jpcap (a Java library for capturing and sending network packets) Filtrace web stránek s využitím profilu uživatele6

7 Generování uživatelova profilu Vstupní data ◦Textový obsah uživatelem navštívených webových stránek (uloženy v databázi) ◦Hloubka Suffix Tree = Maximální délka fráze ◦Jazyk ◦Práh vytváření shluků Postup vytváření profilu ◦Úprava stránky (odstranění tagů, získání textu, …) ◦Rozpoznání jazyka ◦Lemmatizace slov ◦Odstranění stop-slov ◦Vložení slov stránky do Suffix Tree ◦Získání množiny nejlépe ohodnocených frází ◦Generování shluků frází (zájmové okruhy uživatele) Filtrace web stránek s využitím profilu uživatele7

8 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele8 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“ Budeme vytvářet Suffix Tree fráze délky 3 => hloubka stromu bude 3 Jsou dány dokumenty

9 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele9 bratr 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

10 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele10 bratr 1 často 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

11 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele11 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

12 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele12 často 1 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

13 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele13 často 1 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

14 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele14 často 1 bratr 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

15 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele15 často 1 bratr 1 mýt 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

16 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele16 často 1 bratr 1 mýt 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

17 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele17 často 1 bratr 1 mýt 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

18 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele18 často 1 bratr 1 mýt 1 auto 1 sestra 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

19 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele19 často 1 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

20 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele20 často 1 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

21 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele21 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

22 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele22 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

23 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele23 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

24 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele24 často 2 bratr 1 mýt 1 auto 1 sestra 1 řídit 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

25 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele25 často 2 bratr 1 mýt 1 auto 1 sestra 1 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

26 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele26 často 2 bratr 1 mýt 1 auto 2 sestra 1 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

27 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele27 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

28 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele28 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

29 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele29 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

30 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele30 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

31 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele31 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

32 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele32 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

33 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele33 často 3 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

34 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele34 často 3 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

35 Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele35 často 3 bratr 2 mýt 2 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

36 Výpočet ohodnocení fráze Z výsledné Suffix Tree struktury následně získáme jednotlivé fráze, jejichž maximální délka je rovna hloubce stromu a na základě vzorce určíme jejich ohodnocení. Jednotlivé symboly mají následující význam: F_ohod ◦Ohodnocení dané fráze F_čet ◦Četnost konkrétní fráze v kolekci dokumentů N_k,max ◦Počet výskytů nejčastější fráze délky k v kolekci dokumentů Filtrace web stránek s využitím profilu uživatele36

37 Vytváření shluků frází I. Z ohodnocených frází, které charakterizují danou kolekci dokumentů, je možné vytvořit shluky frází Shluky frází představují jednotlivé zájmové oblasti uživatele Počet shluků, který bude vytvořen není předem známý Filtrace web stránek s využitím profilu uživatele37

38 Vytváření shluků frází II. Vytváření shluků je založeno na podobnosti frází Princip je založen na předpokladu, že fráze vyskytující se často v jednom dokumentu jsou podobné Filtrace web stránek s využitím profilu uživatele38

39 Podobnost shluků Mějme dvě fráze f_a, f_b. Tyto fráze jsou podobné jestliže platí: D_a Počet dokumentů obsahujících frázi f_a D_b ◦Počet dokumentů obsahujících frázi f_b k ◦Prahová konstanta ovlivňující snadnost vytváření shluků Filtrace web stránek s využitím profilu uživatele39

40 Vytváření shluků frází III. Hledáním podobnosti mezi jednotlivými frázemi získáme několik shluků Podobné shluky sjednotíme Výsledkem je množina shluků frází reprezentující zájmové oblasti uživatele Získaný zájmový profil je možné použít k ovlivnění uživatelova dotazu Filtrace web stránek s využitím profilu uživatele40

41 Personální vyhledávač I. Vybraným shlukem (shluky) je možné ovlivnit vyhledávání Uživatel volí shluk nebo shluky, kterými chce dotaz ovlivnit Ovlivnění dotazu je prováděno postupným rozšířením dotazu o jednotlivé fráze shluku Dále zadává hloubku vyhledávání – tj. kolik stránek má personální vyhledávač načítat pro každý rozšířený dotaz Dalšími parametry jsou např. jazyk hledání, hledání stránek s podobným obsahem, … Jednotlivé shluky je možné upravovat, nebo vytvářen vlastní Filtrace web stránek s využitím profilu uživatele41

42 Personální vyhledávač II. Obsah jednotlivých načtených stránek je porovnáván s profilem uživatele Jednotlivým stránkám je přiřazováno skóre hodnotící míru schody s profilem uživatele Ohodnocené stránky jsou sestupně řazeny podle dosaženého skóre Uživatel má tak na prvním místě stránku, která nejlépe zapadá do jeho profilu Filtrace web stránek s využitím profilu uživatele42

43 Závěr Generátor profilu by bylo vhodné rozšířit o reklamní filtr Doba odezvy vyhledávače roste přímo úměrně s počtem načítaných stránek, ale zároveň roste i kvalita předkládaných výsledků Prakticky se ukazuje, že dotaz ovlivněný vhodně zvoleným shlukem, který zapadá do příslušné zájmové oblasti uživatele, poskytuje výsledky přesněji zapadající do jeho zájmového profilu Filtrace web stránek s využitím profilu uživatele43

44 Konec prezentace Otázky? Filtrace web stránek s využitím profilu uživatele44


Stáhnout ppt "Filtrace web stránek s využitím profilu uživatele Petr Doskočil"

Podobné prezentace


Reklamy Google