Filtrace web stránek s využitím profilu uživatele Petr Doskočil

Slides:



Advertisements
Podobné prezentace
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Advertisements

Tvorba webových stránek
Jak vzniká mobilní stránka Seznamu
Microsoft Office OneNote
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
VYHLEDÁVÁNÍ V DIGITÁLNÍ KNIHOVNĚ VYSOKOŠKOLSKÝCH KVALIFIKAČNÍCH PRACÍ DSPACE.
Internet Definice Historie Použití Programy pro práci s internetem
Tutoriál MEDLINE Complete ~ Vyhledávání support.ebsco.com.
Algoritmy zpracování textů II
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Světlana Filipová. Materiál zpracován v rámci projektu Implementace ICT techniky do výuky.
Tutoriál EBSCO Discovery Service ~ Jednoduché vyhledávání
Informace – vyhledávání informací
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Architektura databází Ing. Dagmar Vítková. Centrální architektura V této architektuře jsou data i SŘBD v centrálním počítači. Tato architektura je typická.
Vyhledávání podobností v datech s využitím singulárního rozkladu
PHP – Základy programování
Tutoriál Vyhledávání v obchodních databázích Business Source
ICQ. Co je ICQ? ICQ je nejpoužívanější a nejpopulárnější komunikační program. ICQ je zkratka slangového výrazu „I seek you“ (hledám tě). Slouží ke komunikaci.
Algoritmy vyhledávání a řazení
Serials Solutions – další krok k rozvoji informačních e-služeb knihoven ČVUT Ilona Trtíková Bibliotheca academica – Cíle a perspektivy vysokoškolských.
Databázové systémy Architektury DBS.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
MS ACCESS parametrický dotaz
Maturitní okruh 22: Úvod do HTML. Značkovací a klasické jazyky Klasické: převládá strukturovaný text (programovací kód), skripty jsou prováděny na straně.
1 © Mediaresearch, a.s., 2008 NetMonitor a AdMonitoring Výsledky za říjen 2008.
Dokumentace objektů a zveřejnění funkcí
Programové vybavení počítače
Vyhledávání informací na internetu
Databáze Dotazy VY_32_INOVACE_7B16. Dotazy umožňuje vybrat určité záznamy z tabulky na rozdíl od filtru vybrané záznamy umístí do samostatné dočasné nebo.
Internet.  Celosvětový systém propojených počítačů  Funkce  Sdílení dat  Elektronická pošta.
WWW – hypertextový informační systém
uložené procedury (stored procedures) triggery, sekvence, pohledy, funkce, parametrické dotazy (prepared statements) komplexní agregace a SQL dotazy jiné.
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Realtime identifikace osob podle hlasu
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
AKM'06 Praha NA Nové nástroje pro archivaci webu Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Základní škola a mateřská škola Bzenec Číslo projektu: CZ.1.07/1.4.00/ Číslo a název šablony klíčové aktivity: III/2: využívání ICT – inovace Vypracoval/a:
Jak vyhledávat informace na Internetu?
CZ.1.07/1.4.00/ VY_32_INOVACE_154_IT5 Výukový materiál zpracovaný v rámci projektu Vzdělávací oblast: Informační a komunikační technologie Předmět:Informatika.
Projekt Perfull Personifikovaný fulltextový vyhledavač Vedoucí: RNDr. Leo Galamboš, Ph.D. Řešitelé: Ondrej Bechera Vojtěch Kulvait Eva Kustrová Ondřej.
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
Školení WordPress a publikování na webu Mgr. Pavel Krejčí
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
IBM - CVUT Student Research Projects Google search by voice Tomáš Losert – Karel Beyr –
Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Architektura databází DBS=SŘBD+DB
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
Stanice v síti učební texty pro deváté ročníky ZŠ.
Program pro detekci síťových útoků Marek Lapák. Úvod Rozmach počítačových sítí – Internetu  Stále více činností se uskutečňuje prostřednictvím počítačů.
ŠkolaZŠ Třeboň, Sokolská 296, Třeboň AutorMgr. Miroslava Tomanová Číslo VY_32_INOVACE_3466 NázevInternet - úvodní pojmy Téma hodinyInternet – úvodní.
_ KOMUNIKAČNÍ A MEDIÁLNÍ STRATEGIE KAMPANĚ NA 1.
Jak fungují webové stránky Úvod do HTML (1). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická.
Workshop, Knihovna AV ČR, 4. října 2010 Mgr. Tomáš Foltýn Kramerius 4 Uživatelské rozhraní Do verze
Pojmy internetu Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastInternetové technologie, programování Datum vytvoření2012.
Přehled změn na portálu upgrade redakčního systému Marwel, nasazení modulu pro správu souborů a fulltextové vyhledávání
Číslo projektu školy CZ.1.07/1.5.00/
TIPY A RADY PRO PRÁCI S WEB OF SCIENCE – SLUŽBY DOSTUPNÉ PO REGISTRACI
Základní škola a mateřská škola Lázně Kynžvart Autor: Mgr
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Pohled uživatele Jindřiška Pospíšilová Národní knihovna ČR
Přehled změn na portálu
Podpora adaptivní navigace
Přehled změn na portálu
Web Application Scanning
EBSCO Centrum informačních a knihovnických služeb VŠE
Transkript prezentace:

Filtrace web stránek s využitím profilu uživatele Petr Doskočil

Obsah Úvod Cíle Paketový filtr Generování uživatelova profilu Personální vyhledávač Závěr 2 Filtrace web stránek s využitím profilu uživatele

Úvod Neustálé zvětšování objemu dat na webu Uživatel náročnější Vyšší nároky na internetové vyhledávače Vyhledávače vracejí miliony relevantních odkazů Předkládané výsledky jsou řazeny podle globálních kritérií Potřeba personalizovaného vyhledávání Podle společnosti Imation jsou ročně vyprodukovány dva exabajty digitálních dat (532 km DVDček) 3 Filtrace web stránek s využitím profilu uživatele

Cíle Vytvoření systému pro určování profilu uživatele Návrh a vývoj personálního vyhledávače Testování 4 Filtrace web stránek s využitím profilu uživatele

Paketový filtr Prostředek pro získání dat charakterizujících uživatele Získává textový obsah navštívených webových stránek Síťové pakety jsou odchytávány nad všemi síťovými rozhraními počítače Nezávislost na použitém prohlížeči Získaná data jsou odesílána prostřednictvím protokolu HTTP na server Uživatel má kontrolu nad poskytovanými daty 5 Filtrace web stránek s využitím profilu uživatele

Prostředek realizace Programovací jazyk Java Knihovna Jpcap (a Java library for capturing and sending network packets) Filtrace web stránek s využitím profilu uživatele6

Generování uživatelova profilu Vstupní data ◦Textový obsah uživatelem navštívených webových stránek (uloženy v databázi) ◦Hloubka Suffix Tree = Maximální délka fráze ◦Jazyk ◦Práh vytváření shluků Postup vytváření profilu ◦Úprava stránky (odstranění tagů, získání textu, …) ◦Rozpoznání jazyka ◦Lemmatizace slov ◦Odstranění stop-slov ◦Vložení slov stránky do Suffix Tree ◦Získání množiny nejlépe ohodnocených frází ◦Generování shluků frází (zájmové okruhy uživatele) Filtrace web stránek s využitím profilu uživatele7

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele8 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“ Budeme vytvářet Suffix Tree fráze délky 3 => hloubka stromu bude 3 Jsou dány dokumenty

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele9 bratr 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele10 bratr 1 často 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele11 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele12 často 1 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele13 často 1 bratr 1 často 1 mýt 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele14 často 1 bratr 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele15 často 1 bratr 1 mýt 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele16 často 1 bratr 1 mýt 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele17 často 1 bratr 1 mýt 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele18 často 1 bratr 1 mýt 1 auto 1 sestra 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele19 často 1 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele20 často 1 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele21 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele22 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele23 často 2 bratr 1 mýt 1 auto 1 sestra 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele24 často 2 bratr 1 mýt 1 auto 1 sestra 1 řídit 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele25 často 2 bratr 1 mýt 1 auto 1 sestra 1 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele26 často 2 bratr 1 mýt 1 auto 2 sestra 1 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele27 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele28 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele29 často 2 bratr 1 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele30 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 1 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele31 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele32 často 2 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele33 často 3 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele34 často 3 bratr 2 mýt 1 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Suffix Tree fráze Filtrace web stránek s využitím profilu uživatele35 často 3 bratr 2 mýt 2 auto 2 sestra 2 řídit 1 auto 1 bratr 1 často 1 auto 1 často 2 řídit 1 mýt 2 auto 1 často 1 řídit 1 1)„bratr často myje auto“ 2)„sestra často řídí auto“ 3)„sestra bratra často myje“

Výpočet ohodnocení fráze Z výsledné Suffix Tree struktury následně získáme jednotlivé fráze, jejichž maximální délka je rovna hloubce stromu a na základě vzorce určíme jejich ohodnocení. Jednotlivé symboly mají následující význam: F_ohod ◦Ohodnocení dané fráze F_čet ◦Četnost konkrétní fráze v kolekci dokumentů N_k,max ◦Počet výskytů nejčastější fráze délky k v kolekci dokumentů Filtrace web stránek s využitím profilu uživatele36

Vytváření shluků frází I. Z ohodnocených frází, které charakterizují danou kolekci dokumentů, je možné vytvořit shluky frází Shluky frází představují jednotlivé zájmové oblasti uživatele Počet shluků, který bude vytvořen není předem známý Filtrace web stránek s využitím profilu uživatele37

Vytváření shluků frází II. Vytváření shluků je založeno na podobnosti frází Princip je založen na předpokladu, že fráze vyskytující se často v jednom dokumentu jsou podobné Filtrace web stránek s využitím profilu uživatele38

Podobnost shluků Mějme dvě fráze f_a, f_b. Tyto fráze jsou podobné jestliže platí: D_a Počet dokumentů obsahujících frázi f_a D_b ◦Počet dokumentů obsahujících frázi f_b k ◦Prahová konstanta ovlivňující snadnost vytváření shluků Filtrace web stránek s využitím profilu uživatele39

Vytváření shluků frází III. Hledáním podobnosti mezi jednotlivými frázemi získáme několik shluků Podobné shluky sjednotíme Výsledkem je množina shluků frází reprezentující zájmové oblasti uživatele Získaný zájmový profil je možné použít k ovlivnění uživatelova dotazu Filtrace web stránek s využitím profilu uživatele40

Personální vyhledávač I. Vybraným shlukem (shluky) je možné ovlivnit vyhledávání Uživatel volí shluk nebo shluky, kterými chce dotaz ovlivnit Ovlivnění dotazu je prováděno postupným rozšířením dotazu o jednotlivé fráze shluku Dále zadává hloubku vyhledávání – tj. kolik stránek má personální vyhledávač načítat pro každý rozšířený dotaz Dalšími parametry jsou např. jazyk hledání, hledání stránek s podobným obsahem, … Jednotlivé shluky je možné upravovat, nebo vytvářen vlastní Filtrace web stránek s využitím profilu uživatele41

Personální vyhledávač II. Obsah jednotlivých načtených stránek je porovnáván s profilem uživatele Jednotlivým stránkám je přiřazováno skóre hodnotící míru schody s profilem uživatele Ohodnocené stránky jsou sestupně řazeny podle dosaženého skóre Uživatel má tak na prvním místě stránku, která nejlépe zapadá do jeho profilu Filtrace web stránek s využitím profilu uživatele42

Závěr Generátor profilu by bylo vhodné rozšířit o reklamní filtr Doba odezvy vyhledávače roste přímo úměrně s počtem načítaných stránek, ale zároveň roste i kvalita předkládaných výsledků Prakticky se ukazuje, že dotaz ovlivněný vhodně zvoleným shlukem, který zapadá do příslušné zájmové oblasti uživatele, poskytuje výsledky přesněji zapadající do jeho zájmového profilu Filtrace web stránek s využitím profilu uživatele43

Konec prezentace Otázky? Filtrace web stránek s využitím profilu uživatele44