Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilMatěj Dušek
1
Sémantika webových stránek založená na webových vzorech Miloš Kudělka VŠB – Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky leden 2007
2
Publikace M. Kudělka. Vzory pro HCI a GUI. Sborník konference Tvorba softwaru 2004, Ostrava 2004. M. Kudělka, O. Lehečka, V. Snášel. Sémantika webových stránek založená na GUI vzorech. ITAT 2006, Nízké Tatry 2006. M. Kudělka, E. El-Qawasmeh, V. Snášel, O. Lehečka. Internet Search Using Web Patterns. IEEE konference IIT 2006, Dubaj, Spojené Arabské Emiráty 2006. M. Kudělka, V. Snášel, E. El-Qawasmeh, O. Lehečka, J. Tesařík. Domain Patterns and Semantic Annotation of Web Pages. IEEE konference ICDIM 2006, Bangalore, Indie 2006. M. Kudělka, V. Snášel, O. Lehečka, E. El-Qawasmeh. Semantic Annotation of Web Pages Using Web Patterns. IEEE/WIC/ACM konference WI-2006, Hong Kong 2006. M. Kudělka, V. Snášel, O. Lehečka, E. El-Qawasmeh. J. Pokorný. Semantic Annotation of Web Pages Using Web Patterns. IEEE/ACM konference SITIS 2006, Hammamet, Tunisko 2006. M. Kudělka, V. Snášel, E. El-Qawasmeh, O. Lehečka. Semantic Web: Web Patterns in Web Page Semantics. Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu, Ústav informatiky AV ČR, Praha 2006
3
Přehled Motivace a cíle Vzory a jazyky vzorů Extrakce webových vzorů Experimenty Závěr a budoucí práce
4
Motivace Vyhledávání na internetu. Problémy s orientací ve stále zvětšujícím se prostoru nestrukturovaných dat. Problém nedostatečně relevantních stránek v odpovědi na dotaz uživatele.
5
Motivace
6
Uživatel: Jak je můj požadavek? Uživatel: Jak sdělit požadavek vyhledávači? Vyhledávač: Jak zjistit, co je obsaženo v dotazu? Vyhledávač: Jak vyhledat relevantní stránky? Vyhledávač: Jak uspořádat a popsat vyhledané stránky? Uživatel : Jak vybrat vyhledané stránky?
7
Cíle Zjednodušení dotazování. –Katalogy, klíčová slova Zlepšení kvality odpovědi. –Útržky, náhledy, klasifikace, seskupování
8
Získání informací o stránce Při vzniku stránky –Meta-data vložená autorem Po analýze stránky –Struktura –Obsah –Kombinace
9
Východiska Přísné zaměření na uživatele a jeho očekávání. –Co uživatel očekává? A je schopen to zformulovat? Je toho mnoho… Nejlépe to ví tvůrci stránek. –Jejich posláním je očekávání uživatelů plnit. –Důkazem je, že kvalitní řešení jsou uživateli široce akceptována. –Řešení ve stejné doméně se na určité úrovni shodují.
10
Charakteristika domény Doména - uživatelé se specifickými požadavky a stránky se specifickým obsahem. Na různých stránkách stejného zaměření se vyskytují opakující se prvky - vzory. Vzory mohou poskytnout sémantickou informaci, která je postavena na jednoznačné a empiricky ověřené dohodě mezi tvůrci a uživateli. Skrytá a nepřetržitá interakce mezi uživateli a tvůrci se promítá do vzorů.
11
Architektura stránky
12
Vzory – data mining Informace uložená v datech –Pochopitelná pro uživatele –Ověřitelná na různých sadách dat –Užitečná pro uživatele
13
Vzory - návrh Architektura, Design Patterns, … Každý vzor je pravidlo, které obsahuje tři prvky a vyjadřuje vztah mezi jistou souvislostí, problémem a řešením. V podstatě jsou ve vzorech popsány charakteristické strukturální rysy a rysy chování, které zlepšují použitelnost architektury software, uživatelského rozhraní, webových stránek nebo čehokoliv jiného v určité doméně. Vzory činí věci použitelnějšími a jednoduššími na pochopení.
14
Vzory Název vzoru Popis problému, který se řeší V jakých souvislostech se problém řeší Samotné řešení Příklady řešení Vztahy s jinými vzory.
15
Vzory Vzory pro aplikační doménu Vzory pro HCIVzory pro softwarová řešení Uživatelské rozhraní Softwarový návrh Koncepty Úlohy Dialogy Objekty Arch. Návrh Implementace
16
HCI & GUI Patterns Poskytují řešení typických problémů při návrhu uživatelského rozhraní. Na obecné úrovni popisují, jak strukturovat informace v uživatelském rozhraní, s jakými uživatelskými prvky a jak s nimi pracovat. Nepopisují, jak se má vzor technicky implementovat, ale jak se má projevovat vůči uživateli.
18
Použití v doménách Různé domény pak poskytují prostředí pro použití HCI & GUI vzorů v konkrétním kontextu. Charakteristika vzorů je pak závislá na doméně. Prodej produktů na webu – webové vzory –zobrazení obchodních informací –možnost objednání –zobrazení podrobných informací
20
Doménově specifické menu
21
Obchodní informace
22
Diskuze a FAQ
23
Jazyk vzorů Vzory spolu souvisí a vyskytují se ve skupinách. Každý vzor má jméno, které popisuje způsob jeho použití. Pattern Language – popisný jazyk využívající vzory v jisté doméně.
24
Příklad Má jít o stránky s telefonem Nokia 9300, na níž je nahoře obchodní informace, možná také se speciální nabídkou, stránka by měla obsahovat možnost nákupu. Dále by na stránce měly být podrobnosti o produktu. Nebylo by špatné, kdyby dole na stránce byly komentáře a názory nebo diskuze a FAQ. Na stránkách s diskuzí je obvykle také možnost přihlášení.
25
Schematicky Nokia 9300 Chci nakoupit na internetu. Obchodní informace Možnost objednání Možnost přihlášení Nákup na splátkySpeciální nabídka
26
Jazyk vzorů Jazyk vzorů (Pattern Language) je orientovaný acyklický graf, kde –Každý uzel je vzor. –Množina hran, které vycházejí z uzlu - vzoru, je množina souvisejících vzorů. –Množina hran, které vstupují do uzlu, se nazývá kontext vzoru.
27
Související vzory Obsahuje (Contains) – jeden vzor obsahuje jiný vzor menšího rozsahu. Odvození (Derivation) – různé vzory mají podobnou strukturu a řeší podobný problém (obvykle je mezi nimi vztah generalizace – specializace). Využívá (Uses) – jeden vzor může využívat pro řešení problému jiný vzor. Doplňující (Complementary) – dva vzory se při řešení problému doplňují, jeden nemůže existovat bez druhého. Překrývání (Overlapping Coexistence) – Dva vzory řeší různé problémy, při jejich řešení se překrývají a koexistují vedle sebe. Alternativy (Alternatives) – Dva vzory řeší stejný problém různým, nicméně rovnocenným, způsobem.
28
Katalogy vzorů Knihy pro vývojáře, které jsou ve skutečnosti katalogy (vzorů jsou desítky…). Katalogy lze použít pro přirozený popis stránek. Pro technický popis také… Designing Interfaces: Patterns for Effective Interaction Design. The Design of Sites: Patterns, Principles, and Processes for Crafting a Customer-Centered Web Experience.
29
Extrakce vzorů Je možné automatizovat hledání vzoru na stránce? Jaké vlastnosti vzorů by se daly pro extrakci použít?
30
Vlastnosti vzoru Vzor je málo závislý na způsobu implementace. Vzor je hodně závislý na vnímání uživatele. Jednotlivé prvky jedné konkrétní instance vzoru jsou na stránce víceméně pohromadě.
31
Gestalt principy Blízkost (Proximity) – související informace bývají blízko u sebe. Podobnost (Similarity) – podobně vypadající prvky obsahují podobné informace. Souvislost (Continuity) – informace následují plynule za sebou a doplňují se. Celek (Closure) – související informace bývají společně uzavřeny do celků.
32
Webový vzor v kontextu stránky CO vzor reprezentuje na webové stránce (jméno - Obchodní Informace, Diskuze, Možnost nákupu apod.) KDY se vzor vyskytuje na webové stránce (doména, do které stránka patří - Možnost nákupu je v doméně prodeje produktů a služeb) JAK se vzor projevuje vůči uživateli (rozpoznatelnost pro uživatele)
33
Typy vzorů
34
Informační hodnota vzoru Vzor lze identifikovat - klíčová slova a datové typy. V různých klasifikacích vzorů se obvykle tyto vzory označují jako vzory pro úlohy a dialogy. Nezávislost na implementačních detailech.
35
Východisko pro hledání vzorů Jeden vzor na stránce chápat jako –skupinu charakteristických technických prvků vycházejících z HCI & GUI vzorů, –skupinu prvků charakteristických pro doménu, ve které se pohybujeme (slova a typy), –s tím, že uvedené prvky jsou pohromadě. Není tedy potřeba do hloubky zkoumat strukturu stránky, protože technické prvky poskytují pouze prostředí, ve kterém jsou související informace pohromadě.
36
Slovník vzoru Množina entit pro jeden vzor - slovník vzoru. Významnou vlastností slov ze slovníku je i to, že souvisí s doménou. –Slovník není příliš rozsáhlý. –Slova se vyskytují v jistých schématech. –Význam slov je víceméně jednoznačný. –Slova se vyskytují často.
37
Extrakce vzoru Zjednodušení na problém práce s množinou slov a datových typů. Algoritmy vycházející z Gestalt principů. V textu vyhledat části, které mohou reprezentovat instanci vzoru.
38
Algoritmus FOR each page entity in all page entities IF page entity is pattern entity THEN IF does not exist snippet to add page entity to THEN create new snippet in list of snippets END IF add page entity to snippet END IF END FOR FOR each snippet in list of snippets compute proximity of snippet compute closure of snippet compute value(proximity, closure) of snippet IF value is not good enough THEN remove snippet from list of snippets END IF END FOR compute similarity of list of snippets compute continuity of list of snippets compute value(similarity, continuity) of pattern RETURN value
39
Algoritmus Proximity - jak měřit vzdálenost mezi entitami v nalezených úsecích textu. Similarity - měření míry podobnosti dvou nalezených úseků textu. Continuity - dva nebo více nalezených úseků textu společně vytváří instanci vzoru. Closure - výpočet váhy jednoho nalezeného úseku textu.
40
Technický popis vzoru Nákup na splátky 0.5 12 1 0 splátky měsíčně leasing měsíční splátka splátek splátkový navýšení akontace doplatek doplatků doplatky úvěr úvěrem kč dph czk eur cena
41
Experimenty 10 vzorů (Informace o ceně, Možnost nákupu, Speciální nabídka, Prodej na splátky, Informace o produktu, Diskuse, Recenze, Možnost přihlášení, Bazar a inzeráty, Anketa). Vzorek více než 30000 stránek - rychlost extrakce vzorů pohybovala přibližně na 100 stránkách za vteřinu. Průměrná doba extrakce jednoho vzoru na jedné stránce je přibližně 0,001 s (běžný počítač).
42
Přeuspořádání
43
Sady stránek
44
Přesnost metody
46
Profily stránek – shluky vzorů GD-CLS matrix factorization method
47
Budoucí práce Jiné domény – dovolená, zpravodajské weby apod. Analýza dotazu – přiřazení vzorů a profilů k dotazu. Klasifikace stránek na základě vzorů a profilů. Popis vzoru takovým způsobem, aby byl po implementaci použitelný pro hledání sémantiky. Formalizace přístupu.
48
Závěr Klíčovým technickým rysem přístupu je to, že nepotřebuje analyzovat HTML kód stránky. Přesnost je kolem 80%. Výše ve výběru jsou ty stránky, které lépe dodržují čtveřici Gestalt principů proximity- similarity-continuity-closure. Pouze pro „usazené“ domény.
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.