Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Sémantika webových stránek založená na GUI vzorech.

Podobné prezentace


Prezentace na téma: "Sémantika webových stránek založená na GUI vzorech."— Transkript prezentace:

1 Sémantika webových stránek založená na GUI vzorech

2 Motivace Vyhledávání na internetu. Vyhledávání na internetu. Problémy s orientací ve výsledku vyhledávání Problémy s orientací ve výsledku vyhledávání Rozpor mezi očekáváním uživatele a výsledkem vyhledávání Rozpor mezi očekáváním uživatele a výsledkem vyhledávání

3 Cíle Zjednodušení dotazování. Zjednodušení dotazování. Katalogy, klíčová slova Katalogy, klíčová slova Zlepšení kvality odpovědi. Zlepšení kvality odpovědi. Výřezy, náhledy, ranking Výřezy, náhledy, ranking

4 Získání informací o stránce Při vzniku stránky Při vzniku stránky Meta-data vložená autorem Meta-data vložená autorem Po analýze stránky Po analýze stránky Struktura Struktura Obsah Obsah Kombinace Kombinace

5 Východiska Přísné zaměření na uživatele a jeho očekávání. Přísné zaměření na uživatele a jeho očekávání. Co uživatel očekává? A je schopen to zformulovat? Je toho mnoho… Co uživatel očekává? A je schopen to zformulovat? Je toho mnoho… Nejlépe to ví tvůrci stránek. Nejlépe to ví tvůrci stránek. Jejich posláním je očekávání uživatelů plnit. Jejich posláním je očekávání uživatelů plnit. Důkazem je, že kvalitní řešení jsou uživateli široce akceptována. Důkazem je, že kvalitní řešení jsou uživateli široce akceptována. Řešení ve stejné doméně se na určité úrovni shodují. Řešení ve stejné doméně se na určité úrovni shodují.

6 Charakteristika domény Na různých stránkách stejného zaměření se vyskytují opakující se prvky. Na různých stránkách stejného zaměření se vyskytují opakující se prvky. Tyto prvky se označují jako vzory. Tyto prvky se označují jako vzory. Vzory nám poskytují sémantickou informaci, která je postavena na jednoznačné a empiricky ověřené dohodě mezi tvůrci a uživateli. Vzory nám poskytují sémantickou informaci, která je postavena na jednoznačné a empiricky ověřené dohodě mezi tvůrci a uživateli.

7 Vzory Architektura, Design Patterns, … Architektura, Design Patterns, … V podstatě jsou ve vzorech popsány charakteristické strukturální rysy a rysy chování, které zlepšují použitelnost architektury software, uživatelského rozhraní, webových stránek nebo čehokoliv jiného v určité doméně. Vzory činí věci použitelnějšími a jednoduššími na pochopení. (J. Tidwell) V podstatě jsou ve vzorech popsány charakteristické strukturální rysy a rysy chování, které zlepšují použitelnost architektury software, uživatelského rozhraní, webových stránek nebo čehokoliv jiného v určité doméně. Vzory činí věci použitelnějšími a jednoduššími na pochopení. (J. Tidwell)

8 GUI Patterns Poskytují řešení typických problémů při návrhu uživatelského rozhraní. Poskytují řešení typických problémů při návrhu uživatelského rozhraní. Na obecné úrovni popisují, jak strukturovat informace v uživatelském rozhraní, s jakými uživatelskými prvky a jak s nimi pracovat. Na obecné úrovni popisují, jak strukturovat informace v uživatelském rozhraní, s jakými uživatelskými prvky a jak s nimi pracovat. Nepopisují, jak se má vzor technicky implementovat, ale jak se má projevovat vůči uživateli. Nepopisují, jak se má vzor technicky implementovat, ale jak se má projevovat vůči uživateli.

9 Použití v doménách Různé domény poskytují prostředí pro použití GUI vzorů v konkrétním kontextu. Různé domény poskytují prostředí pro použití GUI vzorů v konkrétním kontextu. Charakteristika vzorů je pak závislá na doméně. Charakteristika vzorů je pak závislá na doméně. Prodej produktů Prodej produktů zobrazení obchodních informací zobrazení obchodních informací možnost objednání možnost objednání zobrazení podrobných informací zobrazení podrobných informací

10 Příklad

11 Vlastnosti vzoru Vzor je málo závislý na způsobu implementace. Vzor je málo závislý na způsobu implementace. Vzor je závislý na vnímání uživatele. Vzor je závislý na vnímání uživatele. Vzor může být společným komunikačním nástrojem mezi uživatelem a tvůrcem webových stránek. Vzor může být společným komunikačním nástrojem mezi uživatelem a tvůrcem webových stránek. Jednotlivé prvky jedné konkrétní instance vzoru jsou na stránce víceméně pohromadě. Jednotlivé prvky jedné konkrétní instance vzoru jsou na stránce víceméně pohromadě.

12 Gestalt principy Proximity – související informace bývají blízko u sebe. Proximity – související informace bývají blízko u sebe. Similarity – podobně vypadající prvky obsahují podobné informace. Similarity – podobně vypadající prvky obsahují podobné informace. Continuity – informace následují plynule za sebou. Continuity – informace následují plynule za sebou. Closure – související informace bývají společně uzavřeny do celků. Closure – související informace bývají společně uzavřeny do celků.

13 Východisko pro hledání vzorů Jeden vzor na stránce chápat jako Jeden vzor na stránce chápat jako skupinu charakteristických technických prvků vycházejících z GUI vzorů, skupinu charakteristických technických prvků vycházejících z GUI vzorů, skupinu prvků charakteristických pro doménu, ve které se pohybujeme (slova a typy), skupinu prvků charakteristických pro doménu, ve které se pohybujeme (slova a typy), s tím, že uvedené prvky jsou pohromadě. s tím, že uvedené prvky jsou pohromadě. Není tedy potřeba do hloubky zkoumat strukturu stránky, protože technické prvky poskytují pouze prostředí, ve kterém jsou související informace pohromadě. Není tedy potřeba do hloubky zkoumat strukturu stránky, protože technické prvky poskytují pouze prostředí, ve kterém jsou související informace pohromadě.

14 Slovník vzoru Množinu entit – pojmů pro jeden vzor chápeme jako slovník vzoru. Významnou vlastností slov ze slovníku je i to, že souvisí s doménou. Množinu entit – pojmů pro jeden vzor chápeme jako slovník vzoru. Významnou vlastností slov ze slovníku je i to, že souvisí s doménou. Slovník není příliš rozsáhlý. Slovník není příliš rozsáhlý. Slova se vyskytují v jistých schématech. Slova se vyskytují v jistých schématech. Význam slov je víceméně jednoznačný. Význam slov je víceméně jednoznačný. Slova se vyskytují v textu často. Slova se vyskytují v textu často.

15 Extrakce vzoru Zjednodušení na problém práce s množinou slov a datových typů. Zjednodušení na problém práce s množinou slov a datových typů. Algoritmy vycházející z Gestalt principů. Algoritmy vycházející z Gestalt principů. V textu hledáme úseky, které mohou reprezentovat instanci vzoru. V textu hledáme úseky, které mohou reprezentovat instanci vzoru.

16 Algoritmus FOR each page entity in all page entities FOR each page entity in all page entities IF page entity is pattern entity THEN IF page entity is pattern entity THEN IF does not exist snippet to add page entity to THEN IF does not exist snippet to add page entity to THEN create new snippet in list of snippets create new snippet in list of snippets END IF END IF add page entity to snippet add page entity to snippet END IF END IF END FOR END FOR FOR each snippet in list of snippets FOR each snippet in list of snippets compute proximity of snippet compute proximity of snippet compute closure of snippet compute closure of snippet compute value(proximity, closure) of snippet compute value(proximity, closure) of snippet IF value is not good enough THEN IF value is not good enough THEN remove snippet from list of snippets remove snippet from list of snippets END IF END IF END FOR END FOR compute similarity of list of snippets compute similarity of list of snippets compute continuity of list of snippets compute continuity of list of snippets compute value(similarity, continuity) of pattern compute value(similarity, continuity) of pattern RETURN value RETURN value

17 Algoritmus Pro proximity jsme definovali způsob, jak měřit vzdálenost mezi entitami v nalezených úsecích textu. Vycházeli jsme z organizace entit reprezentujících úsek textu do stromu a z toho, že musí být entity dostatečně blízko u sebe. Pro proximity jsme definovali způsob, jak měřit vzdálenost mezi entitami v nalezených úsecích textu. Vycházeli jsme z organizace entit reprezentujících úsek textu do stromu a z toho, že musí být entity dostatečně blízko u sebe. Pro similarity jsme definovali způsob měření míry podobnosti dvou nalezených úseků textu. Vycházeli jsme z porovnání stromů entit reprezentujících úseky textu. Pro similarity jsme definovali způsob měření míry podobnosti dvou nalezených úseků textu. Vycházeli jsme z porovnání stromů entit reprezentujících úseky textu. Pro continuity jsme definovali způsob, jak zjistit, zda dva nebo více nalezených úseků textu společně vytváří instanci vzoru. Vycházeli jsme z toho, že málo podobné úseky patří k sobě. Pro continuity jsme definovali způsob, jak zjistit, zda dva nebo více nalezených úseků textu společně vytváří instanci vzoru. Vycházeli jsme z toho, že málo podobné úseky patří k sobě. Pro closure jsme definovali způsob výpočtu váhy jednoho nalezeného úseku textu. Hodnotili jsme tvar stromu entit a počet všech slov a odstavců v úseku textu. Pro closure jsme definovali způsob výpočtu váhy jednoho nalezeného úseku textu. Hodnotili jsme tvar stromu entit a počet všech slov a odstavců v úseku textu.

18 Zjednodušení dotazování Nokia 9300 Chci nakoupit na internetu. Obchodní informace Možnost objednání Možnost přihlášení Nákup na splátkySpeciální nabídka

19 Zlepšení kvality odpovědi Můžeme pro každý zobrazený odkaz na stránku ve vyhledaném výčtu přidat informaci o tom, které vzory byly na stránce nalezeny. Můžeme pro každý zobrazený odkaz na stránku ve vyhledaném výčtu přidat informaci o tom, které vzory byly na stránce nalezeny. Můžeme vzory zohlednit už při vyhledání a seřadit odkazy na stránky právě s ohledem na to, s jakou váhou jsme požadované vzory na stránce našli (re-ranking). Můžeme vzory zohlednit už při vyhledání a seřadit odkazy na stránky právě s ohledem na to, s jakou váhou jsme požadované vzory na stránce našli (re-ranking).

20 Experimenty Máme připraveny slovníky pro 9 vzorů (Informace o ceně, Možnost nákupu, Speciální nabídka, Prodej na splátky, Informace o produktu, Diskuse, Recenze, Možnost přihlášení, Bazar a inzeráty). Máme připraveny slovníky pro 9 vzorů (Informace o ceně, Možnost nákupu, Speciální nabídka, Prodej na splátky, Informace o produktu, Diskuse, Recenze, Možnost přihlášení, Bazar a inzeráty). Na našem vzorku více než 30000 stránek se rychlost extrakce vzorů pohybovala přibližně na 100 stránkách za vteřinu. Průměrná doba extrakce jednoho vzoru na jedné stránce je přibližně 0,001 s (běžný počítač). Na našem vzorku více než 30000 stránek se rychlost extrakce vzorů pohybovala přibližně na 100 stránkách za vteřinu. Průměrná doba extrakce jednoho vzoru na jedné stránce je přibližně 0,001 s (běžný počítač).

21 Re-ranking

22 Shluky

23 Shluky

24 Závěr Klíčovým technickým rysem našeho přístupu je to, že nepotřebuje analyzovat HTML kód stránky. Klíčovým technickým rysem našeho přístupu je to, že nepotřebuje analyzovat HTML kód stránky. Výše ve výběru jsou ty stránky, které lépe dodržují čtveřici Gestalt principů proximity- similarity-continuity-closure. Výše ve výběru jsou ty stránky, které lépe dodržují čtveřici Gestalt principů proximity- similarity-continuity-closure.

25 Publikace Martinovic, J., Snášel, V., Dvorský, J., Gajdoš, P., Ochodková, E. Enron Corpus: Social Networks Identification, CSIT 2006, Jordan. Martinovic, J., Snášel, V., Dvorský, J., Gajdoš, P., Ochodková, E. Enron Corpus: Social Networks Identification, CSIT 2006, Jordan. Dusan Husek, Suhail S. J. Owais, Pavel Kromer, Vaclav Snasel, and Roman Neruda. Implementing GP on Optimizing both Boolean and Extended Boolean Queries in IR and Fuzzy IR systems with Respect to the Users Profiles. IEEE Congress on Evolutionary Computation Sheraton Vancouver Wall Centre Hotel, Vancouver, BC, Canada July 16-21, 2006, pp 5648-5654 Dusan Husek, Suhail S. J. Owais, Pavel Kromer, Vaclav Snasel, and Roman Neruda. Implementing GP on Optimizing both Boolean and Extended Boolean Queries in IR and Fuzzy IR systems with Respect to the Users Profiles. IEEE Congress on Evolutionary Computation Sheraton Vancouver Wall Centre Hotel, Vancouver, BC, Canada July 16-21, 2006, pp 5648-5654 Suhail S. J. Owais, Pavel Kromer, and Vaclav Snasel. Implementing GP on Optimizing both Boolean and Extended Boolean Queries in IRs With Respect to the Users Profiles. International Conference on Computer Engineering \& Systems ICCE06, Egypt, IEEE 2006, in print. Suhail S. J. Owais, Pavel Kromer, and Vaclav Snasel. Implementing GP on Optimizing both Boolean and Extended Boolean Queries in IRs With Respect to the Users Profiles. International Conference on Computer Engineering \& Systems ICCE06, Egypt, IEEE 2006, in print. Moravec, P., Snášel, V.: Testing Dimension Reduction Methods for Image Retrieval, the 6th International Conference on Intelligent Systems Design and Applications (ISDA'06), IEEE CS press, Jinan University, China, 2006, in print. Moravec, P., Snášel, V.: Testing Dimension Reduction Methods for Image Retrieval, the 6th International Conference on Intelligent Systems Design and Applications (ISDA'06), IEEE CS press, Jinan University, China, 2006, in print. M. Kudelka, V. Snasel, Eyas El-Qawasmeh, O. Lehecka, J. Tesarik: Domain Patterns and Semantic Annotation of Web Pages, the First IEEE International Conference on Digital Information Management, IEEE CS press, Bangalore, India, in print. M. Kudelka, V. Snasel, Eyas El-Qawasmeh, O. Lehecka, J. Tesarik: Domain Patterns and Semantic Annotation of Web Pages, the First IEEE International Conference on Digital Information Management, IEEE CS press, Bangalore, India, in print.

26 Publikace Praks P., Machala L., Snášel V.: On SVD-free Latent Semantic Indexing for iris recognition of large databases. In Multimedia Data mining and Knowledge Discovery. In print. Ed. V. A. Petrushin and L. Khan, London: Springer Verlag, 2006. Praks P., Machala L., Snášel V.: On SVD-free Latent Semantic Indexing for iris recognition of large databases. In Multimedia Data mining and Knowledge Discovery. In print. Ed. V. A. Petrushin and L. Khan, London: Springer Verlag, 2006. M. Kudelka, V. Snasel, Eyas El-Qawasmeh, O. Lehecka, J. Semantic Analysis of Web Pages Using Web Patterns, IEEE/WIC/ACM WI-2006 M. Kudelka, V. Snasel, Eyas El-Qawasmeh, O. Lehecka, J. Semantic Analysis of Web Pages Using Web Patterns, IEEE/WIC/ACM WI-2006 M. Kudelka, V. Snasel, Eyas El-Qawasmeh, O. Internet Searching Using Web Patterns, IEEE CS press, IIT Dubai 2006 M. Kudelka, V. Snasel, Eyas El-Qawasmeh, O. Internet Searching Using Web Patterns, IEEE CS press, IIT Dubai 2006

27 Komerce Připravuje se instalace pro komerční účely Připravuje se instalace pro komerční účely


Stáhnout ppt "Sémantika webových stránek založená na GUI vzorech."

Podobné prezentace


Reklamy Google