Sémantika webových stránek založená na webových vzorech Miloš Kudělka VŠB – Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra.

Slides:



Advertisements
Podobné prezentace
Stránka 1, © Vema, a. s.. Stránka 2, © Vema, a. s. Podnikové aplikace  Integrovaný podnikový systém (Integrated Business System):  komplex aplikací.
Advertisements

Stručný úvod do UML.
Tutoriál EDS možnosti přizpůsobení Pro administrátory support.ebsco.com.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Elektronický obchod. Požadavky na funkčnost aplikace nabídka zboží zboží se může prodávat za různé ceny (akční nabídky, sezónní výprodeje) evidence zákazníků.
SEMANTICKÝ WEB. Semantický Web WWW – Tim Berners-Lee, CERN, univerzum propojených HTML stránek, prostor hyperlinkovaných dokumentů – Informace jsou zobrazeny.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Zpracování seminárních a kvalifikačních prací
Zapojení Pedagogické fakulty MU do činnosti Evropské agentury pro podporu speciálního vzdělávání Transformační a rozvojové programy na rok 2005.
PROGRAMOVACÍ JAZYKY (c) Tralvex Yeap. All Rights Reserved.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
PRÉCIS OD NESTRUKTUROVANÝCH KLÍČOVÝCH SLOV JAKO DOTAZŮ K STRUKTUROVANÝM DATABÁZÍM JAKO ODPOVĚDÍM Martin Lacina.
Metody zpracování vybraných témat (projektů)
2. Národní konference o doporučených postupech , Olomouc Katalog klinických doporučených postupů – současný stav a možnosti využití Miroslav.
Definování prostředí pro provozování aplikace dosud jsme řešili projekt v obecné rovině aplikace bude ovšem provozována v konkrétním technickém a programovém.
Vyhledávání softwarových vzorů
D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Algoritmy a programovací techniky
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
Systémy pro podporu managementu 2
BAKALÁŘSKÁ PRÁCE Tomáš Janda
Relační databáze.
PPíšeme vědecký článek. Jaký článek – domácí úkol o dvou brožurách o jaderné fyzice a zkušenostech z jejich použití (ověření použitelnosti, expertní posouzení)
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Databázové systémy Přednáška č. 7 Uživatelské rozhraní.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 4 Proces návrhu databáze.
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
Definice, druhy, chyby, abstrakce
Simulační modely a programové vybavení. Vývoj simulačních programů  Původně pouze strojový kód –Příliš dlouhé, náročné na programátora, obtížné hledání.
1 © Mediaresearch, a.s., 2008 NetMonitor a AdMonitoring Výsledky za říjen 2008.
EBSCOhost Collection Manager ~ Vytváření profilů Tutoriál support.ebsco.com.
Artificial Intelligence (AI).  „Úloha patří do oblasti umělé inteligence, jestliže řešení, které najde člověk považujeme za projev jeho inteligence.
GIS??? Ve státní správě Karel Charvát. GIS?????? Je správné používat v souvislosti s využíváním prostorových informací ve státní správě, ale i v komerčním.
Dokumentace informačního systému
Základní principy řešení a využití ERP aplikací
Copyright (C) 2000 Vema, a. s.1 V3 klient Michal Máčel Provozní integrace G2, HR/Win a internetu.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Realtime identifikace osob podle hlasu
Web 2.0, folksonomie a uživatelská rozhraní Lenka Němečková Eliška Pavlásková Založeno mimo jiné na prezentacích prof. B. Whitea „The Promise of Rich User.
Autor: Jakub Černek jakub(zavináč)cernek.cz µŠkolení Efektivnějšího využívání PowerPointu 2003.
Databázové modelování
Modely uživatelských preferencí. Obsah Jak se vyjadřují preference Modely preferencí a jejich učení Model založený na atributech Kolaborativní filtrování.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Databázové systémy Informatika pro ekonomy, př. 18.
Databáze velké množství dat pevně dané struktury
Nové technologie pro webové aplikace v cestovním ruchu Nové technologie pro webové aplikace v cestovním ruchu Pavel Čech Unverzita Hradec Králové.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
Vícerozměrný přístup pro indexování XML dat
Návrh a implementace algoritmů pro údržbu,
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Selekční jazyky Současné trendy Přednáška č. 5 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Sémantika webových stránek založená na GUI vzorech.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Zahradnická fakulta v Lednici S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2008 S 4 U – Seminář o Univerzitním informačním systému.
A jeho praktická aplikace Štěpán Vacek Univerzita Hradec Králové Liberecké informatické fórum 2010.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky
Dobývání znalostí z databází znalosti
PRŮBĚH DOKUMENTACE UNIVERZITNÍHO INFORMAČNÍHO SYSTÉMU MZLU V BRNĚ
Informatika pro ekonomy přednáška 8
Geografické informační systémy
METODOLOGIE PROJEKTOVÁNÍ
Transkript prezentace:

Sémantika webových stránek založená na webových vzorech Miloš Kudělka VŠB – Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra informatiky leden 2007

Publikace M. Kudělka. Vzory pro HCI a GUI. Sborník konference Tvorba softwaru 2004, Ostrava M. Kudělka, O. Lehečka, V. Snášel. Sémantika webových stránek založená na GUI vzorech. ITAT 2006, Nízké Tatry M. Kudělka, E. El-Qawasmeh, V. Snášel, O. Lehečka. Internet Search Using Web Patterns. IEEE konference IIT 2006, Dubaj, Spojené Arabské Emiráty M. Kudělka, V. Snášel, E. El-Qawasmeh, O. Lehečka, J. Tesařík. Domain Patterns and Semantic Annotation of Web Pages. IEEE konference ICDIM 2006, Bangalore, Indie M. Kudělka, V. Snášel, O. Lehečka, E. El-Qawasmeh. Semantic Annotation of Web Pages Using Web Patterns. IEEE/WIC/ACM konference WI-2006, Hong Kong M. Kudělka, V. Snášel, O. Lehečka, E. El-Qawasmeh. J. Pokorný. Semantic Annotation of Web Pages Using Web Patterns. IEEE/ACM konference SITIS 2006, Hammamet, Tunisko M. Kudělka, V. Snášel, E. El-Qawasmeh, O. Lehečka. Semantic Web: Web Patterns in Web Page Semantics. Inteligentní modely, algoritmy, metody a nástroje pro vytváření sémantického webu, Ústav informatiky AV ČR, Praha 2006

Přehled Motivace a cíle Vzory a jazyky vzorů Extrakce webových vzorů Experimenty Závěr a budoucí práce

Motivace Vyhledávání na internetu. Problémy s orientací ve stále zvětšujícím se prostoru nestrukturovaných dat. Problém nedostatečně relevantních stránek v odpovědi na dotaz uživatele.

Motivace

Uživatel: Jak je můj požadavek? Uživatel: Jak sdělit požadavek vyhledávači? Vyhledávač: Jak zjistit, co je obsaženo v dotazu? Vyhledávač: Jak vyhledat relevantní stránky? Vyhledávač: Jak uspořádat a popsat vyhledané stránky? Uživatel : Jak vybrat vyhledané stránky?

Cíle Zjednodušení dotazování. –Katalogy, klíčová slova Zlepšení kvality odpovědi. –Útržky, náhledy, klasifikace, seskupování

Získání informací o stránce Při vzniku stránky –Meta-data vložená autorem Po analýze stránky –Struktura –Obsah –Kombinace

Východiska Přísné zaměření na uživatele a jeho očekávání. –Co uživatel očekává? A je schopen to zformulovat? Je toho mnoho… Nejlépe to ví tvůrci stránek. –Jejich posláním je očekávání uživatelů plnit. –Důkazem je, že kvalitní řešení jsou uživateli široce akceptována. –Řešení ve stejné doméně se na určité úrovni shodují.

Charakteristika domény Doména - uživatelé se specifickými požadavky a stránky se specifickým obsahem. Na různých stránkách stejného zaměření se vyskytují opakující se prvky - vzory. Vzory mohou poskytnout sémantickou informaci, která je postavena na jednoznačné a empiricky ověřené dohodě mezi tvůrci a uživateli. Skrytá a nepřetržitá interakce mezi uživateli a tvůrci se promítá do vzorů.

Architektura stránky

Vzory – data mining Informace uložená v datech –Pochopitelná pro uživatele –Ověřitelná na různých sadách dat –Užitečná pro uživatele

Vzory - návrh Architektura, Design Patterns, … Každý vzor je pravidlo, které obsahuje tři prvky a vyjadřuje vztah mezi jistou souvislostí, problémem a řešením. V podstatě jsou ve vzorech popsány charakteristické strukturální rysy a rysy chování, které zlepšují použitelnost architektury software, uživatelského rozhraní, webových stránek nebo čehokoliv jiného v určité doméně. Vzory činí věci použitelnějšími a jednoduššími na pochopení.

Vzory Název vzoru Popis problému, který se řeší V jakých souvislostech se problém řeší Samotné řešení Příklady řešení Vztahy s jinými vzory.

Vzory Vzory pro aplikační doménu Vzory pro HCIVzory pro softwarová řešení Uživatelské rozhraní Softwarový návrh Koncepty Úlohy Dialogy Objekty Arch. Návrh Implementace

HCI & GUI Patterns Poskytují řešení typických problémů při návrhu uživatelského rozhraní. Na obecné úrovni popisují, jak strukturovat informace v uživatelském rozhraní, s jakými uživatelskými prvky a jak s nimi pracovat. Nepopisují, jak se má vzor technicky implementovat, ale jak se má projevovat vůči uživateli.

Použití v doménách Různé domény pak poskytují prostředí pro použití HCI & GUI vzorů v konkrétním kontextu. Charakteristika vzorů je pak závislá na doméně. Prodej produktů na webu – webové vzory –zobrazení obchodních informací –možnost objednání –zobrazení podrobných informací

Doménově specifické menu

Obchodní informace

Diskuze a FAQ

Jazyk vzorů Vzory spolu souvisí a vyskytují se ve skupinách. Každý vzor má jméno, které popisuje způsob jeho použití. Pattern Language – popisný jazyk využívající vzory v jisté doméně.

Příklad Má jít o stránky s telefonem Nokia 9300, na níž je nahoře obchodní informace, možná také se speciální nabídkou, stránka by měla obsahovat možnost nákupu. Dále by na stránce měly být podrobnosti o produktu. Nebylo by špatné, kdyby dole na stránce byly komentáře a názory nebo diskuze a FAQ. Na stránkách s diskuzí je obvykle také možnost přihlášení.

Schematicky Nokia 9300 Chci nakoupit na internetu. Obchodní informace Možnost objednání Možnost přihlášení Nákup na splátkySpeciální nabídka

Jazyk vzorů Jazyk vzorů (Pattern Language) je orientovaný acyklický graf, kde –Každý uzel je vzor. –Množina hran, které vycházejí z uzlu - vzoru, je množina souvisejících vzorů. –Množina hran, které vstupují do uzlu, se nazývá kontext vzoru.

Související vzory Obsahuje (Contains) – jeden vzor obsahuje jiný vzor menšího rozsahu. Odvození (Derivation) – různé vzory mají podobnou strukturu a řeší podobný problém (obvykle je mezi nimi vztah generalizace – specializace). Využívá (Uses) – jeden vzor může využívat pro řešení problému jiný vzor. Doplňující (Complementary) – dva vzory se při řešení problému doplňují, jeden nemůže existovat bez druhého. Překrývání (Overlapping Coexistence) – Dva vzory řeší různé problémy, při jejich řešení se překrývají a koexistují vedle sebe. Alternativy (Alternatives) – Dva vzory řeší stejný problém různým, nicméně rovnocenným, způsobem.

Katalogy vzorů Knihy pro vývojáře, které jsou ve skutečnosti katalogy (vzorů jsou desítky…). Katalogy lze použít pro přirozený popis stránek. Pro technický popis také… Designing Interfaces: Patterns for Effective Interaction Design. The Design of Sites: Patterns, Principles, and Processes for Crafting a Customer-Centered Web Experience.

Extrakce vzorů Je možné automatizovat hledání vzoru na stránce? Jaké vlastnosti vzorů by se daly pro extrakci použít?

Vlastnosti vzoru Vzor je málo závislý na způsobu implementace. Vzor je hodně závislý na vnímání uživatele. Jednotlivé prvky jedné konkrétní instance vzoru jsou na stránce víceméně pohromadě.

Gestalt principy Blízkost (Proximity) – související informace bývají blízko u sebe. Podobnost (Similarity) – podobně vypadající prvky obsahují podobné informace. Souvislost (Continuity) – informace následují plynule za sebou a doplňují se. Celek (Closure) – související informace bývají společně uzavřeny do celků.

Webový vzor v kontextu stránky CO vzor reprezentuje na webové stránce (jméno - Obchodní Informace, Diskuze, Možnost nákupu apod.) KDY se vzor vyskytuje na webové stránce (doména, do které stránka patří - Možnost nákupu je v doméně prodeje produktů a služeb) JAK se vzor projevuje vůči uživateli (rozpoznatelnost pro uživatele)

Typy vzorů

Informační hodnota vzoru Vzor lze identifikovat - klíčová slova a datové typy. V různých klasifikacích vzorů se obvykle tyto vzory označují jako vzory pro úlohy a dialogy. Nezávislost na implementačních detailech.

Východisko pro hledání vzorů Jeden vzor na stránce chápat jako –skupinu charakteristických technických prvků vycházejících z HCI & GUI vzorů, –skupinu prvků charakteristických pro doménu, ve které se pohybujeme (slova a typy), –s tím, že uvedené prvky jsou pohromadě. Není tedy potřeba do hloubky zkoumat strukturu stránky, protože technické prvky poskytují pouze prostředí, ve kterém jsou související informace pohromadě.

Slovník vzoru Množina entit pro jeden vzor - slovník vzoru. Významnou vlastností slov ze slovníku je i to, že souvisí s doménou. –Slovník není příliš rozsáhlý. –Slova se vyskytují v jistých schématech. –Význam slov je víceméně jednoznačný. –Slova se vyskytují často.

Extrakce vzoru Zjednodušení na problém práce s množinou slov a datových typů. Algoritmy vycházející z Gestalt principů. V textu vyhledat části, které mohou reprezentovat instanci vzoru.

Algoritmus FOR each page entity in all page entities IF page entity is pattern entity THEN IF does not exist snippet to add page entity to THEN create new snippet in list of snippets END IF add page entity to snippet END IF END FOR FOR each snippet in list of snippets compute proximity of snippet compute closure of snippet compute value(proximity, closure) of snippet IF value is not good enough THEN remove snippet from list of snippets END IF END FOR compute similarity of list of snippets compute continuity of list of snippets compute value(similarity, continuity) of pattern RETURN value

Algoritmus Proximity - jak měřit vzdálenost mezi entitami v nalezených úsecích textu. Similarity - měření míry podobnosti dvou nalezených úseků textu. Continuity - dva nebo více nalezených úseků textu společně vytváří instanci vzoru. Closure - výpočet váhy jednoho nalezeného úseku textu.

Technický popis vzoru Nákup na splátky splátky měsíčně leasing měsíční splátka splátek splátkový navýšení akontace doplatek doplatků doplatky úvěr úvěrem kč dph czk eur cena

Experimenty 10 vzorů (Informace o ceně, Možnost nákupu, Speciální nabídka, Prodej na splátky, Informace o produktu, Diskuse, Recenze, Možnost přihlášení, Bazar a inzeráty, Anketa). Vzorek více než stránek - rychlost extrakce vzorů pohybovala přibližně na 100 stránkách za vteřinu. Průměrná doba extrakce jednoho vzoru na jedné stránce je přibližně 0,001 s (běžný počítač).

Přeuspořádání

Sady stránek

Přesnost metody

Profily stránek – shluky vzorů GD-CLS matrix factorization method

Budoucí práce Jiné domény – dovolená, zpravodajské weby apod. Analýza dotazu – přiřazení vzorů a profilů k dotazu. Klasifikace stránek na základě vzorů a profilů. Popis vzoru takovým způsobem, aby byl po implementaci použitelný pro hledání sémantiky. Formalizace přístupu.

Závěr Klíčovým technickým rysem přístupu je to, že nepotřebuje analyzovat HTML kód stránky. Přesnost je kolem 80%. Výše ve výběru jsou ty stránky, které lépe dodržují čtveřici Gestalt principů proximity- similarity-continuity-closure. Pouze pro „usazené“ domény.