Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Výsledky (nejen) VŠE Praha v oblasti sémantického webu Vojtěch Svátek, Martin Labský Katedra informačního a znalostního inženýrství Vysoká škola ekonomická.

Podobné prezentace


Prezentace na téma: "Výsledky (nejen) VŠE Praha v oblasti sémantického webu Vojtěch Svátek, Martin Labský Katedra informačního a znalostního inženýrství Vysoká škola ekonomická."— Transkript prezentace:

1 Výsledky (nejen) VŠE Praha v oblasti sémantického webu Vojtěch Svátek, Martin Labský Katedra informačního a znalostního inženýrství Vysoká škola ekonomická v Praze

2 Svátek, Labský, Hora Informaticae, Témata Přehled SemWeb projektů řešených na VŠE Podrobněji o projektu Rainbow –ještě podrobněji o demo aplikaci na nabídky jízdních kol Výuka SemWebu na VŠE (Spolu-)pořádané akce apod. Přehled jiných SemWeb projektů v ČR Vybrané problémy SemWebu jako takového

3 Svátek, Labský, Hora Informaticae, Přehled řešených projektů Projekt Rainbow –podpora grantem GAČR 201/03/1318 –automatická analýza obsahu a struktury webových sídel –demo aplikace: extrakce informací o nabídkách jízdních kol Projekt Stepper –vícekrokové anotování a transformace dokumentů –lékařská aplikace (“medical guidelines”) –disertační projekt M. Růžičky Učení netaxonomických relací pro ontologie –disertační projekt M. Kavalce –spolupráce s Univ. Karlsruhe

4 Svátek, Labský, Hora Informaticae, Přehled řešených projektů (pokr.) Projekt LISp-Miner –podpora grantem GAČR –dobývání asociačních pravidel (aj.) z dat, vychází z GUHA –dílčí aktivita: využití ontologií v KDD OntoFarm –tvorba a využívání paralelních ontologií téže domény (“pořádání konferencí”) –prozatím neformální projekt související s výukou kurzu “Modelování znalostí” a s NoE Knowledge Web

5 Svátek, Labský, Hora Informaticae, Projekt Rainbow Vývoj distribuovaného znalostního systému pro analýzu websites Od r V průměru okolo 8 lidí, převážně doktorandi a diplomanti Podpora grantem GAČR, zahraniční spolupráce (VU Amsterdam)

6 Svátek, Labský, Hora Informaticae, Typy dílčích projektů (zpravidla disertační, diplomové a bakalářské práce) Dílčí služby pro analýzu webových zdrojů Společná infrastruktura distribuovaného systému Nadstavbové modely

7 Svátek, Labský, Hora Informaticae, Dílčí projekty – analytické služby Analýza HTML pomocí skrytých Markovových modelů (HMM) - disertační projekt M. Labského; dále využívá: –analýzu obrázků pomocí LSI –skládání cílových instancí s využitím „prezentační ontologie“ Lingvistická analýza volného textu (vč. využití informací z veřejného katalogu) Analýza topologie websites – „rozpoznání logických dokumentů“ Kategorizace firemních stránek na základě URL Rozpoznávání pornografie (asociovaný projekt)

8 Svátek, Labský, Hora Informaticae, Analýza volného textu Vyvinul M. Kavalec ( ) Jednoduchá ale funkční webová služba; prozatím jako extrakce vět Využívá „indikátory významné informace“, prozatím slovesa typu „include, provide, manufacture…“ Základní množina indikátorů získána „bootstrappingem“: lingvistickou a frekvenční analýzou textových dat sémanticky označkovaných (bez zásahu uživatele) pomocí záhlaví a odkazů Open Directory Vhodné zejména pro „profily“ firem

9 Svátek, Labský, Hora Informaticae,

10 Analýza topologie odkazů DP: M. Sajal (2002), F. Volavka (2003) Cílem: –nalézt množinu propojených stránek tvořících „logický dokument“ v rámci website –určení přibližné sémantické třídy stránek (rozcestník, informační stránka, intro…) Jádrem algoritmu je nalezení tzv. navigační struktury website

11 Svátek, Labský, Hora Informaticae,

12 Kategorizace stránek na základě URL Původně pro projekt metavyhledávače VŠEvěd, jako následné zpracování –bez specializace na věcnou oblast –využita zvl. typologie dokumentů Dublin Core V současnosti jako podpůrná služba při klasifikaci firemních stránek – klasický inferenční mechanismus s dopředným řetězením (V. Vávra, 2003)

13 Svátek, Labský, Hora Informaticae,

14 Rozpoznávání pornografie M. Vacura, doktorská disertace (2003) volně asociováno s Rainbow –rovněž vyvinuto několik nástrojů analyzujících tatáž webová data z různých pohledů –vyvinuta jednoduchá ontologie v OIL –důraz na obrazovou analýzu (histogramy, čáry), vedle toho i strom HTML, topologie, URL, explicitní metadata –pouze obrazová analýza implementována jako webová služba

15 Svátek, Labský, Hora Informaticae, Vstupní data a komunikační infrastruktura První verzi vyvinul J. Kosek (DP, ) –Komunikace mezi všemi moduly na bázi webových služeb (WSDL/SOAP) –Zajištění vstupních dat pro analýzu downloader využívající regulární výrazy kanonizace do XHTML ukládání v MS SQL poskytování dat: celý XHTML, seznam linků –Vizualizace výsledků „navigační asistent“ jako plug-in v NS/Mozilla

16 Svátek, Labský, Hora Informaticae, Vstupní data a komunikační infrastruktura (pokr.) Nová verze postupně vzniká od r.2003 –Vstupní data uchovávána v nativní XML databázi AmphorA z VŠB-TU Ostrava rozhraní webových služeb poskytování dat: (plánuje se) podmnožina XPath –Zpřístupnění výsledků O. Šváb v rámci bakalářské práce RDF repozitář Sesame z VU Amsterdam / Aduna šablony dotazů v jazyce SeRQL HTML rozhraní s možností navigačního dotazování (dedikované pro „bicyklovou“ aplikaci) –Infrastruktura webových služeb předpokládá se využití „sémantických WS“ (WSMO)

17 Svátek, Labský, Hora Informaticae, Nadstavbové modely Tvorba a (plánované) využití ontologií Formální model hodnocení úspěšnosti získávání meta-informací o webových zdrojích Kategorizace nástrojů pro analýzu webu (DWM - deductive web mining): „TODD framework“ Knihovna generických modelů úloh (PSM) specializovaná na analýzu websites

18 Svátek, Labský, Hora Informaticae, Tvorba a využití ontologií M. Labský, pilotní projekt, 2003 Ontologie problematiky „websites“ –pro jednotlivé „pohledy“ (HTML, topologie…) –pro jednotlivé věcné oblasti Integrace ontologií na bázi sdílených dat –metoda FCA-Merge (konceptuální svazy)

19 Svátek, Labský, Hora Informaticae, „Upper“ ontologie

20 Svátek, Labský, Hora Informaticae, Příklad konceptuálního svazu

21 Svátek, Labský, Hora Informaticae, Formální model hodnocení úspěšnosti metod v zárodečné podobě... založen na porovnání s referenčním souborem výsledků rozlišení tří typů meta-informací –vlastnosti s uzavřeným oborem (hodnoty: třídy z ontologie) –objektové vlastnosti (hodnoty: instance tříd z ontologie) –obsahové vlastnosti (hodnoty: primitivní data)

22 Svátek, Labský, Hora Informaticae, Kategorizace nástrojů pro DWM Four dimensions of DWM methods/tools: –Abstract task accomplished by the tool –Type of web object that is being addressed –Type/representation of underlying data –Problem domain Hence, TODD framework: presumably covers all what can be said about an arbitrary DWM method

23 Svátek, Labský, Hora Informaticae, Generické modely úloh Classification task –Look-up based Classification –Compact Classification –Structural Classification Extraction task –Overall Extraction –Compact Extraction –Structural Extraction Retrieval Task –Direct Retrieval –Index-based Retrieval

24 Svátek, Labský, Hora Informaticae, ExtS(DC, DocCollection, _, CSDept, [names]) :- RetD(P1, Phrase, text, General, [P1 part-of DC, PotentPName(P1)]), % named entity recognition for person names ClaC(P1, Phrase, text, General, % use of public search tools over papers and homepages RetI(P2, Phrase, freq, Biblio, P1 part-of P2, PaperCitation(P2)]), RetI(D, Document, freq, General, [P1 part-of D, D part-of DC, PHomepage(D)]), RetD(DF1, DocFragment, freq, General, [Heading(DF1), DF1 part-of D, P1 part-of DF1), ExtO(P1, Phrase, text, General, [names]), % co-occurrence-based extraction RetD(DF2, DocFragment, html, General, [ListItem(DF2), DF2 part-of DC, P1 part-of DF2]), RetD(DF3, DocFragment, html, General, [ListItem(DF3), (DF3 below DF2; DF2 below DF3)]), ExtS(DF3, DocFragment, text, General, [names]), RetD(DF4, DocFragment, html, General, [TableField(DF4), DF4 part-of DC, P1 part-of DF4]), RetD(Q, DocFragment, html, General, [TableField(DF5), (DF5 below DF4; DF4 below DF5)]), ExtS(DF5, DocFragment, text, General, [names]), % extraction from links RetD(DF5, DocFragment, html, General, [IntraSiteLinkElement(DF5), DF5 part-of DC]), ExtS(DF5, DocFragment, text, General, [names]),... % extraction of potential person names from document fragments ExtS(DF, DocFragment, text, General, [names]) :- RetD(P, Phrase, text, General, [DF contains P, PotentialPersonName(P)]), ExtO(P, Phrase, text, General, [names]). Příklad popisu aplikace: shromažďování jmen výzkumníků systémem Armadillo

25 Svátek, Labský, Hora Informaticae, Extrakce informací o bicyklech - Martin Labský...

26 Svátek, Labský, Hora Informaticae, SemWeb ve výuce na VŠE IZI211 Metody zpracování informací –bakalářský stupeň –hostující přehledová přednáška o SemWebu IZI212 Metody zpracování informací - praktika –bakalářský stupeň –dílčí úkol: sémantické anotování (RDF) webového sídla pomocí nástroje OntoMat, na základě jednoduché ontologie; výsledky zpřístupněny pomocí Sesame IZI437 Modelování znalostí –inženýrský stupeň –SemWeb hlavním tématem: požadavkem k zápočtu je vytvoření ontologie v OWL a další návazné činnosti

27 Svátek, Labský, Hora Informaticae, Organizace akcí apod. Seminář “Knowledge Engineering Group” –viz –(téměř) každý čtvrtek od –cca 50% přednášek se týká sémantického webu –přednášející z VŠE, jiných institucí i ze zahraničí Rozcestník „OntoWeb-CZ“ –viz –odkazy na různá pracoviště a projekty v ČR –informace o akcích Mezinárodní konference a workshopy

28 Svátek, Labský, Hora Informaticae, Konference a workshopy Česko-slovenská konference Znalosti –2001 Praha, 2003 Ostrava, 2004 Brno, 2005 Tatry, 2006 HK ECML/PKDD Workshop on Knowledge Discovery and Ontologies (KDO-04) –září 2004 Pisa, (?) říjen 2005 Porto Workshop on Intelligent Analysis of Web Space (?) –návaznost na končící grant GAČR 201/03/1318 –září/říjen 2005, Praha - Točná International Conference on Knowledge Engineering and Knowledge Management (EKAW-06) –říjen 2006, Poděbrady

29 Svátek, Labský, Hora Informaticae, Výzkum SemWebu jinde v ČR (I.) Projekt SemWeb - Informační společnost... Katedra kybernetiky FEL ČVUT –projekt CIPHER temporální ontologie (disertace K. Matoušek) transformace ontologií (připravovaná disertace P. Aubrecht) sémantické anotování textu s využitím konceptuálních grafů –OWL ontologie v multi-agentních systémech (připravovaná disertace M. Obitko) Katedra počítačů FEL ČVUT –projekt WEBING mapování DB do RDF (připravovaná disertace M. Švihla) –vývoj nástrojů pro práci s ontologií SUMO (M. Ševčenko)

30 Svátek, Labský, Hora Informaticae, Výzkum SemWebu jinde v ČR (II.) MUNI Brno –indexování RDF dat (připravovaná disertace S. Bartoň) VUT Brno –zabezpečení přístupu k RDF (disertace J. Güttner) –extrakce informací z WWW (disertace R. Burget) Ostravská univerzita –transformace ER modelu do deskripční logiky (připravovaná disertace M. Vajgl) VŠB-TU Ostrava –projekt AmphorA –skupina LabIS - SemWeb a TIL (M. Duží et al.)

31 Svátek, Labský, Hora Informaticae, Výzkum SemWebu jinde v ČR (III.) Také ÚFAL MFF UK a další akademické týmy ? Firma Ginger Alliance –soubor nástrojů pro práci s RDF (PerlRDF)

32 Svátek, Labský, Hora Informaticae, Vybrané problémy SemWebu s důrazem na ontologické inženýrství... Co už funguje... Co asi bude fungovat... Co možná nebude fungovat... Typické brzdy rozvoje

33 Svátek, Labský, Hora Informaticae, Co už funguje... Vznikla rozsáhlá interdisciplinární komunita Vznikají (kritizované ale respektované) standardy jazyků –RDF/S, OWL... SWRL, SpaRQL... V akademické komunitě konverguje využívání nástrojů k několika nejlépe podporovaným –Protégé, Jena, Sesame, RACER...

34 Svátek, Labský, Hora Informaticae, Co asi bude fungovat... (jen jde o to jak) Dosažení kritického množství RDF dat pro smysluplné fungování aplikací - např. Swoogle... –automatické anotování “starého” WWW –anotování webových služeb –reengineering databází –dobrovolníci a sociální sítě (FOAF...) Nárůst počtu ontologií v OWL –včetně potlačení tradičních začátečnických chyb Modelování temporálních aspektů domény Zachycení neurčitosti a vágnosti Důvěryhodnost a (?) zabezpečený přístup

35 Svátek, Labský, Hora Informaticae, Co možná nebude fungovat... Efektivní mapovatelnost nezávisle vzniklých ontologií Přidaná hodnota ontologií oproti UML (npod.) –definované třídy, anonymní třídy, samostatné relace... Přidaná hodnota ontologií oproti XML –lze skutečně pochopit význam pojmu za běhu aplikace? Ochota uživatelů akceptovat automatické odvozování (pomocí DL) v reálných aplikacích –snad jen testování splnitelnosti je přijímáno ochotně –klasifikaci instancí lze zpravidla lépe vyřešit specializovanými nástroji –automatická konstrukce taxonomie je “podezřelá”

36 Svátek, Labský, Hora Informaticae, Typické brzdy rozvoje Rozevírání nůžek mezi výzkumem a praxí –je OWL příliš jednoduchý nebo příliš složitý? pro logiky je OWL (DL) naprosto nedostačující pro praktiky je maximální hranicí srozumitelnosti RDFS Označení SemWeb se používá pro různorodou paletu přístupů, což je matoucí někdy chybí sémantika (holé taxonomie převedené do OWL) někde chybí web (cokoliv okolo formálních ontologií) Předstih vývoje nástrojů oproti dostupnosti materiálu –týká se např. mapování či evoluce ontologií

37 Svátek, Labský, Hora Informaticae, Děkujeme za pozornost


Stáhnout ppt "Výsledky (nejen) VŠE Praha v oblasti sémantického webu Vojtěch Svátek, Martin Labský Katedra informačního a znalostního inženýrství Vysoká škola ekonomická."

Podobné prezentace


Reklamy Google