Výsledky (nejen) VŠE Praha v oblasti sémantického webu Vojtěch Svátek, Martin Labský Katedra informačního a znalostního inženýrství Vysoká škola ekonomická.

Slides:



Advertisements
Podobné prezentace
Stručný úvod do UML.
Advertisements

ECVET v Programu celoživotního učení
Sémantická anotace dat z webovských zdrojů
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
SEMANTICKÝ WEB. Semantický Web WWW – Tim Berners-Lee, CERN, univerzum propojených HTML stránek, prostor hyperlinkovaných dokumentů – Informace jsou zobrazeny.
Projekt RAINBOW vícecestná extrakce informací z webu Vojtěch Svátek Seminář KEG,
Quo vadis, KEG? Zamyšlení nad vznikem a budoucností “Knowledge Engineering Group”na VŠE Praha V. Svátek, září 2003.
Koreferát: LISp-Miner a (lékařské) ontologie Vojtěch Svátek.
Technologie pro CI. Od technologií pro CI vyžadujeme především funkce vyhledávání v rozsáhlých databázích na základě libovolných dotazů, propojování a.
Strategický plán Městské části Praha-Libuš postup zpracování, výstupy, metody.
SFX Funkcie systému Ing. Lukáš Budínský. 2 Pracovní setkání Metalib/SFX – Obsah prezentace SFX Představení technologie Hlavní přínosy Nadstavbové.
Projekt Infogram aneb P.I.V.O. žije. Eva Svobodová, IVIG 2008, Česká zemědělská univerzita v Praze Praha,
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Budování Digitální knihovny Vysokého učení technického v Brně Barbara Šímová /
Adresářová služba Active directory
Využití programu Learning Space při přípravě výukové jednotky pro distanční vzdělávání Kateřina Kostolányová.
Vývoj aplikací pro SharePoint
Moderní vzdělávací systémy vyšších a vysokých škol neuniverzitního typu Ing. Daniel CHOC CCA Group a.s.
Další vývoj přiřazování kvalifikací k EQF v České republice Miroslav Kadlec, Praha,
ISWC 2007 Miroslav Vacura. Pattern for Representing Relevance „An Ontology Design Pattern for Representing Relevance in OWL“ - CDR = Context Domain Relevance.
A weak fuzzy description logic with aggregation Peter Vojtáš na Pracovním semináři pořádaném Knowledge Engineering Group Knowledge Engineering.
MIDAS MetaPortál Seminář INSPIRE a metainformace, Praha, 2007 Horáková, Růžička, Ožana.
Systémy pro podporu managementu 2
IVIG 2005 Informační vzdělávání a informační gramotnost v teorii a praxi vzdělávacích institucí Projekt online systému podpory informačního vzděláván v.
Relační databáze.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Informatika pro ekonomy II přednáška 10
R VY a Aplikovaná informatika Aplikovaná informatika Prezentace studijních oborů 2013.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Dokumentace objektů a zveřejnění funkcí
GIS??? Ve státní správě Karel Charvát. GIS?????? Je správné používat v souvislosti s využíváním prostorových informací ve státní správě, ale i v komerčním.
Role vysokoškolského pedagoga ve WBL PaedDr.Vanda Hájková, Ph.D
Oborová brána TECH tech.jib.cz Seminář „Okna oborů dokořán! Proč a jak využívat oborové brány & jak dál v CPK? “ Praha, NTK PhDr. Lenka Hvězdová.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Systém dalšího vzdělávání pracovníků výzkumu a vývoje v MS kraji a jeho realizace Projekt A5 Nástroje informatiky pro získávání informací a jejich zpracování.
SU Aleph Repozitáře, archivy, a dlouhodobá ochrana digitálních informací Mgr. Eliška Pavlásková Ústav výpočetní techniky Univerzita Karlova.
1 Aplikace folksonomií v uživatelském rozhraní Jednotné informační brány Lenka Němečková Eliška Pavlásková
Databázové modelování
Informační kulturní portál
Příslib do budoucna Zprávy z Univerzity Karlovy Alena Matuszková, Knihovna společenských věd TGM v Jinonicích Otevřené repozitáře, Brno,
2006 Úpravy směrnice a prováděcího předpisu pro eVŠKP na UTB ve Zlíně.
Nové technologie pro webové aplikace v cestovním ruchu Nové technologie pro webové aplikace v cestovním ruchu Pavel Čech Unverzita Hradec Králové.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Datovýsklad Datový sklad V budoucích službách státního archivu.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Vysoká škola báňská - Technická univerzita Ostrava Hornicko-geologická fakulta Institut ekonomiky a systémů řízení obor Geografické informační systémy.
Sdílení dat nejen v prostředí Sémantického webu Roman Špánek Výjezdní seminář projektu SemWeb
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
Tvorba metainformačního systému pro prostorová data s využitím Internetových technologií Zpracovatel: Tomáš Duchoslav Vedoucí: Dr. Ing. Bronislava Horáková.
Elektrotechnická fakulta ČVUT KATEDRA KYBERNETIKY Vedoucí prof. Ing. Vladimír Mařík, DrSc. KATEDRA KYBERNETIKY ELEKTROTECHNICKÁ.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
VIKMA06 Rešeršní a studijně rozborová činnost
GRASS GIS Alternativní GIS – volně dostupné programy a data.
Selekční jazyky Současné trendy Přednáška č. 5 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
1 Martin Vojnar Bibliografie jako nezbytná součást jednotného vyhledávaní SNK v Martine, 7. listopadu 2011.
Crux information technology, s.r.o. Ostravská universita, information technology.
Internet. je celosvětový systém navzájem propojených počítačových sítí („síť sítí“), ve kterých mezi sebou počítače komunikují pomocí rodiny protokolů.
EKAW’04 14th International Conference on Knowledge Engineering and Knowledge Management Whittlebury Hall, Northamptonshire, UK říjen 2004
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Svět e-zdrojů na FSV UK Mgr. Daniela Uhrová
Ostravská univerzita (1991 → )
Nástroje podpory uživatelů
Dobývání znalostí z databází znalosti
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Informační zdroje pro vědu a výzkum na ČZU
VIKMA05 Organizace znalostí
Informatika pro ekonomy přednáška 8
Web Application Scanning
Transkript prezentace:

Výsledky (nejen) VŠE Praha v oblasti sémantického webu Vojtěch Svátek, Martin Labský Katedra informačního a znalostního inženýrství Vysoká škola ekonomická v Praze

Svátek, Labský, Hora Informaticae, Témata Přehled SemWeb projektů řešených na VŠE Podrobněji o projektu Rainbow –ještě podrobněji o demo aplikaci na nabídky jízdních kol Výuka SemWebu na VŠE (Spolu-)pořádané akce apod. Přehled jiných SemWeb projektů v ČR Vybrané problémy SemWebu jako takového

Svátek, Labský, Hora Informaticae, Přehled řešených projektů Projekt Rainbow –podpora grantem GAČR 201/03/1318 –automatická analýza obsahu a struktury webových sídel –demo aplikace: extrakce informací o nabídkách jízdních kol Projekt Stepper –vícekrokové anotování a transformace dokumentů –lékařská aplikace (“medical guidelines”) –disertační projekt M. Růžičky Učení netaxonomických relací pro ontologie –disertační projekt M. Kavalce –spolupráce s Univ. Karlsruhe

Svátek, Labský, Hora Informaticae, Přehled řešených projektů (pokr.) Projekt LISp-Miner –podpora grantem GAČR –dobývání asociačních pravidel (aj.) z dat, vychází z GUHA –dílčí aktivita: využití ontologií v KDD OntoFarm –tvorba a využívání paralelních ontologií téže domény (“pořádání konferencí”) –prozatím neformální projekt související s výukou kurzu “Modelování znalostí” a s NoE Knowledge Web

Svátek, Labský, Hora Informaticae, Projekt Rainbow Vývoj distribuovaného znalostního systému pro analýzu websites Od r V průměru okolo 8 lidí, převážně doktorandi a diplomanti Podpora grantem GAČR, zahraniční spolupráce (VU Amsterdam)

Svátek, Labský, Hora Informaticae, Typy dílčích projektů (zpravidla disertační, diplomové a bakalářské práce) Dílčí služby pro analýzu webových zdrojů Společná infrastruktura distribuovaného systému Nadstavbové modely

Svátek, Labský, Hora Informaticae, Dílčí projekty – analytické služby Analýza HTML pomocí skrytých Markovových modelů (HMM) - disertační projekt M. Labského; dále využívá: –analýzu obrázků pomocí LSI –skládání cílových instancí s využitím „prezentační ontologie“ Lingvistická analýza volného textu (vč. využití informací z veřejného katalogu) Analýza topologie websites – „rozpoznání logických dokumentů“ Kategorizace firemních stránek na základě URL Rozpoznávání pornografie (asociovaný projekt)

Svátek, Labský, Hora Informaticae, Analýza volného textu Vyvinul M. Kavalec ( ) Jednoduchá ale funkční webová služba; prozatím jako extrakce vět Využívá „indikátory významné informace“, prozatím slovesa typu „include, provide, manufacture…“ Základní množina indikátorů získána „bootstrappingem“: lingvistickou a frekvenční analýzou textových dat sémanticky označkovaných (bez zásahu uživatele) pomocí záhlaví a odkazů Open Directory Vhodné zejména pro „profily“ firem

Svátek, Labský, Hora Informaticae,

Analýza topologie odkazů DP: M. Sajal (2002), F. Volavka (2003) Cílem: –nalézt množinu propojených stránek tvořících „logický dokument“ v rámci website –určení přibližné sémantické třídy stránek (rozcestník, informační stránka, intro…) Jádrem algoritmu je nalezení tzv. navigační struktury website

Svátek, Labský, Hora Informaticae,

Kategorizace stránek na základě URL Původně pro projekt metavyhledávače VŠEvěd, jako následné zpracování –bez specializace na věcnou oblast –využita zvl. typologie dokumentů Dublin Core V současnosti jako podpůrná služba při klasifikaci firemních stránek – klasický inferenční mechanismus s dopředným řetězením (V. Vávra, 2003)

Svátek, Labský, Hora Informaticae,

Rozpoznávání pornografie M. Vacura, doktorská disertace (2003) volně asociováno s Rainbow –rovněž vyvinuto několik nástrojů analyzujících tatáž webová data z různých pohledů –vyvinuta jednoduchá ontologie v OIL –důraz na obrazovou analýzu (histogramy, čáry), vedle toho i strom HTML, topologie, URL, explicitní metadata –pouze obrazová analýza implementována jako webová služba

Svátek, Labský, Hora Informaticae, Vstupní data a komunikační infrastruktura První verzi vyvinul J. Kosek (DP, ) –Komunikace mezi všemi moduly na bázi webových služeb (WSDL/SOAP) –Zajištění vstupních dat pro analýzu downloader využívající regulární výrazy kanonizace do XHTML ukládání v MS SQL poskytování dat: celý XHTML, seznam linků –Vizualizace výsledků „navigační asistent“ jako plug-in v NS/Mozilla

Svátek, Labský, Hora Informaticae, Vstupní data a komunikační infrastruktura (pokr.) Nová verze postupně vzniká od r.2003 –Vstupní data uchovávána v nativní XML databázi AmphorA z VŠB-TU Ostrava rozhraní webových služeb poskytování dat: (plánuje se) podmnožina XPath –Zpřístupnění výsledků O. Šváb v rámci bakalářské práce RDF repozitář Sesame z VU Amsterdam / Aduna šablony dotazů v jazyce SeRQL HTML rozhraní s možností navigačního dotazování (dedikované pro „bicyklovou“ aplikaci) –Infrastruktura webových služeb předpokládá se využití „sémantických WS“ (WSMO)

Svátek, Labský, Hora Informaticae, Nadstavbové modely Tvorba a (plánované) využití ontologií Formální model hodnocení úspěšnosti získávání meta-informací o webových zdrojích Kategorizace nástrojů pro analýzu webu (DWM - deductive web mining): „TODD framework“ Knihovna generických modelů úloh (PSM) specializovaná na analýzu websites

Svátek, Labský, Hora Informaticae, Tvorba a využití ontologií M. Labský, pilotní projekt, 2003 Ontologie problematiky „websites“ –pro jednotlivé „pohledy“ (HTML, topologie…) –pro jednotlivé věcné oblasti Integrace ontologií na bázi sdílených dat –metoda FCA-Merge (konceptuální svazy)

Svátek, Labský, Hora Informaticae, „Upper“ ontologie

Svátek, Labský, Hora Informaticae, Příklad konceptuálního svazu

Svátek, Labský, Hora Informaticae, Formální model hodnocení úspěšnosti metod v zárodečné podobě... založen na porovnání s referenčním souborem výsledků rozlišení tří typů meta-informací –vlastnosti s uzavřeným oborem (hodnoty: třídy z ontologie) –objektové vlastnosti (hodnoty: instance tříd z ontologie) –obsahové vlastnosti (hodnoty: primitivní data)

Svátek, Labský, Hora Informaticae, Kategorizace nástrojů pro DWM Four dimensions of DWM methods/tools: –Abstract task accomplished by the tool –Type of web object that is being addressed –Type/representation of underlying data –Problem domain Hence, TODD framework: presumably covers all what can be said about an arbitrary DWM method

Svátek, Labský, Hora Informaticae, Generické modely úloh Classification task –Look-up based Classification –Compact Classification –Structural Classification Extraction task –Overall Extraction –Compact Extraction –Structural Extraction Retrieval Task –Direct Retrieval –Index-based Retrieval

Svátek, Labský, Hora Informaticae, ExtS(DC, DocCollection, _, CSDept, [names]) :- RetD(P1, Phrase, text, General, [P1 part-of DC, PotentPName(P1)]), % named entity recognition for person names ClaC(P1, Phrase, text, General, % use of public search tools over papers and homepages RetI(P2, Phrase, freq, Biblio, P1 part-of P2, PaperCitation(P2)]), RetI(D, Document, freq, General, [P1 part-of D, D part-of DC, PHomepage(D)]), RetD(DF1, DocFragment, freq, General, [Heading(DF1), DF1 part-of D, P1 part-of DF1), ExtO(P1, Phrase, text, General, [names]), % co-occurrence-based extraction RetD(DF2, DocFragment, html, General, [ListItem(DF2), DF2 part-of DC, P1 part-of DF2]), RetD(DF3, DocFragment, html, General, [ListItem(DF3), (DF3 below DF2; DF2 below DF3)]), ExtS(DF3, DocFragment, text, General, [names]), RetD(DF4, DocFragment, html, General, [TableField(DF4), DF4 part-of DC, P1 part-of DF4]), RetD(Q, DocFragment, html, General, [TableField(DF5), (DF5 below DF4; DF4 below DF5)]), ExtS(DF5, DocFragment, text, General, [names]), % extraction from links RetD(DF5, DocFragment, html, General, [IntraSiteLinkElement(DF5), DF5 part-of DC]), ExtS(DF5, DocFragment, text, General, [names]),... % extraction of potential person names from document fragments ExtS(DF, DocFragment, text, General, [names]) :- RetD(P, Phrase, text, General, [DF contains P, PotentialPersonName(P)]), ExtO(P, Phrase, text, General, [names]). Příklad popisu aplikace: shromažďování jmen výzkumníků systémem Armadillo

Svátek, Labský, Hora Informaticae, Extrakce informací o bicyklech - Martin Labský...

Svátek, Labský, Hora Informaticae, SemWeb ve výuce na VŠE IZI211 Metody zpracování informací –bakalářský stupeň –hostující přehledová přednáška o SemWebu IZI212 Metody zpracování informací - praktika –bakalářský stupeň –dílčí úkol: sémantické anotování (RDF) webového sídla pomocí nástroje OntoMat, na základě jednoduché ontologie; výsledky zpřístupněny pomocí Sesame IZI437 Modelování znalostí –inženýrský stupeň –SemWeb hlavním tématem: požadavkem k zápočtu je vytvoření ontologie v OWL a další návazné činnosti

Svátek, Labský, Hora Informaticae, Organizace akcí apod. Seminář “Knowledge Engineering Group” –viz –(téměř) každý čtvrtek od –cca 50% přednášek se týká sémantického webu –přednášející z VŠE, jiných institucí i ze zahraničí Rozcestník „OntoWeb-CZ“ –viz –odkazy na různá pracoviště a projekty v ČR –informace o akcích Mezinárodní konference a workshopy

Svátek, Labský, Hora Informaticae, Konference a workshopy Česko-slovenská konference Znalosti –2001 Praha, 2003 Ostrava, 2004 Brno, 2005 Tatry, 2006 HK ECML/PKDD Workshop on Knowledge Discovery and Ontologies (KDO-04) –září 2004 Pisa, (?) říjen 2005 Porto Workshop on Intelligent Analysis of Web Space (?) –návaznost na končící grant GAČR 201/03/1318 –září/říjen 2005, Praha - Točná International Conference on Knowledge Engineering and Knowledge Management (EKAW-06) –říjen 2006, Poděbrady

Svátek, Labský, Hora Informaticae, Výzkum SemWebu jinde v ČR (I.) Projekt SemWeb - Informační společnost... Katedra kybernetiky FEL ČVUT –projekt CIPHER temporální ontologie (disertace K. Matoušek) transformace ontologií (připravovaná disertace P. Aubrecht) sémantické anotování textu s využitím konceptuálních grafů –OWL ontologie v multi-agentních systémech (připravovaná disertace M. Obitko) Katedra počítačů FEL ČVUT –projekt WEBING mapování DB do RDF (připravovaná disertace M. Švihla) –vývoj nástrojů pro práci s ontologií SUMO (M. Ševčenko)

Svátek, Labský, Hora Informaticae, Výzkum SemWebu jinde v ČR (II.) MUNI Brno –indexování RDF dat (připravovaná disertace S. Bartoň) VUT Brno –zabezpečení přístupu k RDF (disertace J. Güttner) –extrakce informací z WWW (disertace R. Burget) Ostravská univerzita –transformace ER modelu do deskripční logiky (připravovaná disertace M. Vajgl) VŠB-TU Ostrava –projekt AmphorA –skupina LabIS - SemWeb a TIL (M. Duží et al.)

Svátek, Labský, Hora Informaticae, Výzkum SemWebu jinde v ČR (III.) Také ÚFAL MFF UK a další akademické týmy ? Firma Ginger Alliance –soubor nástrojů pro práci s RDF (PerlRDF)

Svátek, Labský, Hora Informaticae, Vybrané problémy SemWebu s důrazem na ontologické inženýrství... Co už funguje... Co asi bude fungovat... Co možná nebude fungovat... Typické brzdy rozvoje

Svátek, Labský, Hora Informaticae, Co už funguje... Vznikla rozsáhlá interdisciplinární komunita Vznikají (kritizované ale respektované) standardy jazyků –RDF/S, OWL... SWRL, SpaRQL... V akademické komunitě konverguje využívání nástrojů k několika nejlépe podporovaným –Protégé, Jena, Sesame, RACER...

Svátek, Labský, Hora Informaticae, Co asi bude fungovat... (jen jde o to jak) Dosažení kritického množství RDF dat pro smysluplné fungování aplikací - např. Swoogle... –automatické anotování “starého” WWW –anotování webových služeb –reengineering databází –dobrovolníci a sociální sítě (FOAF...) Nárůst počtu ontologií v OWL –včetně potlačení tradičních začátečnických chyb Modelování temporálních aspektů domény Zachycení neurčitosti a vágnosti Důvěryhodnost a (?) zabezpečený přístup

Svátek, Labský, Hora Informaticae, Co možná nebude fungovat... Efektivní mapovatelnost nezávisle vzniklých ontologií Přidaná hodnota ontologií oproti UML (npod.) –definované třídy, anonymní třídy, samostatné relace... Přidaná hodnota ontologií oproti XML –lze skutečně pochopit význam pojmu za běhu aplikace? Ochota uživatelů akceptovat automatické odvozování (pomocí DL) v reálných aplikacích –snad jen testování splnitelnosti je přijímáno ochotně –klasifikaci instancí lze zpravidla lépe vyřešit specializovanými nástroji –automatická konstrukce taxonomie je “podezřelá”

Svátek, Labský, Hora Informaticae, Typické brzdy rozvoje Rozevírání nůžek mezi výzkumem a praxí –je OWL příliš jednoduchý nebo příliš složitý? pro logiky je OWL (DL) naprosto nedostačující pro praktiky je maximální hranicí srozumitelnosti RDFS Označení SemWeb se používá pro různorodou paletu přístupů, což je matoucí někdy chybí sémantika (holé taxonomie převedené do OWL) někde chybí web (cokoliv okolo formálních ontologií) Předstih vývoje nástrojů oproti dostupnosti materiálu –týká se např. mapování či evoluce ontologií

Svátek, Labský, Hora Informaticae, Děkujeme za pozornost