(nejen) pro sémantický web Alena Lukasová

Slides:



Advertisements
Podobné prezentace
Praha, Brno Nové komunikační možnosti systému Kramerius © Qbizm technologies, a.s. René Michálek
Advertisements

DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
Úvod do databázových systémů
CXPath Dotazování nad heterogenními XML zdroji s pomocí konceptuálního schéma Jan Vávra, 21. dubna 2004
Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
David Pejčoch XML (Extensible Markup Language) Semistrukturovaná data Obecný značkovací jazyk Vyvinut a standardizován konzorciem W3C Zjednodušená.
Ing. Monika Šimková. Máme-li data reprezentovat v databázi, jak vybereme jejich strukturu na konceptuální úrovni? Konceptuální modelování analyzuje požadavky.
Databáze.
Internetové publikování Doc. Ing. Petr Zámostný, Ph.D. místnost: A-72a tel.: 4222, 4167 (sekretariát ústavu 111)
SEMANTICKÝ WEB. Semantický Web WWW – Tim Berners-Lee, CERN, univerzum propojených HTML stránek, prostor hyperlinkovaných dokumentů – Informace jsou zobrazeny.
C# pro začátečníky Mgr. Jaromír Osčádal
XML, RDF a Dublin Core Petr Žabička
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
Úvod do Teorie množin.
Databáze Jiří Kalousek.
Fakulta životního prostředí Katedra informatiky a geoinformatiky
Internetové publikování Doc. Ing. Petr Zámostný, Ph.D. místnost: A-72a tel.: 4222, 4167 (sekretariát ústavu 111)
KONCEPTUÁLNÍ MODELOVÁNÍ
Fakulta životního prostředí Katedra informatiky a geoinformatiky
ONTOLOGIE a KONCEPTUÁLNÍ MODELOVÁNÍ (stručný úvod)
Databázové systémy přednáška+cvičení
METADATA „Tvoří velice důležitou složkou geodat (prostorově lokalizovatelných dat) “ Renata Hrabinová.
Relační databáze.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Sémantizace Webu 3. RDF Peter Vojtáš.
Sémantický web, ontologie. Sociální sítě.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 4 Proces návrhu databáze.
V matematice existují i seskupení objektů, které nejsou množinami.
Maturitní okruh 22: Úvod do HTML. Značkovací a klasické jazyky Klasické: převládá strukturovaný text (programovací kód), skripty jsou prováděny na straně.
B. Miniberger, BIVŠ Praha 2009
Návrh a tvorba WWW Cvičení 4
Převod ER schémat do ERL Deskripční logiky Mgr. Marek Vajgl.
INDIVIDUA KFI/ FIL1 Petr Hýža FI - FV Logika: systémový rámec rozvoje oboru v ČR a koncepce logických propedeutik pro mezioborová studia (reg. č. CZ.1.07/2.2.00/ ,
XML Schema Irena Mlýnková. Obsah XML – úvod, příklad, základní pojmy DTD – přehled XML Schema – podrobně.
Teorie zpracování dat KONCEPTUÁLNÍ SCHÉMA.
Jazyk XML Jazyk pro tvorbu strukturovaných dokumentů Syntaxí velmi podobný HTML Hlavní cíle návrhu: Snadná editace - jazyk je textový Snadné strojové zpracování.
Návrh a tvorba WWW Přednáška 5 Úvod do jazyka PHP.
Výroková logika.
Srovnání standardů CEN, FGDC a ISO pro metadata Ing. Jan Růžička Institut ekonomiky a systémů řízení, odd.GIS VŠB-TU Ostrava, HGF tř. 17.listopadu
Databázové modelování
RDF a RQL Roman Krejčík. RDF a RQL RDF – Resource Description Framework –Jazyk pro ukládání informací v XML –RDF Schema RQL – RDF Query Language –Dotazování.
Zpracování neurčitosti Fuzzy přístupy RNDr. Jiří Dvořák, CSc.
Databázové systémy Informatika pro ekonomy, př. 18.
Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce
Sémantizace Webu 4. RDFS Peter Vojtáš.
SWI140 – Technologie Sémantizace Webu OWL Peter Vojtáš, TSW
Predikátová logika1 Predikátová logika 1. řádu Teď „logika naostro“ !
Změny v bázi Národních autorit Seminář pro účastníky Souborného katalogu ČR 1.
Jazyk XML v geoinformatice
Databázové systémy Datové modely.
Petr Šmíd Obsah prezentace Co je to XML ?
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Úvod do databází zkrácená verze.
● Databaze je soubor dat,slouží pro popis reálného světa(např.evidence čkolní knihovny..) ● Relační databaze je databáze založená na relačním modelu.
Inf Webová stránka, princip HTML a CSS. Výukový materiál Číslo projektu: CZ.1.07/1.5.00/ Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
Internet – pojmy, služby
Úvod do databázových systémů
Značkovací jazyky Začínáme.
Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky
Dobývání znalostí z databází znalosti
Výpočetní technika Akademický rok 2008/2009 Letní semestr
Informatika pro ekonomy přednáška 8
Číslo projektu OP VK Název projektu Moderní škola Název školy
Predikátová logika.
Transkript prezentace:

(nejen) pro sémantický web Alena Lukasová RDF datový model (nejen) pro sémantický web Alena Lukasová

syntaktický web  sémantický web Co to znamená? Přechod od strukturálně propojených datových zdrojů na bázi klíčových slov k jejich propojení na bázi významových asociací. Jak se realizuje? Potřeba sémanticky strukturovat data na webu obrací pozornost ke konceptuální úrovni návrhů webových znalostních bází a aplikací. Sémantická struktura dat je reprezentována konceptuálním datovým modelem RDF.

Propojení zdrojů podle významů Prostředek: model RDF (Resource Description Framework) jako základní rámec reprezentace informací na webu. Realizace: RDF realizuje propojení webových zdrojů na bázi významů dokumentů prostřednictvím speciálních informací (metadat) o těchto datových zdrojích. Metadata = strukturovaná data o datech

Obecný význam RDF modelu Původní záměr: model základních metadat (název, autor, datum vytvoření apod.) o webových zdrojích s využitím jazyka XML (eXtensible Markup Language), Nyní: obecná metoda konceptuálního modelování znalostí obsažených v dokumentech webu, bez ohledu na formát jejich syntaxe. RDF je obecný rámec pro výměnu dat, a to nejen těch, která jsou dostupná na webu.

Proč konceptuální model RDF RDF jako datový model je pro sémantický web základním reprezentačním prostředkem, podobně HTML a syntaktický web. RDF představuje bázi pro kódování, výměnu a používání strukturovaných metadat. Metadata neboli strukturovaná data o datech, na nichž je RDF model postaven, zlepšují významně možnost přístupu k informacím.

Dokumenty W3C o RDF modelu RDF model, který se týká metadat o datových zdrojích, je popsán v dokumentech konsorcia W3C, z nichž první (RDF) se týká syntaxe, druhý (RDFS) se týká adres slovníků (schémat), další pak sémantické stránky modelu. http://www.w3.org/1999/02/22-rdf-syntax-ns# http://www.w3.org/XML/Schema http://www.w3.org/TR/2004/REC-rdf-mt-20040210/

Dva nové principy v konceptuálním modelování RDF Jde o způsob popisu konceptů, jejich vlastností a vzájemných vztahů v termínech vlastností (atributů) a jejich hodnot a identifikaci prvků modelu, kterými jsou zde webové zdroje, pomocí uniformních identifikátorů zdrojů URI (Uniform Resource Identifier).

„subjekt - predikát – objekt“. RDF a asociativní sítě Model vychází z myšlenky známé již z asociativních (sémantických) sítí, spočívající v jednoduchých tvrzeních, týkajících se vztahů mezi objekty (zde zdroji), formou vektorů (trojic) „subjekt - predikát – objekt“.

Dvojí syntax RDF jazyka RDF má abstraktní syntax vycházející z reprezentace jednoduchých tvrzení prostřednictvím RDF trojic textovou formou i grafickou formou, a tomu odpovídající formální, na teorii modelů založenou, sémantiku, syntax v RDF XML.

Abstraktní syntax modelu RDF Základním jednotkou modelu RDF je graficky reprezentovatelné tvrzení o zdrojích jako vektor (trojice), tj. tvrzení, že "subjekt" "má vlastnost" určenou "objektem". subjekt objekt má_vlastnost predikát

RDF-trojice a graf RDF-trojice má tři komponenty: Zdroj subjekt - pojmenovaný uzel, graficky reprezentovaný elipsou, spojený s jiným zdrojem objektem - pojmenovaným uzlem, graficky reprezentovaným rovněž elipsou, pomocí hrany - predikátu, který odkazuje též na zdroj. RDF-trojice je uspořádaný graf reprezentující tvrzení subjekt má vlastnost predikát s hodnotou objekt. RDF-graf je množina RDF-trojic.

Atributový centralismus RDF Vlastnost (atribut) je prostředek vyjádření vlastností a vztahů mezi objekty (zdroji) v rámci modelu RDF. Jádro modelu sestává z konceptů (množin objektů), reprezentovaných jedinečnými identifikátory, a binárních vztahů (tvrzení) vztahujících se k těmto konceptům. Vlastnost je určena: jménem významem možnými hodnotami, kterých nabývá typy zdrojů, které má popisovat vztahy k jiným vlastnostem

Identifikace zdrojů Základem koncepce modelu RDF je způsob popisu zdrojů v termínech vlastností a jejich hodnot a idea identifikace věcí pomocí uniformních identifikátorů zdrojů URI (Uniform Resource Identifier). Model RDF pracuje uniformně pouze s URI odkazy, které stojí jak na místě subjektu a objektu, tak i na místě predikátu.

Zdroj Zdroj je entita, kterou lze popsat RDF výrazem. Zdrojem může být Webovská stránka nebo její část Soubor webových stránek Element XML ve zdrojovém dokumentu Objekt,dostupný přímo pomocí webu – kniha, obrázek,…

Jmenné prostory RDF model poskytuje slovníky jak ve formě čitelné člověkem, tak i strojově zpracovatelné formě. Model jednoznačně identifikuje vlastnosti s použitím jmenných prostorů jejich slovníků. Pro stručnější způsob zápisu se používají pro jmenné prostory jejich kvalifikovaná jména (QNames) tvořící prefixy popisovaných prvků trojic. Např. jmenný prostor Dublin Core (dc:), jehož jmenný prostor dc: má URI http://purl.org/dc/elements/1.1/

RDFS Model RDF neposkytuje mechanismus pro deklarování konceptů - tříd, vlastností ani vztahů. To je úkolem RDF Schema (RDFS). RDF model tedy má dvě komponenty, z nichž první -RDF se týká syntaxe, druhý -RDFS se týká adres slovníků (schémat), určujících sémantickou stránku modelu.

Tvrzení o datu vytvoření webovské stránky, reprezentované a) grafickými prostředky RDF, b) RDF XML kódem Příklad V RDF/XML jazyce: 1. <?xml version=“1.0“?> 2. <rdf:RDF xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#“ 3. xmlns:exterms=“ http://www.example.org/terms/“>. 4. <rdf:Description rdf:about=“ http://www.example.org/index.html“> 5. <exterms:creation-date>August 16 2006> 6. </rdf:Description> 7. </rdf:RDF> http://www.example.org/index.html http://www.example.org/terms/creation-date August 16, 2006 a) b)

Anonymní zdroje zde „publikace … má nějakou kapitolu…“ Příklad urn:ISBN:.. Handbook on Ont. dc:title eg:chapter dc:creator xsd:decimal 21 Brian McBride nospam@hp.com eg:age vcard:FN vcard:email

totéž v RDF XML <rdf:description rdf:about=”urn:ISBN:…”> <dc:Title>Handbook on Ontologies/<dc:Title> <eg:chapter> <rdf:Description> <dc:Creator> <vcard:FN>Brian McBride/<vcard:FN> <vcard:email>nospam@hp.com/<vcard:email> <eg:age rdf:datatype=”&xsd:decimal:”>21</eg:age> </rdf:Description> </dc:Creator> </eg:chapter> </rdf:description> Prázdný uzel je reprezentován elementem rdf:Description bez atributu rdf:about.

RDF kontejnér bag Příklad kontejnéru bag – dokument má více autorů rdf:bag autor X autor Y autor Z

RDF kontejnér sekvence Příklad kontejnéru sekvence – zde sekvence odstavců dokument část rdf:seq 1. Úvod 2. Základní pojmy 3. Metody

RDF kontejnér alternativa Příklad kontejnéru alternativa – několik možných zástupců firmy firma zástupce rdf:alt představitel X představitel Y představitel Z .....

Mechanismus typování v RDFS RDFS datový model na rozdíl od databázových systémů nemá žádný „vestavěný“ soubor datových typů, pouze poskytuje způsob explicitního určení, jakého typu má literál být. Prostředky, kterými definuje termíny zdrojů, resp. konceptů (tříd) v RDFS jsou Typování - individuum náleží určité třídě rdfs:Class Podtřídy - instance jedné třídy je zároveň instancí jiné třídy rdfs:subClassOf

Typový systém tříd a vlastností RDF Schéma (RDFS) poskytuje pro RDF model typový systém, který dává možnost, aby zdroj byl definován jako instance jedné nebo více tříd (konceptů). Tím umožňuje jejich hierarchické uspořádání. Jména tříd začínají velkým písmenem, jména vlastností malým. Zdroje jsou v RDFS popisovány pomocí slovníků, které mají vždy prefix rdfs: Třídy (koncepty) jsou popsány s použitím rdfs:Class a rdfs:Ressource, vlastnosti pomocí rdf:type a rdfs:subClassOf.

Příklad - převzato z W3C dokumentu RDF Primer a) Třída motorových vozidel a její podtřídy nákladních, osobních a dalších motorových vozidel popsaná trojicemi, kde prefix ex: zastupuje URI odkaz ( zde URL): http://www.example.org/schemas/vehicles. ex:MotorVehicle rdf:type rdfs:Class . ex:PassengerVehicle rdf:type rdfs:Class . ex:Van rdf:type rdfs:Class . ex:Truck rdf:type rdfs:Class . ex: PassengerVehicle rdf:subClassOf rdfs:MotorVehicle . ex: Van rdf:subClassOf rdfs:MotorVehicle . ex: Truck rdf:subClassOf rdfs:MotorVehicle .

Příklad - převzato z W3C dokumentu RDF Primer b) Zápis v jazyce RDF/XML: <?xml version=“1.0“?> <!DOCTYPE rdf:RDF [<?ENTITY xsd http://www.w3.org/2001/01/XMLSchema#>]> <rdf:RDF xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#“ xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#“ xml:base=“http://www.example.org/schemas/vehicles#> <rdfs:Class rdf:ID=“MotorVehicle“/> <rdfs:Class rdf:ID=“Truck“> <rdfs:subClassOf rdf:ressource=“#Motorvehicle“/> <rdfs:Class> ….

Příklad - převzato z W3C dokumentu RDF Primer c) RDF grafem http://www.w3.org/2000/01/rdf-schema#subClassOf * http://www.example.org/schemas/Vehicles#Van http://www.example.org/schemas/Vehicles#Truck * http://www.example.org/schemas/Vehicles#MiniVan http://www.example.org/schemas/vehicles#MotorVehicle

RDF model rozlišuje tři typy konceptu fundamentální koncepty koncepty definující schéma (pro definování nových slovníků) koncepty utilit (užitečné pro některé aplikační domény)

Fundamentální koncepty rdf:Resource rdf:Property Jde o zdroje, které se používají v trojici jako predikáty. rdf:Statement Statement je zdrojem, který reprezentuje trojici. Zhmotnění (reification) trojice deklaruje rdf:subject, rdf:predicate a rdf:object s  hodnotami danými příslušnými zdroji.

Koncepty definující schéma Třídy (koncepty) specifikující zdroje jsou popsány s použitím rdf:type, rdfs:Class a rdfs:subClassOf. Vlastnosti jsou popsány pomocí rdf:type a rdfs:subPropertyOf. Jména tříd začínají velkým písmenem, jména vlastností malým. Vlastnost type indikuje instanci třídy/vlastnosti.

Slovníky Prostředky RDFS jsou poskytovány ve formě slovníků. Slovníky (schémata), zapsané v RDFS jazyce, mají vždy prefix rdfs: a jsou řádnými RDF grafy. Třída v RDFS odpovídá generickému pojmu typ nebo kategorie.

Vlastnosti v RDF modelu Vlastnosti tvoří speciální třídu rdf:Property. Vlastnosti jsou omezovány doménou (domain) a oborem hodnot (range). Výraz P rdfs:range C reprezentuje RDF tvrzení, jehož subjektem je P, objektem C a vlastnost je rdfs:range. P je vlastnost, C je třída (koncept). Při použití vlastnosti P musí objekt být prvkem C.

Popis vlastností V RDFS jsou vlastnosti popisovány jako instance třídy rdf:Property a RDFS vlastnostmi rdfs:domain, rdfs:range rdfs:subPropertyOf. Např. ex:weightInKg rdf:type rdf:Property . ex:Person rdf:type rdfs:Class . ex:author rdf:type rdfs:Property . ex:author rdfs:range ex:Person . ex:Book rdf:type rdfs:Class . ex:author rdfs:domain ex:Book .

Sémantika jazyka RDF je (obdobně jako v případě jazyka logiky prvního řádu) definována jako denotační sémantika, založená na přístupu teorie modelů. Předpokládá se, že jazyk je určen k tomu, aby formalizoval tvrzení o modelované doméně (světě). Modelovaný svět určuje tedy zamýšlenou interpretaci formálního jazyka RDF a poskytuje základní fakta o tomto světě. Interpretační pravidla pak poskytují předpis, jak stanovit pravdivostní hodnotu dalších odvozených tvrzení.

Definice interpretace jazyka Jednoduchá interpretace I slovníku V jazyka RDF (RDFS) je dána: Neprázdnou množinou IR zdrojů, zvanou doménou, resp. universem diskursu interpretace I. Množinou IP vlastností interpretace I. Zobrazením IEXT z IP do podmnožiny kartézského součinu IRIR, tj. množinou dvojic x, y, x,y  IR. Zobrazení IS z množiny URI odkazů slovníku V do sjednocení IR  IP. Zobrazení IL z množiny typovaných literálů z V do IR. Zvláštní podmnožinou LV množiny IR, nazývanou množinou literálních hodnot, která obsahuje všechny prosté literály z V.

Denotáty v RDF V rámci RDF je třeba uvažovat dva typy denotace: denotáty jmen jsou objekty universa diskursu (zdroje) a denotáty trojic jsou pravdivostní hodnoty.

Interpretace bázového grafu Je-li E prostý literál "aaa" z V, potom je I(E) = aaa. Je-li E prostý literál "aaa"@ttt z V, potom je I(E) = aaa, ttt (@ttt je jazykový ukazatel). Je-li E typovaný literál z V, potom je I(E) = IL(E). Je-li E URI odkaz z V, potom I(E) = IS(E). Je-li E bázová trojice s p o, potom I(E) = true, jestliže s a p je z V, I(p) je z IP a dvojice I(s), I(o) náleží extenzi IEXT(I(p)). Jinak je I(E) = false. Je-li E bázový graf RDF, potom I(E) = false, jestliže pro některou trojici E´ platí I(E´) = false. Jinak je I(E) = true.

Prázdné uzly jako existenční proměnné Pro množinu prázdných uzlů blank(E) je třeba rozšířit interpretační pravidla následující definicí. Definice Nechť I je interpretace a A je zobrazení z množiny blank(E) prázdných uzlů z E do universa diskursu IR, které přiřazuje každému prázdnému uzlu prvek z IR. Potom platí: Je-li E prázdný uzel a A(E) je definováno, potom v rozšířené interpretaci [I+A](E) = A(E). Je-li E RDF graf, potom je I(E) = true, jestliže platí pro nějaké zobrazení A´ z blank(E) do IR [I+A´](E) = true. V opačném případě je I(E) = false.

Logické důsledky RDF grafů Definice Graf E je logickým důsledkem množiny S grafů, právě když pro všechny modely množiny S platí, že graf E je v nich splněn. Podobně jako v logice prvního řádu též platí každý jednotlivý graf množiny S je jejím logickým důsledkem, logickým důsledkem grafu s prázdnými uzly je jeho instance a Věta (o kompaktnosti) Je-li konečný graf E logickým důsledkem grafu S, potom je E logickým důsledkem nějakého subgrafu S' grafu S.

Děkuji za pozornost Alena Lukasová