Dnešní témata Technologie pořádání informací a znalostí v 21. století dokumenty → data data → znalosti ontologie vizualizace znalostní (informační) systém sémantika (umělá) inteligence UISK – PVI K02
Vizualizace – notace UML UISK – PVI K02
Znalostní (informační) systém
Informační systémy podle typu řešených úloh databázové (informační) znalostní, expertní (AI, BI) uchování a vyhledání elementárních dat (faktů) a mechanická manipulace s nimi uchování a využívání explicitních znalostí, tj. „návodů“ pro vyvozování nových faktů z faktů známých výsledek zpracování materiál pro rozhodování již známá informace rozhodnutí nová informace UISK – PVI K02
Znalostní systém v širším pojetí aplikace umělé inteligence expertní systémy business intelligence big data – objemná data sémantický web 5
Znalostní (informační) systém umělá inteligence znalostní management UISK – PVI K02
Znalost Schopnost člověka nebo jakéhokoli jiného inteligentního systému uchovávat, komunikovat a zpracovávat informace do systematicky a hierarchicky uspořádaných znalostních struktur. Znalost je charakterizována schopností abstrakce a generalizace dat a informací. [TDKIV] UISK – PVI K02
Přístupy k chápání znalosti Znalost jako vědění, případně moudrost zkoumá filozofie, teorie poznání (gnozeologie, epistemologie, noetika), psychologie, kognitivní vědy Klíčová otázka: Co je to znalost? (Platón: Theiaitétos) Znalost jako použitelná informace zkoumá informační věda (znalosti ve společnosti), umělá inteligence (znalosti v počítači) a znalostní management (znalosti lidí v podniku) Klíčová otázka: Jak zpracovat / komunikovat / využívat znalost? UISK – PVI K02 8
UISK – PVI K02 Tento „koloběh“ data – informace – znalosti může být: a) intelektuální tj. realizovaný myšlenkovými procesy b) technologický tj. realizovaný či podporovaný ICT – hardwarově a/nebo softwarově business intelligence (knowledge discovery in databases, data mining, data warehousing, reporting): získávání znalostí z nashromážděných informací / dat expertní systémy UISK – PVI K02
SECI – Ikujiro Nonaka, 1994 NONAKA, Ikujiro. A dynamic theory of organizational knowledge creation. In: Organization science. February 1994, 5(1), 14-37. ISSN 1047-7039 NONAKA, Ikujiro. A dynamic theory of organizational knowledge creation. In: Organization science. February 1994, 5(1), 14-37. ISSN 1047-7039
Znalosti – obsah Bohumil Hrabal vydal v roce 1964 ve vydavatelství Mladá Fronta knihu Pábitelé, která patří do žánrové kategorie "české povídky" a obsahuje povídku Jarmilka. V roce 2009 vydalo nakladatelství Albatros Povídky Malostranské Jana Nerudy. Kniha je v NK ČR zařazená do kategorie "české povídky" se signaturou 54 F 097848. "České povídky" a "české novely" jsou podkategorií kategorie "česká próza", která je podkategorií kategorie "česká literatura". UISK – PVI K02
Znalosti – formát Hrabal, Bohumil. Pábitelé: Povídky. 1. vyd. Praha: Mladá fronta, 1964. 201, [3] s. Boje; Sv. 128. URL Neruda, Jan. Povídky malostranské. V této podobě 1. vyd. Praha: Albatros, 2009. 267 s. ISBN 978-80-00-02148-5 URL česká literatura česká próza české novely české povídky UISK – PVI K02
Znalosti – model obsahu podle ISO 690 Implementace modelu obsahu podle ISO 690
Znalosti – model obsahu podle FRBR entity a atributy: DÍLO.název díla DÍLO.forma díla VYJÁDŘENÍ.forma vyjádření PROVEDENÍ.datum vydání PROVEDENÍ.nakladatel PROVEDENÍ.údaje o odpovědnosti JEDNOTKA.identifikátor jednotky OSOBA.jméno osoby KORPORACE.jméno korporace asociace: OSOBA,KORPORACE vytváří DÍLO OSOBA,KORPORACE realizuje VYJÁDŘENÍ OSOBA,KORPORACE vyrábí PROVEDENÍ OSOBA,KORPORACE vlastní JEDNOTKU DÍLO je realizováno pomocí VYJÁDŘENÍ VYJÁDŘENÍ je ztělesněno v PROVEDENÍ PROVEDENÍ je ilustrováno JEDNOTKOU
Znalosti – implementace pojmového modelu obsahu podle FRBR výroky: DÍLO.název díla = Pábitelé: Povídky DÍLO.forma díla = české povídky VYJÁDŘENÍ.forma vyjádření = kniha PROVEDENÍ.datum vydání = 1964 PROVEDENÍ.nakladatel = Mladá Fronta PROVEDENÍ.údaje o odpovědnosti = Bohumil Hrabal JEDNOTKA.identifikátor jednotky = 54 F 097848 OSOBA.jméno osoby = Bohumil Hrabal KORPORACE.jméno korporace = Mladá Fronta OSOBA,KORPORACE vytváří DÍLO OSOBA,KORPORACE realizuje VYJÁDŘENÍ OSOBA,KORPORACE vyrábí PROVEDENÍ OSOBA,KORPORACE vlastní JEDNOTKU DÍLO je realizováno pomocí VYJÁDŘENÍ VYJÁDŘENÍ je ztělesněno v PROVEDENÍ PROVEDENÍ je ilustrováno JEDNOTKOU UISK – PVI K02
Vliv typu znalostí na způsob jejich organizace každodenní znalost commonsense, naїve physics, běžné chápání skutečnosti, všeobecné znalosti, „zdravý rozum“ UISK – PVI K02
Znalost (poznatek) je, když víme: deklarativní Co to je? Co to znamená? Jak to probíhá? Jak to funguje? Jak se to dělá? abychom věděli… poznání, vědění, moudrost procedurální Deklarativní: má formu výroku, tvrzení – lze určit, zda je pravdivá Procedurální: často má formu metody či metodiky – otázka po pravdivosti nemá smysl abychom mohli… činnost, akce / metoda UISK – PVI K02
Karel Čapek: Jak se zakládají zahrádky Zahrádky je možno zakládati několikerým způsobem; nejlepší je ten, že se na to vezme zahradník. Zahradník vám tam nasází všelijaké hůlky, proutí a košťátka, o kterých tvrdí, že jsou to javory, hlohy, bezy, vysokokmeny, polokmeny a jiné přírodní druhy; potom se ryje v hlíně, zobrací ji naruby a zase ji uplácá, udělá ze škvárů cestičky, nastrká tu a tam do země jakési zvadlé lupení, o němž prohlašuje, že to jsou pereny, naseje na příští trávník semínko, jež nazývá anglickým jílkem a psinečkem, psárkou, poháňkou a bojínkem, a potom odejde, nechávaje za sebou zahrádku hnědou a holou, jako byla dne prvého o stvoření světa; jen vám klade na srdce, abyste tu všechnu hlínu země denně pečlivě kropili, a až vzejde tráva, abyste si nechali přivézt na cestičky písek. Nu dobře. UISK – PVI K02
Co je to inteligence? The reason that computers have found such widespread use is that they perform well in areas where humans perform poorly (and vice versa). Chisnall, David. Is computer science dying? InformIT. 9. 11. 2007 Manželka posílá programátora nakoupit. Kup deset rohlíků a když budou mít vejce, kup jich 30. Programátor přijde do obchodu a povídá: „Máte vejce?“ „Ano, máme“ odpoví prodavačka. „30 rohlíků, prosím.“ UISK – PVI K02 19
Implicitní – explicitní 1) Implicitní znalost Není vyjádřená a dostupná přímo a je zahrnuta v jednání, způsobu řešení úloh, souboru dat apod. 2) Explicitní znalost Logicky zformulovaná a abstraktně vyjádřená, zaznamenaná v určitém jazyce a dostupná přímo v nějakém formálním zdroji (dokument, záznam v databázi). Implicitní – explicitní: komunikace člověk – člověk Reprezentace znalostí: komunikace člověk – počítač UISK – PVI K02 20
Vliv typu znalostí na způsob jejich organizace UISK – PVI K02
Sémantický rozměr znalosti informace / data J znak (jazykový výraz) – lexikální jednotka ? označení (denotace) vyjádření Dvojí reference: slova zastupují pojmy, pojmy zastupují realitu Cesta od skutečnosti k myšlení (odraz, pochopení) a k vyjádření. 1 pojem – více objektů – abstrakce, zobecnění 1 pojem – více znaků – synonymie 1 znak – více pojmů - homonymie znalost smysl S (koncept, pojem) D denotát (skutečnost, objekt) odraz UISK – PVI K02 22
Knowledge discovery in databases, KDD Technika automatizovaného získávání implicitních znalostí z rozsáhlých databází a datových skladů pro využití v rozhodovacích procesech nebo v expertním systému. Řešené úlohy deskripční neboli popisné (nalézání struktur a vztahů) klasifikační/predikční (umožňují automatizovanou klasifikaci nových případů) technologické jádro: data mining UISK – PVI K02
Data mining (dolování v datech) Technologie vyhledávání, modelování a prezentace předem neznámých informací, příp. znalostí a vztahů mezi daty v rozsáhlých databázích. Analýzy se odvozují přímo z obsahu dat, nikoliv na základě hypotéz či dotazů uživatele. používané techniky: umělá inteligence (neuronové sítě, rozpoznávání, samoučící se algoritmy) statistické a matematické modelování (klasifikační pravidla nebo stromy, regrese, shluková analýza) OLAP UISK – PVI K02
Umělá inteligence artificial intelligence, AI „Počítač není inteligentní. Jen si to o sobě myslí.“ Anonym Marvin Minsky: „Věda o vytváření strojů, které vykonávají věci, jež by v případě vykonávání lidmi vyžadovaly inteligenci.“ „The science of making machines do things that would require intelligence if done by men.“ Russel – Norvig: „Věda o (inteligentních) agentech, kteří dostávají vjemy z okolí a vykonávají akce.“ „We define AI as the study of agents that receive percepts from the environment and perform actions.“
MAŘÍK, Vladimír, LAŽANSKÝ, Jiří a ŠTĚPÁNKOVÁ, Olga Umělá inteligence 1. Praha: Academia, 1993. 264 s. Umělá inteligence 2. Praha: Academia, 1997. 373 s. Umělá inteligence 3. Praha: Academia, 2001. 328 s. Umělá inteligence 4. Praha: Academia, 2003. 475 s. Umělá inteligence 5. Praha: Academia, 2007. 544 s. VOŠIS - ZIZ 16
Klíčová úloha znalostních systémů Reprezentace znalostí Inference znalostí UISK – PVI K02
Reprezentace znalostí knowledge representation Proces, který zajišťuje, aby informace byla dostupná tomu, kdo ji má používat. předmět zkoumání metody a techniky vyjádření znalostí a jejich vztahů především pro využití v bázích znalostí expertních systémů Implicitní – explicitní: komunikace člověk – člověk Reprezentace znalostí: komunikace člověk – počítač, event. počítač - počítač reprezentace UISK – PVI K02 28
Reprezentace znalostí – pokus o typologii Obtížná typologie reprezentace znalostí: při jakémkoli pokusu o fasetovou klasifikaci „vyskakují“ mezifasetové asociace – fasety nejsou disjunktní UISK – PVI K02
Reprezentace znalostí procedurální vyjádření znalostí ve formě pravidel b) neprocedurální či deklarativní vyjádření znalostí ve formě poznatků (ontologie) nejčastěji používané typy jazyků: predikátová logika 1. řádu, produkční systémy, sémantické (asociativní) sítě a rámce UISK – PVI K02
Reprezentace znalostí ve formě pravidel UISK – PVI K02
Reprezentace znalostí podle přístupu k řešení neurčitosti 1) symbolická explicitní vyjádření prostřednictvím jednoznačných symbolů (konceptualizace) sémantické sítě: vizualizace sémantických vztahů ve formě grafu specifické aplikace: rámce, mapy námětů (topic maps) nebo datové modely (ERA diagramy nebo UML diagramy tříd) (produkční) pravidla: reprezentace procedurálních znalostí typu předpoklad – závěr (if – then) Obvykle reprezentuje deklarativní znalosti UISK – PVI K02
Rámce frames kombinace deklarativní a procedurální reprezentace objektů prostřednictvím položek (slots), sloužících k popisu jejich vlastností a vzájemných vztahů předchůdce objektově orientovaného přístupu + hodnoty atributů + vztah k ostatním třídám UISK – PVI K02
Rámce frames UISK – PVI K02
Reprezentace znalostí podle přístupu k řešení neurčitosti 2) komputační alternativní názvy: výpočetní, distribuovaná, statistická, pravděpodobnostní, konekcionistická, fuzzy reprezentace; soft computing, soft programming zpracování neurčité informace pomocí statistických a pravděpodobnostních metod funkcionální simulace lidských myšlenkových procesů v počítači specifické aplikace: neuronové sítě genetické algoritmy reprezentace neurčitých znalostí UISK – PVI K02
Neuronová síť neural network Počítačová aplikace využívající k řešení úloh model funkcí biologického neuronu (tzv. procesor). Procesor má více vstupů, které dokáže klasifikovat a na jejich základě generovat výstup. Procesory jsou navzájem propojeny do sítí ohodnocenými vazbami, což umožňuje nealgoritmické a paralelní zpracování složitých úloh. Činnost sítě je založena na procesu učení, tj. adaptace na konkrétní úlohu za pomoci vnějšího činitele (síť s učitelem) nebo na základě stimulů (samoorganizující se síť). UISK – PVI K02
Neuronová síť neural network Zdroj obrázku: http://vsalek.byl.cz/neusport.htm UISK – PVI K02 37
Reprezentace znalostí podle techniky odvozování odvozování / inference: jakýkoli způsob, jak získat (odvodit) nové výrazy ze starých Používané techniky odvozování: indukce – dedukce dědičnost (generalizace, ISA, „inference by inheritance“) logická pravidla (IF – THEN, rezoluční metoda odvozování – „inference by resolution“) sylogismus ekvivalence (např. synonyma, antonyma) koordinace (členství ve stejné kategorii) celek – část UISK – PVI K02
Pojmové schéma Systém organizace znalostí jako metadatové schéma tezaurus deskriptory články UISK – PVI K02
Typy systémů (modelů) organizace znalostí 1) Šipka jde ve směru vzrůstající sémantické síly 2) Bez ohledu na typ systému organizace informací/znalostí jde vždy o systém založený na jazyce UISK – PVI K02
Pojmový model / schéma = schéma vytvořené z pojmů komponenty: pojmy reprezentující realitu a vztahy mezi nimi D skutečnost S pojem J znak UISK – PVI K02
Pojmový model systému organizace znalostí model tezauru Pojmový model systému organizace znalostí tezaurus deskriptory články UISK – PVI K02
Zdroj: http://www.niso.org/schemas/iso25964/Model_2011-06-02.jpg UISK – PVI K02
Znalostní (informační) systém UISK – PVI K02
Znalostní (informační) systém UISK – PVI K02
Jazyky pro reprezentaci znalostí RDF – resource description framework formát metadat RDFS – RDF schema OWL – Web ontology language obsah metadat SKOS Topic maps – mapy námětů (ISO 13250) ERA – entity relationship attribute UML – unified modeling language (ISO 19501) UISK – PVI K02
Znalostní (informační) systém UISK – PVI K02
Znalostní (informační) systém UISK – PVI K02
Znalostní (informační) systém UISK – PVI K02
Znalostní (informační) systém UISK – PVI K02
Znalostní (informační) systém UISK – PVI K02
Sémantický web 3 stadia standardizace (unifikace) WWW: protokol http HTML, URI sémantika UISK – PVI K02
Technologie Sémantického webu UISK – PVI K02
Standardy Sémantického webu syntaktické sémantické UISK – PVI K02
Syntaktické standardy ISO 2709:2008 (4. ed.) ČSN ISO 2709 (01 0157). Informace a dokumentace: Formát pro výměnu informací. 3. vyd. Praha: Český normalizační institut, 1998. 10 s., příl. ISO 8879:1986 ČSN EN 28879 (36 9825) Zpracování informací. Textové a kancelářské systémy. Standardní univerzální vyznačovací jazyk (SGML). Praha: Český normalizační institut, 1995. 204 s. CCF/B, CCF/F http://unesdoc.unesco.org/images/0009/000924/092449eb.pdf UISK – PVI K02
Syntaktické standardy CCF/B, CCF/F http://unesdoc.unesco.org/images/0009/000924/092449eb.pdf UISK – PVI K02
Sémantické standardy RDF Resource Description Framework formát metadat OWL Web Ontology Language jazyk pro vyjádření obsahu metadat UISK – PVI K02
Cíl sémantiky – srozumitelně označený prostor Podstata sémantiky – značky označující objekty (např. VELICHOVKY) z hlediska jejich obsahu. Potřebujeme nejen značky, ale musíme jim i rozumět.
Příklad – „nesémantická data“ <li>Ontologie v znalostním managementu</li> <p><em>Jana Dobrovská</em></p> <li>Projekt Xanadu</li> <p><em>Pavel Souček</em></p> <li>Projekt MyLifeBits</li> <li><img src="../obrazky/zadano.gif" alt="zadano">Projekt Wikipedia</li> <p><em>Věra Janková<br> Karel Novák</em></p> UISK – PVI K02
Příklad – „sémantická data“ srozumitelná jen lidem <volné téma> Ontologie v znalostním managementu <student/ka>Jana Dobrovská</student/ka> </volné téma> <volné téma>Projekt Xanadu <student/ka>Pavel Souček</student/ka> </volné téma> <volné téma>Projekt MyLifeBits</volné téma> <zadané téma>Projekt Wikipedia <student/ka>Věra Janková</student/ka> <student/ka>Karel Novák</student/ka> </zadané téma> UISK – PVI K02
Příklad – „sémantická data“ srozumitelná jen lidem SELECT * FROM Studie WHERE Volné_zadané = Volné UISK – PVI K02
Problém: sémantická interoperabilita Jak daleko je… ? Potřebujeme nejen stejné značky, ale musíme jim i stejně rozumět.
Web dokumentů (1989) UISK – PVI K02 Zdroj: http://www.w3.org/History/1989/proposal.html a http://info.cern.ch/Proposal.html UISK – PVI K02
Současnost WWW „web of documents“ narativní dokumenty sémanticky nestrukturovaná, kompaktní data, jimž rozumí jen lidé UISK – PVI K02
Sémantický web „web of data“ transakční dokumenty sémanticky strukturovaná data, jejichž obsahu rozumí počítačové programy (software agent) UISK – PVI K02
Web dat (2011) Zdroj: http://lod-cloud.net/ UISK – PVI K02
Systematické ani předmětové pořádání neřeší všechny problémy organizace znalostí sémantická síla (složená témata, multi- a interdisciplinární problémy, složité vztahy) nedokumentové zdroje znalostí procedurální znalosti interoperabilita automatizované vyhledávání / tvorba nových znalostí / řešení problémů založené na znalostech Řešení? poddat se chaosu ontologie UISK – PVI K02
Informatická ontologie je: Thomas R. Gruber (1959) „Specifikace konceptualizace“ Thomas R. Gruber + Willem Nico Borst Formální explicitní specifikace sdílené konceptualizace skutečnosti Sdílitelná a opakovatelně použitelná pojmová reprezentace vymezené domény (univerza diskursu) skutečnost pojem znak specifikace UISK – PVI K02 konceptualizace
Informatické ontologie souvisí s obory: umělá inteligence reprezentace znalostí znalostní inženýrství expertní systémy, znalostní báze, získávání znalostí logika predikátová, deskripční softwarové inženýrství UISK – PVI K02
Oblasti využití ontologií organizace znalostí komunikace znalostí opakované využití znalostí automatické odvozování (inference) nových znalostí UISK – PVI K02
Uživatelé ontologií lidé software (agenti) UISK – PVI K02
Komponenty ontologií Ontologie = pojmy (konceptualizace) + axiomy + ontologické závazky + software Třída Instance / individuum Vlastnost třídy Vztah Axiom (výrok, tvrzení) Ontologický závazek (pravidlo) Znalostní báze UISK – PVI K02
Komponenty ontologií Třída Instance / individuum FRBR UISK – PVI K02
Komponenty ontologií Třída Instance / individuum FRBR UISK – PVI K02
Komponenty ontologií 3) Vlastnost třídy – např. název MARC21 4) Vztah – např. vztah odpovědnosti MARC21 FRBR UISK – PVI K02
Komponenty ontologií Axiom / pravidlo Ontologický závazek AACR2 UISK – PVI K02
Přínos ontologií Bohatší sémantika (pojmů, vztahů i procesů) Orientace na využití ICT / závislost na ICT Možnost synergie zkušeností knihovníků a IT profesionálů UISK – PVI K02