Sémantická analýza založená na lingvistických a ontologických zdrojích Adéla Kereková

Slides:



Advertisements
Podobné prezentace
Cíle a postupy empirického výzkumu
Advertisements

DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
HYPERTEXT PREPROCESSOR. PROGRAMOVÁNÍ. DEFINICE POJMŮ Problém Problém nevyřešený, nežádoucí stav obvykle vyžaduje nějaké řešení Neřešitelný problém Neřešitelný.
Korpusová lingvistika (2)
Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
Přednáška č. 5 Proces návrhu databáze
SAS Jan Blaťák Laboratoř vyhledávání znalostí Fakulta informatiky Masarykova Univerzita, Brno
SEMANTICKÝ WEB. Semantický Web WWW – Tim Berners-Lee, CERN, univerzum propojených HTML stránek, prostor hyperlinkovaných dokumentů – Informace jsou zobrazeny.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Postupně tedy doplňujeme hodnoty do na začátku prázdného SFC (postupového diagramu), který je v automatu realizován krokovým řadičem.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
Koreferát: LISp-Miner a (lékařské) ontologie Vojtěch Svátek.
1 Vyhledávání Principy vyhledávání Klasifikace klíče:  Interní klíč – je součástí prohlížených záznamů  Externí klíč – není jeho součástí, je jím např.
Analýza informačního systému
Jako příklad uznávání neformálního vzdělávání Ing. Petra Nakládalová, ČNA Mládež YOUTHPASS.
ONTOLOGIE a KONCEPTUÁLNÍ MODELOVÁNÍ (stručný úvod)
METADATA „Tvoří velice důležitou složkou geodat (prostorově lokalizovatelných dat) “ Renata Hrabinová.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Formální jazyky a gramatiky
STRUKTURA OSNOVY KURZU
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
Systémy pro podporu managementu 2
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Jak funguje vyhledávání podobností Šimon Suchomel.
Artificial Intelligence (AI).  „Úloha patří do oblasti umělé inteligence, jestliže řešení, které najde člověk považujeme za projev jeho inteligence.
Seminář HCI, ÚISK FF UK, HCI v kontextu kognitivní vědy.
Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Web 2.0, folksonomie a uživatelská rozhraní Lenka Němečková Eliška Pavlásková Založeno mimo jiné na prezentacích prof. B. Whitea „The Promise of Rich User.
Databázové modelování
RUSKO, RUSKÝ JAZYK A LITERATURA VE VĚDECKÝCH ODBORNÝCH STUDENTSKÝCH PRACÍCH Bc. Kateřina Konečná Ruská slovesa bít a být s předponami ve srovnání s češtinou,
Metodika objektového přístupu při tvorbě překladačů. Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Výukový program: Obchodní akademie Název programu: Marketingový výzkum – zjišťování informací Vypracoval : Ing. Adéla Hrabcová Projekt Anglicky v odborných.
Zpracování neurčitosti Fuzzy přístupy RNDr. Jiří Dvořák, CSc.
Gymnázium, Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Hodonín Úvod do programování.
Využití ontologií při dobývání znalostí z databází Hana Češpivová.
Atomární (nomenklaturní) teorie významu - REKAPITULACE
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
TECHNIKY SBĚRU DAT KVANTITATIVNÍ KVALITATIVNÍ VÝZKUM VÝZKUM
Dagmar Strejčková Kapitoly z lexikologie současné češtiny Kapitoly z lexikologie českého jazyka Dagmar Strejčková
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Reprezentace znalostí
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Mémy tlumočení podle Franze Pöchhackera
ZÁSADY KONCIPOVÁNÍ LOGISTICKÝCH SYSTÉMŮ KAPITOLA 5: VZTAH STRATEGIE PODNIKU A LOGISTICKÉHO PLÁNOVÁNÍ, CÍLE, METODY A NÁSTROJE PLÁNOVÁNÍ, POSTUPOVÉ KROKY.
Jana Holá Tvorba rešerše Jana Holá
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Selekční jazyky Současné trendy Přednáška č. 5 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Mentální reprezentace
Klára Osolsobě, Hana Žižková
Algoritmizace – základní pojmy
Dobývání znalostí z databází znalosti
VIKMA05 Organizace znalostí
Jana Holá Tvorba rešerše Jana Holá
Automatická indexace Základní metody a postupy
VIKMA05 Organizace znalostí
Optimalizace SQL dotazů
Geografické informační systémy
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Transkript prezentace:

Sémantická analýza založená na lingvistických a ontologických zdrojích Adéla Kereková

Igor Michajlovič Boguslavsky Působí na Ústavu problematiky přenosu informací v Laboratoři komputační lingvistiky v Moskvě Studoval lingvistiku a komputační lingvistiku na Moskevské státní univerzitě v letech ( ) Zabývá se vývojem systémů strojového překladu pro komunikaci v přirozeném jazyce s databázemi Provádí výzkum v oblasti teoretické lingvistiky a lexikologie

Pojmy Kombinatorický slovník (Jurij Derenikovič Apresjan) - Koncem 60. let spolupracoval na teorii MTT, podílel se na kombinatorickém slovníku – je charakteristický zejména tím, že sémantika slov je popsána ve formě podrobných formalizovaných vysvětlení (interpretací) pomocí omezeného množství jednotek. Sémanticky složitější elementy jsou interpretovány skrze jednotky jednodušší, dokud se touto „jakousi sémantickou redukcí“ nedojde k sémantickým primitivům ETAP-3 MTT (Meaning-text theory) - Igor Alexandrovič Meľčuk

ETAP-3 Pravidlově založený systém strojového překladu mezi angličtinou a ruštinou, který pracuje v obou směrech (a v prototypu v dalších jazycích – francouzština, němčina, španělština, korejština, arabština) Systém synonymického a quasi-synonymického parafrázování vět Prostředí pro hloubkovou anotaci korpusových textů – syntagrus, jediný korpus ruských textů označkovaný morfologicky, syntakticky (závislostní stromy) a lexikálně UNL – universální networking language module, který je zodpovědný za automatický překlad přirozených textů do sémantického mezijazyka a opačně.

Meaning-text theory Univerzální teorie - platná pro každý jazyk Igor Meľčuk - spolupráce s Alexandrem Žolkovskim, Jurijem Apresjanem Popis přirozeného jazyka Předpokládá mnohoúrovňový jazykový model přeměny smyslu v text a naopak (s použitím závislostní syntaxe) Смысл ⇔ Текст 5

Mnohoúrovňový model MTT Ústřední slogan: From a Sem network—to all corresponding Deep-Syntactic and Surface- Syntactic trees —to all corresponding Deep- Morphological and Surface-Morphological strings— to all corresponding Phonemic and then Phonetic strings! 6

MTT hlavní teze Jazyk je univerzální překladač mezi smyslem a textem language proper MEANING i TEXT j LANGUAGE Přirozený jazyk je vnímán jako logické zařízení, které ustanovuje usouvztažnění mezi nekonečnou množinou všech možných významů a všech možných textů (finite), a naopak Leonid Iomdin 7

Povrchová syntaktická reprezentace v ETAP-3 Leonid Iomdin 8

MTT Pracuje s čistě lingvistickým významem Význam je tady invarianta synonymické parafráze Je součástí intuitivní znalosti jazyka Užívá Kombinatorického slovníku Tolkovo- kombinatornyj slovar’ sovremennogo russkogo jazyka,(Mel’čuk and Žolkovski, 1984) 9

Ontologie pro sémantické struktury Vyhledávání - sémantické podobnosti mezi texty, pokud vyjadřují význam různými způsoby Obsah pro lidi – nikoliv pro strojové „porozumění“ – automatické sémantické zpracování textů v přirozeném jazyce – potřeba hlubší sémantické analýzy textu

Příklad Chceme nalézt informace o ztracených lodích během 2.světové války 1. Můžeme vložit přesný slovosled slov – nenalezneme žádnou schodu 2.Hledáme texty, které obsahují všechna slova v dotazu ( odkazů) strukturu dotazu i kandidátního textu losses in World war II. Ale loď přestala existovat, a proto patří do stejné třídy jako jména smrt, vrak, nehoda, havárie apod.

Sémantická struktura dotazu

…a dále Encyklopedické znalosti a odvozovací mechanismus - druhá světová válka začala v roce 1939 a skončila v roce 1945.

Příklady Odpovídají dotazu, ale složeny ze zcela různých slov – překračují možnosti slovně založených (word-based) vyhledávacích metod. On May, 27 of 1941 the royal navy destroyed the German battleship „bismarck“. The unexpected wreck of Hood at the 8th minute of the battle on May, 21, 1941

K vykonání sémantického hledání jsou potřebně následující zdroje Propracovaný jazykový model, který by měl zahrnovat nejen doménové termíny, ale měl by být schopen zejména zjistit sémantickou identitu v různých syntaktických kontextech (schopen uchopit kolokace, modality a negace) Variabilní externí ontologické a encyklopedické zdroje a schopnost integrovat je do modulů NLP. Logický odvozovací nástroj. Rozsáhlý sémantický index, který pokrývá korpus, v němž má být vykonáno hledání.

Ontologie Sémantická analýza se provádí ve dvou krocích: jsou vytvářeny základní sémantické struktury, které představují doslovný význam věty do té míry, že mohou být získány z věty samotné. Potom jsou transformovány do rozšířené sémantické struktury, která je obohacena o ontologické a kontextové informace

Příklad ontologie Zaměřena na fotbal, obsahuje informace o týmu, hráčích, fotbalovém poli, sportovních událostech a dalším. třída FootballPlayer ontologie má obecnější třídu Sportsman a FootballPlayer je podtřída FootballPlayer je Sportsman, jehož SportType je football Různé sporty jsou v ontologii zaznamenány stejným způsobem