Sémantická analýza založená na lingvistických a ontologických zdrojích Adéla Kereková
Igor Michajlovič Boguslavsky Působí na Ústavu problematiky přenosu informací v Laboratoři komputační lingvistiky v Moskvě Studoval lingvistiku a komputační lingvistiku na Moskevské státní univerzitě v letech ( ) Zabývá se vývojem systémů strojového překladu pro komunikaci v přirozeném jazyce s databázemi Provádí výzkum v oblasti teoretické lingvistiky a lexikologie
Pojmy Kombinatorický slovník (Jurij Derenikovič Apresjan) - Koncem 60. let spolupracoval na teorii MTT, podílel se na kombinatorickém slovníku – je charakteristický zejména tím, že sémantika slov je popsána ve formě podrobných formalizovaných vysvětlení (interpretací) pomocí omezeného množství jednotek. Sémanticky složitější elementy jsou interpretovány skrze jednotky jednodušší, dokud se touto „jakousi sémantickou redukcí“ nedojde k sémantickým primitivům ETAP-3 MTT (Meaning-text theory) - Igor Alexandrovič Meľčuk
ETAP-3 Pravidlově založený systém strojového překladu mezi angličtinou a ruštinou, který pracuje v obou směrech (a v prototypu v dalších jazycích – francouzština, němčina, španělština, korejština, arabština) Systém synonymického a quasi-synonymického parafrázování vět Prostředí pro hloubkovou anotaci korpusových textů – syntagrus, jediný korpus ruských textů označkovaný morfologicky, syntakticky (závislostní stromy) a lexikálně UNL – universální networking language module, který je zodpovědný za automatický překlad přirozených textů do sémantického mezijazyka a opačně.
Meaning-text theory Univerzální teorie - platná pro každý jazyk Igor Meľčuk - spolupráce s Alexandrem Žolkovskim, Jurijem Apresjanem Popis přirozeného jazyka Předpokládá mnohoúrovňový jazykový model přeměny smyslu v text a naopak (s použitím závislostní syntaxe) Смысл ⇔ Текст 5
Mnohoúrovňový model MTT Ústřední slogan: From a Sem network—to all corresponding Deep-Syntactic and Surface- Syntactic trees —to all corresponding Deep- Morphological and Surface-Morphological strings— to all corresponding Phonemic and then Phonetic strings! 6
MTT hlavní teze Jazyk je univerzální překladač mezi smyslem a textem language proper MEANING i TEXT j LANGUAGE Přirozený jazyk je vnímán jako logické zařízení, které ustanovuje usouvztažnění mezi nekonečnou množinou všech možných významů a všech možných textů (finite), a naopak Leonid Iomdin 7
Povrchová syntaktická reprezentace v ETAP-3 Leonid Iomdin 8
MTT Pracuje s čistě lingvistickým významem Význam je tady invarianta synonymické parafráze Je součástí intuitivní znalosti jazyka Užívá Kombinatorického slovníku Tolkovo- kombinatornyj slovar’ sovremennogo russkogo jazyka,(Mel’čuk and Žolkovski, 1984) 9
Ontologie pro sémantické struktury Vyhledávání - sémantické podobnosti mezi texty, pokud vyjadřují význam různými způsoby Obsah pro lidi – nikoliv pro strojové „porozumění“ – automatické sémantické zpracování textů v přirozeném jazyce – potřeba hlubší sémantické analýzy textu
Příklad Chceme nalézt informace o ztracených lodích během 2.světové války 1. Můžeme vložit přesný slovosled slov – nenalezneme žádnou schodu 2.Hledáme texty, které obsahují všechna slova v dotazu ( odkazů) strukturu dotazu i kandidátního textu losses in World war II. Ale loď přestala existovat, a proto patří do stejné třídy jako jména smrt, vrak, nehoda, havárie apod.
Sémantická struktura dotazu
…a dále Encyklopedické znalosti a odvozovací mechanismus - druhá světová válka začala v roce 1939 a skončila v roce 1945.
Příklady Odpovídají dotazu, ale složeny ze zcela různých slov – překračují možnosti slovně založených (word-based) vyhledávacích metod. On May, 27 of 1941 the royal navy destroyed the German battleship „bismarck“. The unexpected wreck of Hood at the 8th minute of the battle on May, 21, 1941
K vykonání sémantického hledání jsou potřebně následující zdroje Propracovaný jazykový model, který by měl zahrnovat nejen doménové termíny, ale měl by být schopen zejména zjistit sémantickou identitu v různých syntaktických kontextech (schopen uchopit kolokace, modality a negace) Variabilní externí ontologické a encyklopedické zdroje a schopnost integrovat je do modulů NLP. Logický odvozovací nástroj. Rozsáhlý sémantický index, který pokrývá korpus, v němž má být vykonáno hledání.
Ontologie Sémantická analýza se provádí ve dvou krocích: jsou vytvářeny základní sémantické struktury, které představují doslovný význam věty do té míry, že mohou být získány z věty samotné. Potom jsou transformovány do rozšířené sémantické struktury, která je obohacena o ontologické a kontextové informace
Příklad ontologie Zaměřena na fotbal, obsahuje informace o týmu, hráčích, fotbalovém poli, sportovních událostech a dalším. třída FootballPlayer ontologie má obecnější třídu Sportsman a FootballPlayer je podtřída FootballPlayer je Sportsman, jehož SportType je football Různé sporty jsou v ontologii zaznamenány stejným způsobem