PLIN033_3 Přegenerovávání a podgenerovávání – dva problémy automatické analýzy přirozeného jazyka, konkrétně slovotvorby.

Slides:



Advertisements
Podobné prezentace
Základy infinitezimálního počtu
Advertisements

Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
CJBB75 1 ZPK CJBB75 čtvrtek G
SKLOŇOVÁNÍ PODSTATNÝCH JMEN RODU MUŽSKÉHO
ROD JMENNÝ.
Čeština jako ideální flexivní extrém?
Gramatika Tvoření slov I
Umělá inteligence. Dva přístupy Technický – formální systémy, modely, konkrétní aplikace Filosofický – definice inteligence, vztah k mysli, vědomí a navíc.
-způsoby, postupy, základní pojmy, náměty-
CJBB84 1 ZPK CJBB75 čtvrtek G
CJBB84 1 GAK CJBB CJBB84 2 Využití morfologických vlastností českého slovesa při formulaci dotazu při vyhledávání deverbativ od tvaru od.
Vzdělávání a jeho kategorie
Společně Měníme a Rozvíjíme Venkov – SMARV PRV ČR III /005/3310a/672/
Vzdělávací materiál vytvořený v projektu OP VK Název školy:Gymnázium, Zábřeh, náměstí Osvobození 20 Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Zlepšení.
Skloňování podstatných jmen rodu mužského
Organizace empirického výzkumu Etapy výzkumu: 1.Přípravná – definice problému, určení cíle výzkumu, zajištění dostupných již existujících informací o problému,
CJBB75 1 ZPK CJBB75 čtvrtek G
Úvod do korpusové lingvistiky 4
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Škola: Střední škola právní – Právní akademie, s.r.o. Typ šablony: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Projekt: CZ.1.07/1.5.00/
Šablona:III/2č. materiálu:VY_32_INOVACE_145 Jméno autora: Mgr. Tomáš FULÍN Třída/ročník: PS2 / 2.ročník Datum vytvoření: Vzdělávací oblast:Matematika.
Výukový materiál zpracovaný v rámci projektu Označení:Sada: Ověření ve výuce:Třída: Datum: Registrační číslo projektu:CZ.1.07/1.5.00/ VY_32_INOVACE_MAM_KC_1_06.
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Podstatná jména rodu mužského - vzory
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
Název školy Základní škola Domažlice, Komenského 17 Číslo projektu CZ.1.07/1.4.00/ Název projektu „EU Peníze školám ZŠ Domažlice“ Číslo a název.
 U řady jmen s kmenem zakončeným skupinou dvou nebo více souhlásek, např. hra, kresba, látka, astra, ondatra, se v G. pl. do skupiny vkládá e: her, kreseb,...“(Cvrček.
CJBB84 1 GAK – CJBB84 st
Šablona:III/2č. materiálu:VY_32_INOVACE_156 Jméno autora: Mgr. Tomáš FULÍN Třída/ročník: PS2 / 2.ročník Datum vytvoření: Vzdělávací oblast:Matematika.
Databáze velké množství dat pevně dané struktury
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Jak vyhledávat informace na Internetu?
CJBB CJBB75.
Základy slavistiky – seminář – 2.lekce
CJBB75 1 ZPK CJBB75 středa G
Mgr. Michal Oblouk OHEBNÉ SLOVNÍ DRUHY.
Dagmar Strejčková Kapitoly z lexikologie současné češtiny Kapitoly z lexikologie českého jazyka Slovo jako jednotka slovní zásoby.
NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO: NÁZEV: VY _32_INOVACE_320_Podstatná jména AUTOR: Ilona Kozubová ROČNÍK, DATUM:
MorČe morfologické značkování češtiny
Substantiva tvořená ze sloves (BS PV)
Vyhledávání pojmenovaných entit Named Entity Recognition Martin Hejtmánek.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
NEPRAVIDELNOSTI VE SKLOŇOVÁNÍ PODSTATNÝCH JMEN
MORFOLOGIE 2008 přednáška P11
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
HYPOTÉZY ● Hypotéza je tvrzrní (výrok) vyjařující vztah mezi proměnnými ● Hypotézy vychází z výzkumného problému. ● Hypotézy se stanoví na začátku výzkumu.
CJBB75 Základy využití korpusu pro praxi st G13.
Krajský akční plán vzdělávání Středočeského kraje Zpráva o postupu příprav Rámce pro investice do infrastruktury Červen 2016 PaedDr. Pavel Schneider, vedoucí.
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
PLIN033_4 Algoritmický popis deverbativních substantiv (typ -dlo)
KURZ ALGORITMIZACE A PROGRAMOVÁNÍ V JAZYCE C Lekce č. 2: Základní pojmy Bc. Radek Libovický.
VARIANTNÍ PROSTŘEDKY PŘI ÚPRAVĚ PUBLICISTICKÝCH TEXTŮ NA MATERIÁLU MF DNES Mgr. Barbora Albrechtová Ústav pro jazyk český AV ČR, v. v. i.
ZÁKLADNÍ ŠKOLA SLOVAN, KROMĚŘÍŽ, PŘÍSPĚVKOVÁ ORGANIZACE ZEYEROVA 3354, KROMĚŘÍŽ projekt v rámci vzdělávacího programu VZDĚLÁNÍ PRO KONKURENCESCHOPNOST.
Dotkněte se inovací CZ.1.07/1.3.00/ Základní a rozvíjející větné členy Grafický rozbor věty jednoduché.
Úvod do databázových systémů
Klára Osolsobě, Hana Žižková
NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO:
Název prezentace (DUMu) Zvuková stránka jazyka: spisovná výslovnost
Kód materiálu: VY_32_INOVACE_08_DELENI_HLASEK Název materiálu:
Universitá degli Studi di Udine
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_276_ČJ8
Automatická indexace Základní metody a postupy
ZPK CJBB CJBB75.
PODSTATNÁ JMÉNA III/2 Inovace a zkvalitnění výuky prostřednictvím ICT
ZÁKLADNÍ ŠKOLA SLOVAN, KROMĚŘÍŽ, PŘÍSPĚVKOVÁ ORGANIZACE
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Úvod do korpusové lingvistiky 3
Název školy: Základní škola Pardubice - Spořilov Autor: Mgr
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_29_ČJ4
Transkript prezentace:

PLIN033_3 Přegenerovávání a podgenerovávání – dva problémy automatické analýzy přirozeného jazyka, konkrétně slovotvorby

Přegenerovávání Formální definici (algoritmu) odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je víceznačnost (homonymie) na všech úrovních.

Podgenerovávání Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce, takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat.

Příklady přegenerovávání z minulých cvičení Náboženství, nádeničení, … Klíč, míč, …

Pomocí nástroje Deriv a Morfio vyhledejte kandidáty na činitelská jména na -tel Maskulina životná s koncovým řetězcem tel

Deriv seznam

Deriv hledání dvojic t$/k5.*mF>tel/k1gMnSc1

Deriv seznam

Morfio Seznam

Přegenerovávání Přít/přítel

Důvody přegenerovávání Příliš široké formální vymezení Nemožnost užšího formálního vymezení

Podgenerovávání Kde jsou slova jako ředitel, uchvatitel, šiřitel, majitel, pisatel, … ? Zahrnutí alternací do vyhledávání jakožto prostředek zúžení definice hledaných jednotek.

Derivační pravidla a výsledky pro derivaci sloveso – dějové jméno na -tel

Přegenerované doklady mučet/mučitel, proset/prositel, těžet/těžitel, zcizet/zcizitel. mocnět/mocnitel, pět/pitel, zmocnět/zmocnitel, pro­sít/prositel, učít/učitel. dát/datel. Tento případ přegenerovávání by bylo možno eliminovat aplikací podmínky, že substantivum musí být skloňováno podle vzoru muž, již by bylo možno zadat v případě, že bychom pracovali se strojovým slovníkem značkovaným tak, že by součástí značky byla i informace o flektivním typu (vzor). Jedná se o substantiva přítel a nepřítel. V praxi automatické morfologické analýzy (lemmatizace) nepanuje jednota v interpretaci derivátů se záporkou ne- (srv. Osolsobě ). Řešení tohoto problému přesahuje záměr této práce. zařádit/zařaditel. boudit/buditel, moučit/mučitel. ohlédat/ohledatel.

Přehled alternací

Vyhledávání dvojic at$/k5.*mF>áč/k1gMnSc1

Přegenerovávání

klepetáč Slovník

krkáč slovník

Důvody Polyfunkčnost prostředku (-á-č x –áč) Závisí na mimojazykových znalostech Obtížně se formálně definuje

Podgenerovávání Nedostatky ve formální definici Nepravidelnosti (vozač, trubač) Jednotky nejsou zachyceny ve slovníku Jednotkám nezachyceným ve slovníku chybí interpretace na úrovni lemmatu a morfologické značky

Morfio kout/kouč, klít/klíč, sálat/salač Propria: máchat/Machač, tykat/Tykač, dědit/Dědič, pískat/Piskač, kopat/Kopač, klapat/Klapač, kovat/Kovač, pleskat/Pleskač, bílit/Bilič

Typy přegenerovávání hláskové alternace kořenového vokálu u derivátů od sloves III. třídy podle kmene prézentního (vzor krýt) hláskové alternace kořenového vokálu u ostatních tříd a vzorů hláskové alternace kmenotvorného vokálu u ostatních tříd a vzorů

Alternace KoV u derivátů sloves podle krýt hrát/hráč chcát/chcáč ? pít/píč ? pět/pěč ? sít/síč

V korpusech lze najít (SYN) pít (čaj)/ čajpíč žít/žíč ! šít/šič

A kromě toho u neživotných máme bít/bič rýt/rýč

Všimněme si dvojic vyprávět/vypravěč |vyprávěč vyjednávat/vyjednavač |vyjednávač

IJP 2 Střídání krátkých a dlouhých samohlásek při tvoření slov Příklady nikoli pravidla (?seznamy výjimek)

Úkol na Pomocí nástrojů Deriv a morfio vyhledejte kandidáty na dvojice sloveso-jméno prostředku na –dlo. Popište případy přegenerování popř. podgenerování