Klára Osolsobě, Hana Žižková

Slides:



Advertisements
Podobné prezentace
Korpusová lingvistika (2)
Advertisements

ROD JMENNÝ.
CJBB84 1 ZPK CJBB75 čtvrtek G
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Bakalářský seminář Úvod BP Závěr BP.
Úvod do korpusové lingvistiky 8
Informační strategie. řešíte otázku kde získat konkurenční výhodu hledáte jistotu při realizaci projektů ICT Nejste si jisti ekonomickou efektivností.
Běžné chyby při řízení procesů PPP Maarten Groothuis.
PŘÍPRAVA METODICKÉHO POKYNU REKTORA VŠSS KE ZPRACOVÁNÍ DIPLOMOVÝCH PRACÍ Zpracování diplomové bakalářské práce.
Zpracování dokumentů Název školyStřední odborná škola Luhačovice Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Klára Masařová Název.
Úvod do korpusové lingvistiky 4
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Vlastní hodnocení školy
Dokumentace informačního systému
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
Ústav procesního a ekologického inženýrství Fakulta strojního inženýrství Vysoké učení technické v Brně Technická 2896/2, Brno ÚSTAV PROCESNÍHO.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Didaktika distančního vzdělávání Základní pojmy a vztahy.
Pedagogická diagnostika
CJBB CJBB75.
Odkazy Název školyStřední odborná škola Luhačovice Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Klára Masařová Název šablonyIII/2.
Přístupnost v praxi aneb jaký smysl mají testy, provedené handicapovanými uživateli Mgr. Radek Pavlíček, RNDr. Hana Bubeníčková, duben 2007.
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
MorČe morfologické značkování češtiny
Uspořádání informačních zdrojů Název školyStřední odborná škola Luhačovice Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Klára Masařová.
Bibliografické citace a metody citace Název školyStřední odborná škola Luhačovice Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Klára.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
Způsoby odkazování Název školyStřední odborná škola Luhačovice Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Klára Masařová Název šablonyIII/2.
CHYBOVÁ ANOTACE ŽÁKOVSKÉHO KORPUSU CZESL
OBCHODNÍ PODMÍNKY V MEZINÁRODNÍM OBCHODĚ - TEORETICKÁ A PRAKTICKÁ ANALÝZA Michal Wit Pospíšil BA (Hons) Bakalářská práce Právnická fakulta Masarykovy univerzity.
CJBB105 Úvod do korpusové lingvistiky
Úvod do korpusové lingvistiky seminář pro magisterské studium
PLIN033_3 Přegenerovávání a podgenerovávání – dva problémy automatické analýzy přirozeného jazyka, konkrétně slovotvorby.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
PLÁN ODPADOVÉHO HOSPODÁŘSTVÍ KARLOVARSKÉHO KRAJE 2016 – 2025 Vyhodnocení koncepce z hlediska vlivů na životní prostředí a veřejné zdraví Mgr. Alena Kubešová,
Seminář MD ČR, Alena Heinišová Ekonomické hodnocení investičních akcí na SŽDC, s.o.
Doc. Vladimír Rogalewicz, CSc. CzechHTA, České vysoké učení technické v Praze Fakulta biomedicínského inženýrství, Kladno Využití.
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV
Jak čeština v beletrii překládá francouzské zvratné sloveso „se mettre à“ ve vazbě s infinitivem? korpusový výzkum se mettre à = pouštět se, dát se.
VARIANTNÍ PROSTŘEDKY PŘI ÚPRAVĚ PUBLICISTICKÝCH TEXTŮ NA MATERIÁLU MF DNES Mgr. Barbora Albrechtová Ústav pro jazyk český AV ČR, v. v. i.
„Prezentace práce jednotlivých týmů a jejich členů“ Prezentace a komunikace informací – 4SA426.
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav podnikové strategie Dopady účetní reformy veřejných financí v konkrétních podmínkách vybrané.
D OPADY ÚČETNÍ REFORMY VEŘEJNÝCH FINANCÍ V KONKRÉTNÍCH PODMÍNKÁCH VYBRANÉ ZÁKLADNÍ ŠKOLY Vysoká škola technická a ekonomická v Českých Budějovicích Ústav.
Vysoká škola technická a ekonomická
Analýza manažerských dovedností ve vybraném podniku
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav podnikové strategie Motivace a stimulace pracovníků ve vybraném podniku Autor práce:
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav podnikové strategie PREZENTAČNÍ A KOMUNIKAČNÍ DOVEDNOSTI MANAŽERA VE VYBRANÉM PODNIKU.
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav podnikové strategie Struktura a vypořádání hospodářského výsledku v dané obchodní korporaci.
Vysoká škola technická a ekonomická v Českých Budějovicích
Vysoká škola technická a ekonomická v Českých Budějovicích Motivace a stimulace pracovníků ve vybraném podniku Autorka bakalářské práce: Martina Jakubcová.
Mgr. et Mgr. Pavel Římovský, Bc. Jaroslav Mudrák
Základy práce s korpusem seminář pro bakalářské studium
Vysoká škola technická a ekonomická České Budějovice Ústav podnikové strategie Zhodnocení finanční situace konkrétního podniku Autor BP: Miroslava Sobotovičová.
Nástroje podpory uživatelů
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_297_ČJ9
Zhodnocení finanční situace konkrétního podniku
VVI – nástroj ke zvýšení konkurenceschopnosti
České Budějovice, červen 2016
Co se dá změřit v psychologii a pedagogice?
Analýza merchandisingu a nákupní atmosféry vybrané obchodní jednotky
Obhajoba diplomové práce
Evidence a účtování zásob ve vybrané společnosti
Analýza vnitropodnikové komunikace ve vybraném podniku
Vysoká škola technická a ekonomická v Českých Budějovicích
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Pedagogická diagnostika Možnosti a typy diagnostiky
Úvod do korpusové lingvistiky 3
Transkript prezentace:

Klára Osolsobě, Hana Žižková osolsobe@phil.muni.cz h.zizkova@email.cz Automatická morfologická analýza z hlediska pokrytí a nepokrytí morfologických variant Klára Osolsobě, Hana Žižková osolsobe@phil.muni.cz h.zizkova@email.cz Korpusová lingvistika Praha 2016

Rezervy automatické morfologické analýzy Kde se berou chyby v automatické morfologické analýze? Jaká úskalí mohou přinést pokusy o odstranění těchto chyb? Korpusová lingvistika Praha 2016

Kde se berou chyby v automatické morfologické analýze? Tvar je ve slovníku a je chybně desambiguován v důsledku tvarové homonymie Ve slovníku automatického analyzátoru chybí adekvátní interpretace, tvar/word tudíž nemůže být správně interpretován (podgenerování na rovině slovníku) Korpusová lingvistika Praha 2016

Tvar je ve slovníku ([tag!=“X.*“]) Korpusová lingvistika Praha 2016

a je chybně desambiguován Korpusová lingvistika Praha 2016

v důsledku tvarové homonymie Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Popis homonym Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Ve slovníku automatického analyzátoru chybí adekvátní interpretace, tvar/word tudíž nemůže být správně interpretován (podgenerování na rovině slovníku) Korpusová lingvistika Praha 2016

Možná řešení a jejich úskalí Guessery Doplňování slovníku Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Tvar/varianta není ve slovníku, přestože jiné tvary/varianty ve slovníku jsou, tudíž nemůže být správně desambiguován Korpusová lingvistika Praha 2016

Nedostatečné pokrytí má vliv na nepřesnou analýzu Řešení: DOPLNĚNÍ TVARŮ DO SLOVNÍKU = ZLEPŠENÍ VÝSLEDKŮ AUTOMATICKÉ ANALÝZY PROBLÉMY Korpusová lingvistika Praha 2016

Pokrytí slovníku je v pořádku, ale výsledky analýzy nejsou přesné Tvar/varianta není ve slovníku, přestože jiné tvary/varianty ve slovníku jsou, je ovšem homonymní s tvarem, který ve slovníku je, a tak desambiguace je technicky vzato v pořádku, nicméně neodpovídá skutečnosti Korpusová lingvistika Praha 2016

Nejde o chybu v desambiguaci, ale i o podgenerovaný slovník Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Úskalí odstranění podgenerování na rovině slovníku automatického analyzátoru Dopad odstranění podgenerování na výsledky automatické morfologické analýzy Typy podgenerováných jednotek Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 PODGENEROVANÉ JEDNOTKY – tvary sloves (sloveso – klíčové pro další stupně analýzy – pravidlovou desambiguaci) Příprava manuálu pro doplnění tvarů sloves nezachycených automatickou analýzou Zachycení tvarů sloves uzavřených tříd Zachycení tvarů sloves otevřených tříd Zachycení variant z hlediska dichotomie kodifikovaný a nekodifikovaný Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Konkrétní příklady Krácení dlouhých infinitivů (http://www.karaoketexty.cz/texty-pisni/lidove-pisne/co-sa-to-supoce-60336) Tvar 3. pl. ind. préz. akt. Na –[eě]j (viz snímek č. 13), potenciální homonymie s tvarem 2. sg. imp. Korpusová lingvistika Praha 2016

Krácení dlouhých infinitivů Korpusová lingvistika Praha 2016

PRO POROVNÁNÍ DATA Z KORPUSU SYN Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 A Z KORPUSU ORAL2013 Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Homonymie imperativu 2. sg. a substandardního tvaru 3. pl. ind. préz. akt. Korpusová lingvistika Praha 2016

Morfio – nástroj na detekci variant (SYN2015) Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Nejde vždy o vzor sázet a homonymii substandardního tvaru s tvarem standardním (SYN2010) Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Závěr Slovník automatického analyzátoru má rezervy a nedostatky jsou při využití korpusů vidět. Doplnění slovníku a zvýšení jeho pokrytí je v zásadě možné a díky korpusům lze zajistit zachycení jak centrálních, tak okrajových variant. Zvýšení pokrytí slovníku nemusí znamenat zlepšení přesnosti automatické morfologické analýzy. Korpusová lingvistika Praha 2016

Kam dál? Chceme novou automatickou morfologickou analýzu, i když víme, že i ona bude obsahovat chyby? Ano, ale informujme uživatele o tom, na které úrovni která chyba vzniká! Děkuji Vám za pozornost. Korpusová lingvistika Praha 2016

Korpusová lingvistika Praha 2016 Bibliografie BABINCOVÁ, Adriana. Morfologické varianty jako problém strojové analýzy češtiny. FF MU: Brno. 2015. (Nepublikovaná bakalářská práce pod vedením K. Osolsobě).  HLAVÁČKOVÁ, Dana. Korpusové zpracování korespondenčních textů: morfologické značkování. In Hladká, Zdeňka a kol.. Soukromá korespondence jako lingvistický pramen. Vyd. 1. Brno: Masarykova univerzita, 2013. s. 19-31.  HLAVÁČKOVÁ, Dana a Klára OSOLSOBĚ. Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky. Kopřivová, Marie, Waclawičová, Martina. In Čeština v mluveném korpusu. 1. vyd. Praha: Nakladatelství Lidové noviny/ Ústav Českého národního korpusu, 2008. s. 105-114.  OSOLSOBĚ, Klára. Slovesné tvary nerozpoznané automatickou morfologickou analýzou. Rkp. 2016. PETKEVIČ, Vladimír. Morfologická homonymie v současné češtině. Praha: Nakladatelství Lidové noviny/ Ústav Českého národního korpusu, 2016. Korpusová lingvistika Praha 2016