Úvod do korpusové lingvistiky 4

Slides:



Advertisements
Podobné prezentace
Analýza staročeské morfologie v Excelu
Advertisements

Matematické modelování a operační výzkum
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Testování statistických hypotéz
Korpusová lingvistika (2)
Passport PhDr. Ivana Reznerová Centrum informačních a knihovnických služeb Odbor informační podpory studia a výzkumu
CJBB84 1 GAK CJBB CJBB84 2 Využití morfologických vlastností českého slovesa při formulaci dotazu při vyhledávání deverbativ od tvaru od.
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
ZMVŠ. Bezpečnost Windows 8 Dynamic Access Control (DAC) Volně – Dynamický kontrolní přístup) rozšíření NTFS access control listů (ACL) o složitá pravidla.
Český národní korpus. Spolupracující instituce Filozofická fakulta UK Matematicko-fyzikální fakulta UK Fakulta informatiky MU Filozofická fakulta MU Ústav.
Úvod do umělé inteligence
Jak vytvořit prezentaci
Firma a nejistota Aplikace rozhodování v podmínkách rizika a nejistoty na firmu Teorie firmy.
Kritická analýza různých přístupů k vyučování SH
Učte se anglicky 4krát rychleji Úvod Dr. Arkady Zilberman *US Patent 6,341,958.
Systémy pro podporu managementu 2
Název školy: Střední průmyslová škola, Ostrava - Vítkovice, příspěvková organizace Autor: Mgr. Dana Vicherková Datum: Název: VY_32_INOVACE_2.1.8.
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Lineární regrese.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Analýza infromačního systému. Matice afinity ISUD matice – Insert (vkládání dat) – Select (výběr dat) – Update (aktualizace dat) – Delete (vymazání dat)
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
Databázové modelování
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
Dvoujazyčný slovník a korpus
Gymnázium, Obchodní akademie a Jazyková škola s právem státní jazykové zkoušky Hodonín Úvod do programování.
CJBB84 1 GAK – CJBB84 st
AKD VII.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Nonverbální úlohy Jiří Tesař. Výuka fyziky na ZŠ - zamyšlení  Fenclová, J.: Didaktické myšlení a jednání učitele fyziky: „Jeden učitel položí v jedné.
CJBB84 1 GAK – CJBB84 st
PROBLEMATIKA DIDAKTICKÉHO TESTU
VÝUKOVÉ METODY Přehled.
Jak vytvořit prezentaci Vytvořila firma: A-B Spektrum, počítačové a vzdělávací kurzy.
EndNoteWeb a ResearcherID – užitečné nástroje Web Of Science
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
ROZHODOVÁNÍ Osnova: 1. Východiska
Zjednoznačnění analýzy Daniel Zeman Počítačové zpracování češtiny.
MorČe morfologické značkování češtiny
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Univerzita třetího věku kurz Znalci Databáze 1.
Typografie a zpracování textů
Laser Simulation DSS Ing. Jana Hájková Doc. Ing. Pavel Herout, Ph.D.
PLIN033_3 Přegenerovávání a podgenerovávání – dva problémy automatické analýzy přirozeného jazyka, konkrétně slovotvorby.
Jak vytvořit prezentaci Vytvořila firma: A-B Spektrum, počítačové a vzdělávací kurzy.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
CJBB75 Základy využití korpusu pro praxi st G13.
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
Psychodiagnostické nástroje pro zjišťování odolnosti a reakce na stres PhDr. Simona Hoskovcová, PhD. Katedra psychologie FF UK.
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Klára Osolsobě, Hana Žižková
Zpracování textů efektivně
Základy práce s korpusem seminář pro bakalářské studium
Daniel Zeman Počítačové zpracování češtiny Značkování (tagging) Daniel Zeman
2018/6/10 Počítačový model Kateřina Růžičková.
Automatická indexace Základní metody a postupy
Ing. Milan Houška KOSA PEF ČZU v Praze
Úvod do matematické analýzy - pokračování 3
Vztah rozhodovatele k riziku
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Úvod do korpusové lingvistiky 3
Transkript prezentace:

Úvod do korpusové lingvistiky 4 Automatická morfologická analýza (tokenizace, analýza a desambiguace, tagging a lemmatizace)

Značkování pomocí nástrojů automatické morfologické analýzy Morfologický slovník Jednotky + interpretace Word – lemma – tag Identifikace Obecně nejednoznačné přiřazení disambiguce

Rozdělení textu na tokeny Token – jednotka pro další analýzu Jednotky typu word Textová slova Interpunkce problémy

Lemmatizace a značkování proloženě psaného textu p o o l

Tvary s volným morfémem -s Lemma a slovní druh (pos)

Tvary se spojovníkem První část kompozit

Automatická morfologická analýza Obecně víceznačná Tvarová homonymie Homonymie na úrovni slovního druhu Slovnědruhové přechody a přesahy

Tvarová homonymie Word: který který: P4MS1----------- P4IS1----------- P4IS4----------- P4MS5----------- P4IS5-----------

Tvarová homonymie Word: který k2gMnSc1 k2gInSc1 k2gInSc4 k2gMnSc5 k2gInSc5 k2gMnPc1wH k2gMnPc4wH k2gMnPc5wH k2gInPc1wH k2gInPc4wH k2gInPc5wH k2gFnSc2wH k2gFnSc3wH k2gFnSc6wH k2gFnPc1wH k2gFnPc4wH k2gFnPc5wH k2gNnSc1wH k2gNnSc4wH k2gNnSc5wH k2gNnPc1wH k2gNnPc4wH k2gNnPc5wH

Homonymie tvarů od různých lemmat ženu /žena ženu/hnát 1.ř. … je <ženu/hnát/VB-S---1P-AA.*> i muže vyšetřit 3.ř. … cílem je < ženu/hnát/VB-S---1P-AA.*> ženu zaujmout

Homonymie tvarů od různých lemmat pila/pila x pila/pít 5. ř. <Pila/pít/VpFS---3R-AA.*> je přímo propojena s počítačem

Slovnědruhové přechody a přesahy

Lemma a tag Výsledkem automatické morfologické analýzy a desambiguce Závisí na rozsahu a obsahu slovníku, nad nímž pracuje AMA Závisí na použité desambiguace

Rozsah a obsah slovníku Pouze interpretace uložené ve slovníku Pouze jednotky uložené ve slovníku Tvary nerozpoznané AMA Tag=X.*

Desambiguace Stochastické metody Pravidlové metody Hybridní metody Guessery

Desambiguace Zjednoznačnění = volba konkrétní (kontextově správné) interpretace z nabízených možností Problémy: nepřítomnost správné interpretace, nemožnost jednoznačně určit, která interpretace je správná

Stochastické metody Ruční analýza dat – trénovací data Metody strojového učení Automaticcké nástroje založené na matematické pravděpodobnosti

Pravidlové metody Implementace pravidel, která v jazyce platí (kognitivně plausibilní přístup). Pozitivně formulovaná pravidla Negativně formulovaná pravidla

Hybridní metody Kombinují různé přístupy statistické a pravidlové

Guesser Hadač – program, který pracuje na různých základech (statistika/pravidla) a bez znalostní databáze (slovníku) se snaží „uhádnout“ příslušnou interpretaci. Guessery byly testovány na korpusu SYN2005.