Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilTomáš Vlček
1
Gramatémy ve FGD a v PDT II Magda Razímová, Zdeněk Žabokrtský Část 1 (ZŽ) – Motivace, výchozí situace – Upřesnění formálního rámce – typování uzlů – Implementace – Závěrečné poznámky Část 2 (MR) – Sémantické slovní druhy – Tektogramatické lema – Lexikální a syntaktická derivace – Soustava gramatémů
2
Umístění gramatémů v anotačním schématu PDT Morfologická rovina –segmentace, tokenizace –lemata + morfologické značky Analytická rovina –závislostní strom – uzly + hrany (zavislostní i nezávislostní) Tektogramatická rovina –závislotní strom – uzly + hrany (závislostní i nezávislostní) –lexikální hodnota uzlu –lexikální desambiguace (“sense tagging“) –závislostní funkce (funktory) –subfunktory (dříve syntaktické gramatémy) –aktuální členění – hloubkový slovosled + TFA –koreference – gramatémy (čas,číslo,rod,stupeň...)
3
Původní strategie – rozdělení anotace PDT na velký soubor (topologie stromu+funktory, na všech datech) a vzorový soubor (mj. gramatémy, jen pro malý vzorek dat) Důsledek – popis gramatémů nebyl konfrontován s významnějším množstvím dat nevznikaly podněty pro jeho další vylepšování 55kS šíře anotovaných jevů TR počet anotovaných vět vzorový soubor velký soubor ? Motivace (i): neprověřená místa v anotačním schématu PDT
4
Motivace (ii): potíže s aplikací TR ve strojovém překladu ideál realita Č.A. MR AR TR Č.A.
5
Výchozí situace ( jaro 2003 ) Teoretická rovina –existuje: rámcová představa o jednotlivých gramatémech několik stránek v Manuálu pro TG anotaci –chybí: podrobnější popis konkrétních řešení v desítkách specifických situací Implementační rovina –existuje: makro pro částečný převod ATS do TGTS nepatrné množství ručně anotovaných souborů –chybí: popis a implementace procedury pro doplňování gramatému do TGTS zdroje lexikální informace potřebné v proceduře prostředí pro ruční anotaci
6
gramatém – jeden z atributů uzlu TGTS atribut – uspořádaná dvojice zásadní otázka: jak formálně vyjádřit přítomnost/nepřítomnost atributu v uzlu řešení – typování uzlů (inspirace v OOP a HPSG) Upřesnění formálního rámce TGTS
7
Typování uzlů současná datová reprezentace PDT neposkytuje žádný mechanismus pro typování uzlů nutnost zavedení „pomocného“ atributu (atributů) uzlu a pomocné konvence zvolené řešení: dvoustupňové typování –atribut nodetype –atribut wordclass
8
Sémantické slovní druhy – atribut wordclass původní představa – pouze čtyři základní sémantické slovní druhy odpovídající čtyřem základním konceptuálním typům (entita, vlastnost, proces, okolnost) ale: –zařazení zájmen a číslovek? –nutnost podrobnější klasifikace uvnitř čtyř druhů (např. stupňovatelná vs. nestupňovatelná adverbia)? řešení: stromová hierarchie pro wordclass
9
Hierarchie hodnot atributu wordclass SÉM. ADJEKTIVASÉM. SLOVESASÉM. ADVERBIA ……
10
Typy uzlů - atribut nodetype Komplexní uzly –sémantická S, V, Adj a Adv –jako jediné mají (morfologické) gramatémy Atomické uzly –funktor RHEM, INTF, PARTL, PREC… Zástupné uzly –t-lema &Cor; &Emp; &Gen; &Rcp; &Unsp; … Řídící uzly koordinační a apozičních struktur –funktor CONJ, DISJ, ADVS, CSQ, REAS, CONFR, OPER, APPS Řídící uzly nestrukturovaných seznamů –&Idph; &Forn; Povrchově identické uzly –funktor FPHR, (DPHR?) Symboly –t-lema &Percnt; ∷ … Kořen –funktor SENT
11
Dvoustupňové typování uzlů TG uzel complex atomic substit coap list surf symbol root SÉM. ADJEKTIVASÉM. SLOVESASÉM. ADVERBIA …… SÉMANTICKÁSUBSTANTIVA SemN {number;gender} pojmenovací SemN.denot {number;gender} [ pes, pokora, dveře ] pronominální kvantifikační(+numertype) určitá neurčitá(+indeftype; +person) SemN.pron.indef {number;gender; indeftype;person} [ kdo, co ] určitá SemN.quant.def {number;gender; numertype} [ sto, ( přišli ) tři ] ukazovací SemN.pron.def.demon {number;gender} [ ten, tenhle ] osobní(+person; +politeness) SemN.pron.def.pers {number;gender;person;politeness} [& PersPron ;] sezprac. negace (+negation) SemN.denot.neg {number;gender; negation} [ dokonalost, bytí ] SÉM. ADJEKTIVASÉM. SLOVESASÉM. ADVERBIA …… 1. stupeň – atribut nodetype 2. stupeň – atribut wordclass
12
Automatická procedura pro doplňování gramatémů Program v jazyce Perl pro prostředí tred/ntred/btred (cca 800 řádek) Doplní do TG stromu gramatémy na základě –„hardwired“ pravidel implementovaných přímo v Perlu –externího konverzního souboru (cca 1200 řádek) –externích pomocných lexikálních seznamů –externích souborů obsahujících ruční anotace
13
Přímo implementovaná pravidla Př. - gramatém ‘tense’ –Přiřaď hodnotu ‘post’, jestliže rozeznáš (neskrytý) uzel s dokonavým slovesem a tagem ^VB (neskrytý) uzel s nedokonavým slovesem s tagem ^Vf, odkazující na (skryté) pomocné sloveso s lematem ‘být’ a tagem ^VB (neskrytý) uzel s tagem ^VB s formou ^(ne)?p a lematem ^[^p]
14
Externí konverzní soubor část 1 – výčet možných hodnot atributu wordclass WordClass: N.denot, N.denot.neg, N.pron.def.demon, … ; část 2 – výčet možných hodnot gramatémů Sentmod: ENUNC, EXCL, DESID, IMPER, INTER; Verbmod: IND,IMP,CDN; část 3 – výčet gramatémů relevantních pro daný wordclass N.pron.def.pers => Gender, Number, Person, Politeness; N.pron.indef => Gender, Number, IndefType, Person; N.quant.def => Gender, Number, NumerType; ADJ.denot => DegCmp,Negation; část 4 – konverzní pravidla nikam -> trlemma=kde, WordClass=ADV.pron.indef,IndefType=NEGAT; něčí -> trlemma=kdo, WordClass=N.pron.indef, IndefType=INDEF1;
15
Externí lexikální seznamy vidy u sloves základové adjektivum odvozených adverbií pronominálnost, stupňovatelnost a negovatelnost původních adverbií
16
Dokončené ruční anotace Absolutní/běžný komparativ Vykání/tykání Rody zájmen Číslo u pomnožných substantiv Vid u obouvidových sloves Osoba u vztažných a neurčitých zájmen Uvozovky
17
Prostředí pro anotaci na větě Pro gramatémy vyplňované u jednotlivých uzlů bez nutnosti znát strukturu Provedení: editace HTML formulářů v MS Word
18
Prostředí pro ruční anotaci na struktuře Pro anotaci „dosahu“ uvozovek (funkce uvozovek ovlivňuje přítomnost gramatému sentmod) Provedení: nový speciální režim v editoru Tred
19
Zobrazení gramatémů v TGTS
20
Závěrečné poznámky Dosažené výsledky –podrobný teoretický popis (součást TG manuálu, později bude samostatná technická zpráva); doplnění (a částečná revize) termínů užívaných v PDT –realizace v datech PDT 2.0 –možnost formalizace TGTS pomocí typovaných struktur rysů –kritický pohled na některá slabá místa PDT, inspirace pro provádění testů a oprav před vydáním PDT Témata do budoucna –širší zachycení slovotvorby –gramatémy v ostatních jazycích
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.