Gramatémy ve FGD a v PDT II Magda Razímová, Zdeněk Žabokrtský Část 1 (ZŽ) – Motivace, výchozí situace – Upřesnění formálního rámce – typování uzlů – Implementace.

Slides:



Advertisements
Podobné prezentace
Objednatel Cíl projektu Dokumentace Technologie Aktualizace a správa dat Publikace dat DIGITÁLNÍ MAPA PRAHY Petr Šebesta.
Advertisements

IKT PHP PHP Tvorba formuláře - 10 Mgr. Josef Nožička
Vymezení slovních druhů
Úvod do studia jazyka – 4. Gramatika Morfologie.
PEVNÝ DISK POČÍTAČE.
Anotace souborovosti v datech PDT a PDTSC Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality Magda Ševčíková
Jiří Kvapil, CENIA Stahovací služby na národním geoportálu ČR Enviro-i-fórum 2013, 14. V. 2013, Zvolen.
Gramatémy ve FGP a v PDT II Část 2
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
KEG Marek RŮŽIČKA EuroMISE – Kardio, VŠE Praha Projekt Stepper – Aplikace pro podporu víceúrovňové formalizace textových dokumentů.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Oběh dokumentů mezi ústředními orgány státní správy k Ing. Jan Duben Vedoucí projektového týmu březen 2003.
Manažerská grafika: Program č.3 Jaroslav LosSB 272.
Vzorce se slovesy s obecným významem změny Jiří Řezáč VMS, 8. prosince 2009.
Workshop 3 grantů – PDT 3.0 – představy, realita, budoucnost Jarmila Panevová.
ADT Strom.
SYSTEMIZACE PRACOVNÍCH MÍST
TEORETICKÉ OTÁZKY BEZPEČNOSTI
Microsoft Office PowerPoint
Dlouhodobá maturitní práce studentů Tomáše Kurce & Jana Kuželky
17.Tabulkový procesor (filtrování a řazení dat, formuláře, podmínky a podmíněné formátování, export a import dat) Barbora Skoumalová 4.A.
METADATA „Tvoří velice důležitou složkou geodat (prostorově lokalizovatelných dat) “ Renata Hrabinová.
Formální jazyky a gramatiky
PŘÍPRAVA METODICKÉHO POKYNU REKTORA VŠSS KE ZPRACOVÁNÍ DIPLOMOVÝCH PRACÍ Zpracování diplomové bakalářské práce.
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
ZS 2013/2014 Božena Bednaříková
Tvarosloví – zájmena, číslovky
Reprezentace znalostí v UI Inteligentní systém musí umět předvídat důsledky svých akcí – potřebuje „model svého prostředí“. K jeho konstrukci potřebuje.
4. Lekce Dílčí procesy funkčního testování
Simulační modely a programové vybavení. Vývoj simulačních programů  Původně pouze strojový kód –Příliš dlouhé, náročné na programátora, obtížné hledání.
XML Schema Irena Mlýnková. Obsah XML – úvod, příklad, základní pojmy DTD – přehled XML Schema – podrobně.
Slovní druhy přehled.
Jazyk XML Jazyk pro tvorbu strukturovaných dokumentů Syntaxí velmi podobný HTML Hlavní cíle návrhu: Snadná editace - jazyk je textový Snadné strojové zpracování.
Excel– Zásady Ing. Bohumil Bareš.
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
Databázové modelování
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Vzdálené počítačové sítě a programování v prostředí Windows Okruhy ke zkoušce z předmětu: Ing. Zdeněk Votruba LVALVA.
Databáze velké množství dat pevně dané struktury
Seminář k ukončování projektů Fondu soudržnosti 19. března 2008 Dokladování udržitelnosti projektů v Závěrečných zprávách Fond soudržnosti sektor životního.
Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)
Excel export a import dat. Import ze souboru.
Mgr. Michal Oblouk OHEBNÉ SLOVNÍ DRUHY.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Co nejrychleji a nejpřesněji odpovídej na dané otázky.
Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze.
1/25 Překladový systém TectoMT Zdeněk Žabokrtský ÚFAL MFF UK.
Petr Šmíd Obsah prezentace Co je to XML ?
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Explicitní popis jazyka a anotovaná data se zřetelem na češtinu GA ČR P406/10/0875 Explicitní popis jazyka a anotovaná data se zřetelem na češtinu Workshop.
Úvod do XML S využitím materiálů z Zdeněk Žabokrtský.
Troubleshooting Hledání příčin poruch Metody pro určení proč něco nepracuje správně, nebo neposkytuje očekávané výsledky.
VY_32_INOVACE_05_01 CZECH SALES ACADEMY Trutnov – střední odborná škola s.r.o. EU PENÍZE ŠKOLÁM CZ.1.07/1.5.00/ VY_32_INOVACE_05_01 Zpracovala:Mgr.
Návrh a implementace algoritmů pro údržbu,
CJBB75 Základy využití korpusu pro praxi st G13.
Podpora méně frekventovaných jazyků SŠ Mgr. Lucie Pospíšilová.
ŠKOLA: Gymnázium, Chomutov, Mostecká 3000, příspěvková organizace AUTOR:Mgr. Martin Jiřiště NÁZEV:VY_32_INOVACE_08C_17_uvod_do_html TEMA:Multimédia a grafika.
Import dat Access (16). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická škola pro tělesně.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
Klára Osolsobě, Hana Žižková
Veřejný seminář k projektu NIX-ZD.CZ
Geografické informační systémy
PROJEKT SYSTÉMU ŘÍZENÍ PODNIKU ZÁKLADNÍ POŽADAVKY A DOPORUČENÍ
Automatická indexace Základní metody a postupy
doc. PhDr. Dušan Pavlů, CSc.
Geografické informační systémy
Sociální čtení.
Transkript prezentace:

Gramatémy ve FGD a v PDT II Magda Razímová, Zdeněk Žabokrtský Část 1 (ZŽ) – Motivace, výchozí situace – Upřesnění formálního rámce – typování uzlů – Implementace – Závěrečné poznámky Část 2 (MR) – Sémantické slovní druhy – Tektogramatické lema – Lexikální a syntaktická derivace – Soustava gramatémů

Umístění gramatémů v anotačním schématu PDT Morfologická rovina –segmentace, tokenizace –lemata + morfologické značky Analytická rovina –závislostní strom – uzly + hrany (zavislostní i nezávislostní) Tektogramatická rovina –závislotní strom – uzly + hrany (závislostní i nezávislostní) –lexikální hodnota uzlu –lexikální desambiguace (“sense tagging“) –závislostní funkce (funktory) –subfunktory (dříve syntaktické gramatémy) –aktuální členění – hloubkový slovosled + TFA –koreference – gramatémy (čas,číslo,rod,stupeň...)

Původní strategie – rozdělení anotace PDT na velký soubor (topologie stromu+funktory, na všech datech) a vzorový soubor (mj. gramatémy, jen pro malý vzorek dat) Důsledek – popis gramatémů nebyl konfrontován s významnějším množstvím dat  nevznikaly podněty pro jeho další vylepšování 55kS šíře anotovaných jevů TR počet anotovaných vět vzorový soubor velký soubor ? Motivace (i): neprověřená místa v anotačním schématu PDT

Motivace (ii): potíže s aplikací TR ve strojovém překladu ideál realita Č.A. MR AR TR Č.A.

Výchozí situace ( jaro 2003 ) Teoretická rovina –existuje: rámcová představa o jednotlivých gramatémech několik stránek v Manuálu pro TG anotaci –chybí: podrobnější popis konkrétních řešení v desítkách specifických situací Implementační rovina –existuje: makro pro částečný převod ATS do TGTS nepatrné množství ručně anotovaných souborů –chybí: popis a implementace procedury pro doplňování gramatému do TGTS zdroje lexikální informace potřebné v proceduře prostředí pro ruční anotaci

gramatém – jeden z atributů uzlu TGTS atribut – uspořádaná dvojice zásadní otázka: jak formálně vyjádřit přítomnost/nepřítomnost atributu v uzlu řešení – typování uzlů (inspirace v OOP a HPSG) Upřesnění formálního rámce TGTS

Typování uzlů současná datová reprezentace PDT neposkytuje žádný mechanismus pro typování uzlů nutnost zavedení „pomocného“ atributu (atributů) uzlu a pomocné konvence zvolené řešení: dvoustupňové typování –atribut nodetype –atribut wordclass

Sémantické slovní druhy – atribut wordclass původní představa – pouze čtyři základní sémantické slovní druhy odpovídající čtyřem základním konceptuálním typům (entita, vlastnost, proces, okolnost) ale: –zařazení zájmen a číslovek? –nutnost podrobnější klasifikace uvnitř čtyř druhů (např. stupňovatelná vs. nestupňovatelná adverbia)? řešení: stromová hierarchie pro wordclass

Hierarchie hodnot atributu wordclass SÉM. ADJEKTIVASÉM. SLOVESASÉM. ADVERBIA ……

Typy uzlů - atribut nodetype Komplexní uzly –sémantická S, V, Adj a Adv –jako jediné mají (morfologické) gramatémy Atomické uzly –funktor RHEM, INTF, PARTL, PREC… Zástupné uzly –t-lema &Cor; &Emp; &Gen; &Rcp; &Unsp; … Řídící uzly koordinační a apozičních struktur –funktor CONJ, DISJ, ADVS, CSQ, REAS, CONFR, OPER, APPS Řídící uzly nestrukturovaných seznamů –&Idph; &Forn; Povrchově identické uzly –funktor FPHR, (DPHR?) Symboly –t-lema &Percnt; ∷ … Kořen –funktor SENT

Dvoustupňové typování uzlů TG uzel complex atomic substit coap list surf symbol root SÉM. ADJEKTIVASÉM. SLOVESASÉM. ADVERBIA …… SÉMANTICKÁSUBSTANTIVA SemN {number;gender} pojmenovací SemN.denot {number;gender} [ pes, pokora, dveře ] pronominální kvantifikační(+numertype) určitá neurčitá(+indeftype; +person) SemN.pron.indef {number;gender; indeftype;person} [ kdo, co ] určitá SemN.quant.def {number;gender; numertype} [ sto, ( přišli ) tři ] ukazovací SemN.pron.def.demon {number;gender} [ ten, tenhle ] osobní(+person; +politeness) SemN.pron.def.pers {number;gender;person;politeness} [& PersPron ;] sezprac. negace (+negation) SemN.denot.neg {number;gender; negation} [ dokonalost, bytí ] SÉM. ADJEKTIVASÉM. SLOVESASÉM. ADVERBIA …… 1. stupeň – atribut nodetype 2. stupeň – atribut wordclass

Automatická procedura pro doplňování gramatémů Program v jazyce Perl pro prostředí tred/ntred/btred (cca 800 řádek) Doplní do TG stromu gramatémy na základě –„hardwired“ pravidel implementovaných přímo v Perlu –externího konverzního souboru (cca 1200 řádek) –externích pomocných lexikálních seznamů –externích souborů obsahujících ruční anotace

Přímo implementovaná pravidla Př. - gramatém ‘tense’ –Přiřaď hodnotu ‘post’, jestliže rozeznáš (neskrytý) uzel s dokonavým slovesem a tagem ^VB (neskrytý) uzel s nedokonavým slovesem s tagem ^Vf, odkazující na (skryté) pomocné sloveso s lematem ‘být’ a tagem ^VB (neskrytý) uzel s tagem ^VB s formou ^(ne)?p a lematem ^[^p]

Externí konverzní soubor část 1 – výčet možných hodnot atributu wordclass WordClass: N.denot, N.denot.neg, N.pron.def.demon, … ; část 2 – výčet možných hodnot gramatémů Sentmod: ENUNC, EXCL, DESID, IMPER, INTER; Verbmod: IND,IMP,CDN; část 3 – výčet gramatémů relevantních pro daný wordclass N.pron.def.pers => Gender, Number, Person, Politeness; N.pron.indef => Gender, Number, IndefType, Person; N.quant.def => Gender, Number, NumerType; ADJ.denot => DegCmp,Negation; část 4 – konverzní pravidla nikam -> trlemma=kde, WordClass=ADV.pron.indef,IndefType=NEGAT; něčí -> trlemma=kdo, WordClass=N.pron.indef, IndefType=INDEF1;

Externí lexikální seznamy vidy u sloves základové adjektivum odvozených adverbií pronominálnost, stupňovatelnost a negovatelnost původních adverbií

Dokončené ruční anotace Absolutní/běžný komparativ Vykání/tykání Rody zájmen Číslo u pomnožných substantiv Vid u obouvidových sloves Osoba u vztažných a neurčitých zájmen Uvozovky

Prostředí pro anotaci na větě Pro gramatémy vyplňované u jednotlivých uzlů bez nutnosti znát strukturu Provedení: editace HTML formulářů v MS Word

Prostředí pro ruční anotaci na struktuře Pro anotaci „dosahu“ uvozovek (funkce uvozovek ovlivňuje přítomnost gramatému sentmod) Provedení: nový speciální režim v editoru Tred

Zobrazení gramatémů v TGTS

Závěrečné poznámky Dosažené výsledky –podrobný teoretický popis (součást TG manuálu, později bude samostatná technická zpráva); doplnění (a částečná revize) termínů užívaných v PDT –realizace v datech PDT 2.0 –možnost formalizace TGTS pomocí typovaných struktur rysů –kritický pohled na některá slabá místa PDT, inspirace pro provádění testů a oprav před vydáním PDT Témata do budoucna –širší zachycení slovotvorby –gramatémy v ostatních jazycích