1/25 Překladový systém TectoMT Zdeněk Žabokrtský ÚFAL MFF UK.

Slides:



Advertisements
Podobné prezentace
Bezpečný digitální podpis v praxi
Advertisements

E-learning – moderní elektronická podpora výuky
™. ™ Zprovoznění zařízení a zahájení jejich řízení během několika minut.
Nový přístup k aplikacím Vema
Stručný úvod do UML.
Úvod do studia jazyka – 4. Gramatika Morfologie.
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
HYPERTEXT PREPROCESSOR. PROGRAMOVÁNÍ. DEFINICE POJMŮ Problém Problém nevyřešený, nežádoucí stav obvykle vyžaduje nějaké řešení Neřešitelný problém Neřešitelný.
Gramatémy ve FGD a v PDT II Magda Razímová, Zdeněk Žabokrtský Část 1 (ZŽ) – Motivace, výchozí situace – Upřesnění formálního rámce – typování uzlů – Implementace.
Scia - Nemetschek Postavení SCIA v holdingu Nemetschek
Softwarový systém DYNAST
NÁZEV PRÁCE (musí být stručný, výstižný, měl by obsahovat jednoznačné výrazy a slovní spojení) Název školy Jméno autora, třída, místo a rok zpracování.
Aplikace metrických indexovacích metod na data získaná hmotnostní spektrometrií Jiří Novák
Třídění PA. Kompaktní PA (KPA) -menší - měly původně pevně danou konfiguraci integrovaných modulů a byly uzavřeny v jednom pouzdře. -Pouzdro se montuje.
Co má obsahovat prezentace
Metody zpracování vybraných témat (projektů)
Definování prostředí pro provozování aplikace dosud jsme řešili projekt v obecné rovině aplikace bude ovšem provozována v konkrétním technickém a programovém.
Analýza informačního systému
Novinky a strategie společnosti Vema, a. s.
Systémy pro podporu managementu 2
E-learning ve výuce na SŠ
[IVE-SMA] UI analyzačního nástroje Daniel Puncman A4M39NUR.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Simulační modely a programové vybavení. Vývoj simulačních programů  Původně pouze strojový kód –Příliš dlouhé, náročné na programátora, obtížné hledání.
RozšÍŘEnÍ IIS NZZ Konference projektu NZZ_
Dokumentace informačního systému
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
doc. RNDr. František STANĚK, Ph.D.
Databázové modelování
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Tento materiál vznikl v rámci projektu ESF CZ.1.07/2.2.00/
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Metodika objektového přístupu při tvorbě překladačů. Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Projektové plánování.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)
OPERAČNÍ SYSTÉMY.
1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
14. června 2004Michal Ševčenko Architektura softwarového systému DYNAST Michal Ševčenko VIC ČVUT.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
MorČe morfologické značkování češtiny
1/29 FI MUNI, 18. května 2011 Strojový překlad s využitím závislostní syntaxe Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
Petr Šmíd Obsah prezentace Co je to XML ?
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
ECM – Enterprise Content Management
IEC 61850: Soubor norem pro komunikaci v energetice
MICROSOFT OFFICE 2007/2010. Důvod změny Inovace technologií Nové možnosti použití Kompatibilita Ukončení tech. podpory starších verzí Office 2003 –
CD B A Průmyslová aplikace v Control Webu Virtuální přístroje Propojená technologie Řadič měřící/řídící karty Výstupní.
Postup při empirickém kvantitativním výzkumu
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Vývoj software pro Linuxové distribuce Installfest Praha,
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
Databáze MS ACCESS 2010.
Operační Systém Operační systém je v informatice základní programové vybavení počítače (tj. software), které je zavedeno do paměti počítače při jeho.
Algoritmizace – základní pojmy
Evidence aplikací a jejich dokumentace
Dobývání znalostí z databází znalosti
Tradiční metodiky vývoje softwaru
Automatická indexace Základní metody a postupy
Tradiční metody vývoje softwaru
METODOLOGIE PROJEKTOVÁNÍ
GaP a správa úvazků.
E-learning – moderní elektronická podpora výuky
Analýza informačního systému
Transkript prezentace:

1/25 Překladový systém TectoMT Zdeněk Žabokrtský ÚFAL MFF UK

2/25 Osnova Teoretický úvod systém rovin, motivace pro použití t-roviny, formémy Vývojové prostředí TectoMT design decisions, bloky Anglicko-český překlad implementovaný v TectoMT scénář, ukázka překladu věty krok po kroku Závěrečné poznámky

3/25 Překladový trojúhelník Klíčová otázka: jaká úroveň abstrakce je pro úlohu strojového překladu nejvhodnější?

4/25 Motivace pro použití t-roviny obecný předpoklad: na t-rovině jsou si jazyky podobnější  transfer by měl být snadnější než na povrchu kde konkrétně může t-rovina přispět k vytvořeních lepších modelů? přirozená faktorizace transferu 1. překlad syntaktizace 2. překlad lexikalizace 3. překlad (morfologických) gramatémů možnost využití stromového kontextu (místo lineárního) ale: náklady na analýzu a syntézu (!)

5/25 Zjednodušená t-rovina cíl: zjednodušit analýzu a především umožnit deterministickou syntézu vět zachované některé vlastnosti t-roviny (věta ~ závislostní strom, "schovaná" funkční slova, typované uzly...), ale žádné aktuální členění ("uzlosled" kopíruje původní/cílový slovosled) žádné "kopírované" uzly žádné odkazy do valenčního slovníku žádné funktory (kromě koordinačních) u každého komplexního t-uzlu ale navíc formém

6/25 Formémy (1) formém = informace o tom, které morfosyntaktické prostředky byly (budou) užity k vyjádření závislosti daného t-uzlu vůči jeho řídícímu uzlu několik desítek hodnot, přijatelné hodnoty podmíněné sémantickým slovním druhem t-uzlu co formém nezachycuje: morfologické kategorie vyplývající ze shody morfologické kategorie, které už jsou vyjádřeny gramatémem

7/25 Formémy (2) příklady formémů navržených pro češtinu: pro sémantická substantiva bezpředložkový pád - n:1, n:4,... předložkový pád - n:z+2, n:o+6,... přivlastňovací tvar - n:poss pro sémantická adjektiva atributivní pozice: adj:attr doplňková pozice: adj:comp pro sémantická slovesa finitní tvar - v:fin f.t. ve v.v. spojkové - v:že+fin,... f.t. ve v.v. vztažné - v:rc infinitiv - v:inf formémy pro angličtinu: n:obj1, n:for+X, n:X+ago, v:without+ger, v:to+inf

8/25 Vývojové prostředí TectoMT

9/25 Cíle hlavní cíl implementovat překladový systém, pokud možno s maximálním využitím anotačního schématu PDT (roviny lingvistického popisu, technologie atd.) vedlejší cíle usnadnit život úfalího programátora vytvořit rámec, ve kterém bude možné empiricky ověřit užitečnost softwarových nástrojů z oblasti NLP na aplikaci z reálného života využít abstrakční schopnost tektogramatické roviny dodávat data/technologii pro další projekty sdílet

10/25 "Design decisions" TectoMT - vývojové prostředí, nikoli aplikace pro koncového uživatele (finální aplikace lze samozřejmě izolovat) Perl, Linux technologie z PDT 2.0: tred/btred/ntred, PML důraz na modularitu - rozklad na velký počet podúloh snadná znovupoužitelnost modulů snadná nahraditelnost modulů užití lingvisticky interpretovatelných rovin popisu jazyka žádná omezení ohledně metod řešení (statistika/pravidla) komunikace mezi jednotlivými moduly -jednotné objektově orientované API (nikoli přes souborové formáty!) žádná podpora pro backtracking, žádná podpora pro reranking

11/25 Základní pojmy hierarchie jednotek datové reprezentace dokument (~ 1 soubor v pml) svazek stromů (bundle) strom uzel atribut hierarchie pracovních jednotek blok scénář - posloupnost bloků aplikace - typické schéma: 1. konverze ze vstupního formátu 2. spuštění scénáře 3. konverze do výstupního formátu source language target language MT triangle: interlingua tectogram. surf.synt. morpho. raw text.

12/25 Bloky moduly v Perlu malé, samostatně dobře vymezitelné úkoly různé funkce: bloky pro analýzu/transfer/syntézu, např. SEnglishW_to_SEnglishM::Lemmatize_mtree SEnglishP_to_SEnglishA::Mark_heads TCzechT_to_TCzechA::Vocalize_prepositions bloky pro alignment, bloky pro evaluaci... různé přístupy: implementace "ostrých" lingvistických pravidel empiricky podložené heuristiky systémy s komplexními pravděpodobnostními modely mnoho bloků jsou jen "wrappery" ke dříve existujícím nástrojům (Collinsův parser, McDonnaldův parser, Brantsův TnT tagger, Hajičova morfologie...)

13/25 Co je v TectoMT kromě bloků pml-specifikace formátu tmt primární souborový formát používaný v TectoMT aplikace PML, zahrnující mj. aplikace PML pro roviny z PDT 2.0 core - OO rozhraní pro práci s tmt soubory (Perl) makra pro podporu vizualizace tmt v TrEdu všechny stromu bundlu na jedné obrazovce data natrénované modely konvertory formátů automatické testy...

14/25 Anglicko-český překlad implementovaný v TectoMT

15/25 Scénář č.-a. překladu posloupnost cca 80 bloků EnglishW  EnglishM - bloky pro segmentaci, tokenizaci, tagging, lemmatizaci EnglishM  EnglishP - složkový parsing EnglishP  EnglishA - označení hlav, vyrobení a-stromu, nejnutnější afuny EnglishA  EnglishT - spojení funkčních a autosém. a-uzlů do t-uzlu, gramatémy, koreference... EnglishT  CzechT - klon t-stromu, překlad formémů, lexémů a gramatémů CzechT  CzechA - shoda, přidání a-uzlů pro funkční slova, generování tagů, volba formy CzechA  CzechW - spojení tokenů do věty, spojení vět do textu

16/25 Demo - překlad krok po kroku

17/25 Faktorizace transferu 3 kanály 1. transfer formémů volba syntaktizace v cílovém jazyce na základě překladového slovníku formémů 2. transfer lexémů volba lexikalizace v cílovém jazyce na základě překladového slovníku t-lemmat lexém a formém musí být kompatibilní 3. transfer gramatémů většinou triviální

18/25 Překladový slovník formémů P(F t |F s ) natrénováno z 5000 paralelních t-stromů jednoduchý algoritmus párování paralelních t-stromů po uzlech postupné přidávání párů uzlů, výběr na základě skórovací funkce s(n a,n č ) = w.f(n a,n č ), ručně navržené rysy, váhy trénované perceptronem příklady P(F t |F s ) adj:attr adj:attr adj:attrn: n:of+X n: n:of+X adj:attr n:of+X n:z v:to+inf v:inf v:to+inf v:aby+fin v:to+inf n:k

19/25 Překladový slovník lexémů pravděpodobnostní slovník - P(L t |L s ) cca překladových párů kombinace slovníku z PCEDT a slovníku extrahovaného z paralelního korpusu Czeng rozšířeno pomocí pravidel pro slovotvorné derivace pravděpodobnosti vyhlazené četnostmi v ČNK vzorek: buy#N odkup#N buy#N koupěN buy#N kup#N buy#V koupit#V buy#V kupovat#V buy#V nakupovat#V buy#V nakoupit#V

20/25 Vyhodnocení kvality překladu WMT'08 Shared Task (soutěž ve strojovém překladu) směry: z francouzštiny, němčiny, češtiny, španělštiny do angličtiny a/nebo zpět, plus z angličtiny do maďarštiny Ruční evaluace kvality automatických překladů (dobrovolníci)

21/25 Závěrečné poznámky

22/25 Vývoj TectoMT v číslech doba vývoje: cca 30 měsíců aktivně přispívajících programátorů: 6 velikost kódu: cca Perl LOCs počet bloků: cca 200 dynamika: v repozitáři svn 560 revizí za posledních 6 měsíců

23/25 Další aplikace TectoMT dosud: příprava dat pro tektogramatickou anotaci angličtiny na požádání jednorázová zpracování dodaných dat (např. data pro analýzu dialogu, rekonstrukci řeči, zkoumání vztahu syntaxe a prozodie) brzy: generátor anglických vět uvnitř dialogovém systému (projekt Companions) interaktivní t-analýza v TrEdu

24/25 Plány do budoucna nejbližší budoucno: vylepšování stávajících bloků na základě analýzy chyb hledání a zapojování lepších alternativ (Morče místo TnT, McDonald místo Collinse...) vzdálenější budoucno: v transferu: HMM upravený pro stromy, s perceptronem trénovanou kombinací překladového a jazykového modelu

25/25 Závěr Technických cílu bylo dosaženo: TectoMT je funkční, modulární, umožňuje rychlý a pohodlný vývoj dalších komponent pro NLP i relativně snadnou integraci většiny už existujících. Ověřeno na prototypu překladového systému. "State-of-the-art" v MT se nepodařilo překonat. Otázka praktického přínosu/vhodnosti t-roviny pro strojový překlad zůstává otevřená.