1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK
2/19 Osnova Úvod Roviny popisu jazyka Experimentální systém TectoMT Anglicko-český strojový překlad v TectoMT Další využití TectoMT
3/19 Proč je překlad těžký? velikost slovní zásoby složitost gramatiky tvarosloví, větná skladba… repertoár výrazových prostředků (funkce vs. forma) It will be delivered to Mr. Green's assistants at the nearest meeting. typologická variabilita jazyků - nesymetrie repertoárů forem i funkcí porozumění obsahu *sausage of lovers, *selective driving, *welded wine… synonymie, homonymie referenční výrazy, pojmenované entity … metafory, konotace … konvence pro užívání interpunkce, číslic … žánr, styl, jazykový humor …
4/19 Moderní metody v počítačové lingvistice důraz na experiment opakovatelnost měřitelný výsledek méně lingvistické introspekce, více statistické práce s daty dominují pravděpodobnostní modely 1. volba modelu: P θ ( X ) = f ( X, θ ) 2. trénovací algoritmus – nalezení optimálních parametrů θ 3. dekódovací algoritmus – nalezení argmax P θ ( X ) X
5/19 Moderní metody ve strojovém překladu hledám argmax P(T|S) T – věta v cílovém jazyce S – věta ve zdrojovém jazyce po užití Bayesova pravidla argmax P(T|S) = argmax P(S|T) P(T) P(S|T) - překladový model lze získat z pozorování v paralelním korpusu P(T) - jazykový model lze získat z pozorování v jednojazyčném korpusu TT T
6/19 Překladová pyramida klíčová otázka: co je optimální úroveň abstrakce? s rostoucí abstrakcí … roste podobnost jazyků klesá složitost fáze transferu, ale… roste cena za analýzu a syntézu (složitost modelu, kumulace chyb) hlavní proud v současném strojovém překladu: nízká abstrakce – rozklad věty na krátké posloupnosti slov
7/19 Roviny popisu jazyka podle PZK přejímáme roviny z Pražského závislostního korpusu ručně analyzovaných vět [Hajič et al., 2006] anotační scénář vychází z teorie Funkčního generativního popisu [Sgall, 1964] [Sgall et al., 1986] tři roviny lingvistické analýzy rovina hloubkové syntaxe (tektogramatika) rovina povrchové syntaxe morfologická rovina
8/19 Strojový překlad a tektogramatika motivace pro použití tektogramatiky z hlediska pravděpodobnostních modelů nabízí lingvisticky adekvátní předpoklady nezávislosti 1. faktorizuje transfer do tří relativně samostatných kanálů (lexikalizace, syntaktická realizace, morfologické významy) 2. abstrahuje od morfologických strategií použitých v jednotlivých jazycích 3. používá syntaktický stromový kontext (místo lineárního) hypotéza: tektogramatika by mohla vést ke konstrukci efektivnějšího překladového pravděpodobnostního modelu
9/19 Systém TectoMT víceúčelová „stavebnice“ pro experimenty se zpracováním přirozeného jazyka strojový překlad jako vlajková aplikace vyvíjen na ÚFAL od 2005 využívá roviny Pražského závislostního korpusu Linux, Perl možnost distribuovaného zpracování důraz na modularitu
10/19 Integrace nástrojů do TectoMT využití existujících i nově vyvinutých nástrojů, např. editor stromových struktur [Pajas, Štěpánek, 2005] morfologické analyzátory, např. [Hajič, 2004] závislostní syntaktické analyzátory, např. [McDonald et al., 2005], [Novák, Žabokrtský, 2007] složkové syntaktické analyzátory, např. [Collins, 1999] převodník složkových a závislostních stromů, [Žabokrtský, Kučerová, 2002] rozpoznávač koreferenčních vztahů, [Kučová, Žabokrtský, 2005] generátor vět z tektogramatické roviny, [Ptáček, Žabokrtský, 2006] analyzátor gramatémů, [Razímová, Žabokrtský, 2005] zarovnávač paralelních stromů, [Mareček et al., 2008] lematizátory, např. [Popel, 2009] všechny nástroje vybaveny jednotným objektově orientovaným rozhraním
11/19 Využití lingvistických dat v TectoMT zapojení existujících i nově vytvářených lingvisticky značkovaných dat, mj. syntakticky značkované korpusy např. Pražský závislostní korpus, Penn Treebank morfologicky značkované korpusy např. Český národní korpus, British National Corpus slovníky, např. VALLEX [Lopatková, Žabokrtský, 2002] pravděpodobnostní překladové slovníky, např. [Cuřín et al., 2004] paralelní korpusy, např. CzEng [Bojar, Žabokrtský, 2006]
12/19 Paralelní korpus CzEng vyvíjen na ÚFAL od 2005 cca 8 milionů párů vět evropská legislativa, filmové titulky, technická dokumentace, elektronické knihy, novinové články… automatická lingvistická analýza (v TectoMT) slouží pro trénovaní překladových modelů, příklad:
Překladový scénář v TectoMT postupná aplikace cca 140 modulů pro analýzu, transfer a syntézu She has never laughed in her new boss's office.Nikdy se nesmála v úřadu svého nového šéfa.
14/19 Měření kvality strojového překladu lidské hodnocení zachování významu, gramatická správnost … překvapivě těžké i pro člověka automatické metriky umožňují plně automatizovat iterace experimentu měří podobnost referenčnímu překladu (překlad vytvořený člověkem) jedna z rozšířených metrik: BLEU [Papineni et al.,2002]
15/19 Srovnání s konkurenčními systémy účast ve třech ročnících mezinárodní soutěže ve strojovém překladu jako soutěžící jako poskytovatelé dat jako hodnotitelé soutěž v roce 2010 angličtina, němčina, francouzština, španělština, čeština (!) 12 překladových systémů pro směr A Č TectoMT na 5. místě podle BLEU i podle lidského hodnocení
16/19 Stromový HMM skryté Markovovy modely (HMM) hledané řešení jako skrytý stav, který emituje viditelné pozorování stromová modifikace HMM [Diligenti et al., 2003] umožňuje zkombinovat překladový model a stromový model cílového jazyka cut expense krájet sekat řezat snížit výdaj výloha překladový model stromový model … … …
17/19 Exponenciální překladový model chceme zapojit vstupní kontext samostatný pravděpodobnostní model pro každé slovníkové heslo využití velkého množství rysů získaných analýzou vstupní věty efektivní trénování s využitím předpokladu maximální entropie cut snížit sekat krájet … expense
18/19 Další využití TectoMT zpracování i jiných jazyků než češtiny a angličtiny, např. tamilština [Ramasamy, Žabokrtský, 2011] ruština [Mareček, Kljueva, 2009] latina využití v dalších výzkumných projektech na ÚFAL automatizovaná lingvistická analýza dat pro jiná pracoviště využití syntaktické analýzy pro predikci prozodie [Romportl, 2010] využití ve výuce na MFF diplomové a disertační práce cvičení v předmětu Zdroje lingvistických dat (NPFL076)
19/19 Děkuji za pozornost! Ukázka vět přeložených v TectoMT: The EU and India are willing to reach a free trade agreement in EU a Indie jsou ochotné dosáhnout dohodu o volném obchodě v roce Currently, the bilateral trade Indo-European reaches already nearly 60 milliards euros per year. Nyní již skoro 60 miliard bilaterálního obchodního indoevropského dosahu eur ročně. The EU is the major trading partner of India and represents the 18% of its foreign trade. EU je hlavní obchodní partner Indie a představuje 18 % jeho zahraničního obchodu.