1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.

Slides:



Advertisements
Podobné prezentace
ON-LINE TESTY PRO DOKTORANDY NA UK FF PRAHA
Advertisements

Úvod do Teorie her. Vztah mezi reálným světem a teorií her není úplně ideální. Není úplně jasné, jak přesně postavit herněteoretický model a jak potom.
Mgr. Iva Celbová konzultant SEFIRA spol. s r.o.
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
JAZYKOVĚDA, JAZYKOVÁ KULTURA, ŘEČ A JAZYK
Korpusová lingvistika (2)
Jiří Gazárek, Martin Havlíček Analýza nezávislých komponent (ICA) v datech fMRI, a ICA necitlivá ke zpoždění.
Principy překladačů Překladač Jakub Yaghob. Literatura a slajdy Aho, Sethi, Ullman: Compilers - Principles, Techniques and Tools, Addison-Wesley 1986.
Výzkum (pedagogického zhodnocení) volného času
Metody zpracování vybraných témat (projektů)
Technická 2896/ Brno tel.: fax: Ústav jazyků
Definování prostředí pro provozování aplikace dosud jsme řešili projekt v obecné rovině aplikace bude ovšem provozována v konkrétním technickém a programovém.
Mgr. Alena Lukáčová, Ph.D., Dr. Ján Šugár, CSc.
Softwarové zabezpečení analýzy měřícího systému (MSA)
Analýza informačního systému
Evropská strategie zaměstnanosti a víceúrovňové vládnutí – sen nebo skutečnost? Milena Jabůrková, Ondřej Mátl a Gabriela Nováková Zpráva zpracována pro.
METADATA „Tvoří velice důležitou složkou geodat (prostorově lokalizovatelných dat) “ Renata Hrabinová.
© 2011 Ministerstvo průmyslu a obchodu
Úvod do korpusové lingvistiky 8
Informační strategie. řešíte otázku kde získat konkurenční výhodu hledáte jistotu při realizaci projektů ICT Nejste si jisti ekonomickou efektivností.
Vyhledávání podobností v datech s využitím singulárního rozkladu
STRUKTURA OSNOVY KURZU
Systémy pro podporu managementu 2
Modelování a simulace MAS_02
Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Prototypování, testování prototypů Lenka Němečková Komunikace člověk-počítač KISK FF MUNI
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Metodika objektového přístupu při tvorbě překladačů. Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Označení materiálu: VY_32_INOVACE_KASPE_ANGLICTINA2_14
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Návrh modelu řízení ECM v kontextu řízení informatiky Ing. Renáta Kunstová.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Dagmar Strejčková Kapitoly z lexikologie současné češtiny Kapitoly z lexikologie českého jazyka Dagmar Strejčková
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
MorČe morfologické značkování češtiny
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
1/25 Překladový systém TectoMT Zdeněk Žabokrtský ÚFAL MFF UK.
1/29 FI MUNI, 18. května 2011 Strojový překlad s využitím závislostní syntaxe Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Technická univerzita v Liberci LIBEREC I Studentská 2 Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/ ) podpořeného z.
Kontrola pravopisu Daniel Zeman Počítačové zpracování češtiny.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
CJBB105 Úvod do korpusové lingvistiky
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
7. STRUKTURA ODBORNÉHO TEXTU Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.
Struktura podnikatelského plánu
Efektivní řízení lidských zdrojů a zavádění moderních metod řízení na Městském úřadu Bruntál CZ.1.04/4.1.01/
Informatika. Cíle výuky informatiky Studenti se mají seznámit se základními pojmy, problémy, postupy, výsledky a aplikacemi informatiky tak, aby je dokázali.
Zkvalitnění výuky německého jazyka na Vyšší odborné škole Zahradnické v Mělníku CZ.1.07/2.1.00/
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
Podpora méně frekventovaných jazyků SŠ Mgr. Lucie Pospíšilová.
VARIANTNÍ PROSTŘEDKY PŘI ÚPRAVĚ PUBLICISTICKÝCH TEXTŮ NA MATERIÁLU MF DNES Mgr. Barbora Albrechtová Ústav pro jazyk český AV ČR, v. v. i.
V Českých Budějovicích, únor 2017
Klára Osolsobě, Hana Žižková
VZDĚLÁVACÍ PROGRAM NEZISKOVÉHO SEKTORU
Řízení zásob ve výrobním podniku
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
učitelská mobilita Univerzita v Groningenu, Nizozemí
Vysoká škola technická a ekonomická v Českých Budějovicích
Standardní postupy a standardní péče – jak na to?
Metody strojového učení
Projekt - K620 Řízení a modelování silniční dopravy
Řízení zásob ve výrobním podniku
pracoviště, časopisy, software
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Kvalita a akční plánování rozvoje vzdělávání. kvalita a akční plánování rozvoje vzdělávání.
Analýza informačního systému
Transkript prezentace:

1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK

2/19 Osnova Úvod Roviny popisu jazyka Experimentální systém TectoMT Anglicko-český strojový překlad v TectoMT Další využití TectoMT

3/19 Proč je překlad těžký? velikost slovní zásoby složitost gramatiky tvarosloví, větná skladba… repertoár výrazových prostředků (funkce vs. forma) It will be delivered to Mr. Green's assistants at the nearest meeting. typologická variabilita jazyků - nesymetrie repertoárů forem i funkcí porozumění obsahu *sausage of lovers, *selective driving, *welded wine… synonymie, homonymie referenční výrazy, pojmenované entity … metafory, konotace … konvence pro užívání interpunkce, číslic … žánr, styl, jazykový humor …

4/19 Moderní metody v počítačové lingvistice důraz na experiment opakovatelnost měřitelný výsledek méně lingvistické introspekce, více statistické práce s daty dominují pravděpodobnostní modely 1. volba modelu: P θ ( X ) = f ( X, θ ) 2. trénovací algoritmus – nalezení optimálních parametrů θ 3. dekódovací algoritmus – nalezení argmax P θ ( X ) X

5/19 Moderní metody ve strojovém překladu hledám argmax P(T|S) T – věta v cílovém jazyce S – věta ve zdrojovém jazyce po užití Bayesova pravidla argmax P(T|S) = argmax P(S|T) P(T) P(S|T) - překladový model lze získat z pozorování v paralelním korpusu P(T) - jazykový model lze získat z pozorování v jednojazyčném korpusu TT T

6/19 Překladová pyramida klíčová otázka: co je optimální úroveň abstrakce? s rostoucí abstrakcí … roste podobnost jazyků  klesá složitost fáze transferu, ale… roste cena za analýzu a syntézu (složitost modelu, kumulace chyb) hlavní proud v současném strojovém překladu: nízká abstrakce – rozklad věty na krátké posloupnosti slov

7/19 Roviny popisu jazyka podle PZK přejímáme roviny z Pražského závislostního korpusu ručně analyzovaných vět [Hajič et al., 2006] anotační scénář vychází z teorie Funkčního generativního popisu [Sgall, 1964] [Sgall et al., 1986] tři roviny lingvistické analýzy rovina hloubkové syntaxe (tektogramatika) rovina povrchové syntaxe morfologická rovina

8/19 Strojový překlad a tektogramatika motivace pro použití tektogramatiky z hlediska pravděpodobnostních modelů nabízí lingvisticky adekvátní předpoklady nezávislosti 1. faktorizuje transfer do tří relativně samostatných kanálů (lexikalizace, syntaktická realizace, morfologické významy) 2. abstrahuje od morfologických strategií použitých v jednotlivých jazycích 3. používá syntaktický stromový kontext (místo lineárního) hypotéza: tektogramatika by mohla vést ke konstrukci efektivnějšího překladového pravděpodobnostního modelu

9/19 Systém TectoMT víceúčelová „stavebnice“ pro experimenty se zpracováním přirozeného jazyka strojový překlad jako vlajková aplikace vyvíjen na ÚFAL od 2005 využívá roviny Pražského závislostního korpusu Linux, Perl možnost distribuovaného zpracování důraz na modularitu

10/19 Integrace nástrojů do TectoMT využití existujících i nově vyvinutých nástrojů, např. editor stromových struktur [Pajas, Štěpánek, 2005] morfologické analyzátory, např. [Hajič, 2004] závislostní syntaktické analyzátory, např. [McDonald et al., 2005], [Novák, Žabokrtský, 2007] složkové syntaktické analyzátory, např. [Collins, 1999] převodník složkových a závislostních stromů, [Žabokrtský, Kučerová, 2002] rozpoznávač koreferenčních vztahů, [Kučová, Žabokrtský, 2005] generátor vět z tektogramatické roviny, [Ptáček, Žabokrtský, 2006] analyzátor gramatémů, [Razímová, Žabokrtský, 2005] zarovnávač paralelních stromů, [Mareček et al., 2008] lematizátory, např. [Popel, 2009] všechny nástroje vybaveny jednotným objektově orientovaným rozhraním

11/19 Využití lingvistických dat v TectoMT zapojení existujících i nově vytvářených lingvisticky značkovaných dat, mj. syntakticky značkované korpusy např. Pražský závislostní korpus, Penn Treebank morfologicky značkované korpusy např. Český národní korpus, British National Corpus slovníky, např. VALLEX [Lopatková, Žabokrtský, 2002] pravděpodobnostní překladové slovníky, např. [Cuřín et al., 2004] paralelní korpusy, např. CzEng [Bojar, Žabokrtský, 2006]

12/19 Paralelní korpus CzEng vyvíjen na ÚFAL od 2005 cca 8 milionů párů vět evropská legislativa, filmové titulky, technická dokumentace, elektronické knihy, novinové články… automatická lingvistická analýza (v TectoMT) slouží pro trénovaní překladových modelů, příklad:

Překladový scénář v TectoMT postupná aplikace cca 140 modulů pro analýzu, transfer a syntézu She has never laughed in her new boss's office.Nikdy se nesmála v úřadu svého nového šéfa.

14/19 Měření kvality strojového překladu lidské hodnocení zachování významu, gramatická správnost … překvapivě těžké i pro člověka automatické metriky umožňují plně automatizovat iterace experimentu měří podobnost referenčnímu překladu (překlad vytvořený člověkem) jedna z rozšířených metrik: BLEU [Papineni et al.,2002]

15/19 Srovnání s konkurenčními systémy účast ve třech ročnících mezinárodní soutěže ve strojovém překladu jako soutěžící jako poskytovatelé dat jako hodnotitelé soutěž v roce 2010 angličtina, němčina, francouzština, španělština, čeština (!) 12 překladových systémů pro směr A  Č TectoMT na 5. místě podle BLEU i podle lidského hodnocení

16/19 Stromový HMM skryté Markovovy modely (HMM) hledané řešení jako skrytý stav, který emituje viditelné pozorování stromová modifikace HMM [Diligenti et al., 2003] umožňuje zkombinovat překladový model a stromový model cílového jazyka cut expense krájet sekat řezat snížit výdaj výloha překladový model stromový model … … …

17/19 Exponenciální překladový model chceme zapojit vstupní kontext samostatný pravděpodobnostní model pro každé slovníkové heslo využití velkého množství rysů získaných analýzou vstupní věty efektivní trénování s využitím předpokladu maximální entropie cut snížit sekat krájet … expense

18/19 Další využití TectoMT zpracování i jiných jazyků než češtiny a angličtiny, např. tamilština [Ramasamy, Žabokrtský, 2011] ruština [Mareček, Kljueva, 2009] latina využití v dalších výzkumných projektech na ÚFAL automatizovaná lingvistická analýza dat pro jiná pracoviště využití syntaktické analýzy pro predikci prozodie [Romportl, 2010] využití ve výuce na MFF diplomové a disertační práce cvičení v předmětu Zdroje lingvistických dat (NPFL076)

19/19 Děkuji za pozornost! Ukázka vět přeložených v TectoMT: The EU and India are willing to reach a free trade agreement in EU a Indie jsou ochotné dosáhnout dohodu o volném obchodě v roce Currently, the bilateral trade Indo-European reaches already nearly 60 milliards euros per year. Nyní již skoro 60 miliard bilaterálního obchodního indoevropského dosahu eur ročně. The EU is the major trading partner of India and represents the 18% of its foreign trade. EU je hlavní obchodní partner Indie a představuje 18 % jeho zahraničního obchodu.