Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
Jak překládá počítač? Dvojznačná otázka Jak kvalitně počítač překládá? Dokáže plně nahradit člověka – překladatele? Dokáže zprostředkovat význam textu, i když s formálními chybami? S jakými typy textů si poradí nejlépe? Jakým způsobem počítač překládá? Proč... dělá chyby, jaké chyby? Co je strojový překlad? Na jakém principu funguje? Co od něj (ne)můžeme čekat a proč? GT: *Comment bien l'ordinateur traduit? GT: *Comment se traduit l'ordinateur? GT, Bing: *Comment se traduit ordinateur?
Co není strojový překlad (1) Elektronický překladový slovník (zde: Lingea) CAT nástroj: Computer-Aided Translation (zde: Trados)
Co není strojový překlad (2) Paralelní korpus (zde: Linguee)
Co je strojový překlad Plně automatizovaný systém, který překládá bez zásahu člověka (zde: Bing) Nečekané výsledky Pan Dursley byl ředitelem firmy jménem Grunnings, která vyráběla vrtačky. M. Dursley était le directeur d'une société nommée Grunnings, qui a fait des exercices. Pan Dursley byl ředitelem firmy jménem Grunnings, která vyráběla vrtačku. M. Dursley était le directeur d'une société nommée Grunnings, qui a fabriqué la perceuse.
Jak funguje strojový překlad (1) Překlad založený na pravidlech (rule-based): léta Slovník, slovník + gramatická pravidla Přímý, později interlingvální (přes abstraktní zápis významu) Řada obtížných problémů: Grafická slova si neodpovídají: il va - chodí Víceznačnost (ambiguita) Kontextová: aller – chodit / jezdit / letět / plout... Mimojazyková realita: řeka – fleuve / rivière Anafory Elle a refusé, mais je lui ai dit que... – řekl/a jsem mu/jí, že Flexe, slovosled...
Jak funguje strojový překlad (2) Překlad založený na statistice (SMT): od 90. let, současnost Čerpá z existujících překladů Založený na slovech (starší model) jaká je pravděpodobnost, že se dané slovo v daném kontextu přeloží právě takto? Založený na „frázích“ (novější model) [acide aminé] – [aminokyselina] Vlastnosti relativně snadno se programuje potřebuje velká vstupní data (paralelní korpusy) velmi úspěšný u stereotypních textů, nízká kvalita u ne-stereotypních textů problematický pro jazyky s bohatou flexí a volnějším slovosledem žádná pravidlová analýza: jazykové chyby na výstupu (flexe, shody, slovosled...) nedetekuje anafory Hybridní systémy: současnost Základem modul SMT, výsledek upraven rule-based modulem
Co lze čekat od strojového překladu (1) H. de Balzac: Le père Goriot
Co lze čekat od strojového překladu (2) NAŘÍZENÍ KOMISE (ES) č. 255/2005 z 15. února 2005 o trvalém povolení některých doplňkových látek v krmivech
Závěry Dnes zejména dva typy systémů: Statistické: Google translate Hybridní: Bing Na čem záleží úspěšnost strojového překladu? Typ textu Stereotypní = lepší překlad (technické texty, ustálené formulky, komplexní termíny) Jazyková kombinace Musí existovat obrovský paralelní korpus pro dané dva jazyky (trénovací data) Překlad přes 3. jazyk vždy problematičtější (Google translate) Typ výchozího a cílového jazyka: izolační jazyky (lepší výsledky) vs. flektivní nebo aglutinační jazyky Současné využití? informativní překlad (MT for assimilation, vs. MT for dissemination) vstupní data pro CAT systémy: překladatel upravuje/edituje navrženou verzi