Strojový překlad přes tektogramatickou rovinu v systému TectoMT Martin Popel ÚFAL, MFF UK Pondělní seminář, 22. března 2010.

Slides:



Advertisements
Podobné prezentace
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Advertisements

Gramatémy ve FGD a v PDT II Magda Razímová, Zdeněk Žabokrtský Část 1 (ZŽ) – Motivace, výchozí situace – Upřesnění formálního rámce – typování uzlů – Implementace.
Jazyk a jazyková komunikace Cizí jazyk Slovesné časy v angličtině Present perfect x past simple VY_22_INOVACE_31 Sada 1 Základní škola T. G. Masaryka,
IT Session Two Lessons Three and Four. Outline  IT Test 1  International Phonetic Alphabet  IPA – Interactive chart  Exercise 1  Český národní korpus.
Název školyIntegrovaná střední škola technická, Vysoké Mýto, Mládežnická 380 Číslo a název projektuCZ.1.07/1.5.00/ Inovace vzdělávacích metod EU.
Gymnázium, Broumov, Hradební 218 Vzdělávací oblast: Anglický jazyk – gramatika, slovní zásoba Číslo materiálu: EU Název: Vocabulary Microprocessors.
Dobrý den, pane. Znám vás? Hello, sir. Do I know you?
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
O metodě konečných prvků Lect_6.ppt M. Okrouhlík Ústav termomechaniky, AV ČR, Praha Liberec, 2010 Pár slov o Matlabu a o zobrazení čísla na počítači.
Počitatelná a nepočitatelná podstatná jména Autorem materiálu, pokud není uvedeno jinak, je Bc. Kateřina Najmanová.
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
ODDS RATIO Relationships between categorical variables in contingency table Jiří Šafr jiri.safr(AT)seznam.cz updated 29/12/2014 Quantitative Data Analysis.
Označení materiálu: VY_32_INOVACE_KASPE_ANGLICTINA1_02
EU PENÍZE ŠKOLÁM Operační program Vzdělávání pro konkurenceschopnost ZÁKLADNÍ ŠKOLA OLOMOUC příspěvková organizace MOZARTOVA 48, OLOMOUC tel.: 585.
Jméno autora: Mgr. Olga Bayerlová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_03_AJ2V Ročník: I. Anglický jazyk Vzdělávací oblast: Jazyk a jazyková.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Easter in the USA and Great Britain
y.cz Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Roman Chovanec Název šablonyIII/2.
So, such, (a) few, (a) little Nominal Subject Clauses Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Romana Petrová. Dostupné z Metodického.
Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)
Jazyk a jazyková komunikace Cizí jazyk Nezbytná gramatika v angličtině Modální slovesa VY_22_INOVACE_07 Sada 4 Základní škola T. G. Masaryka, Český Krumlov,
1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
1 Škola: Gymnázium, Brno, Slovanské náměstí 7 Šablona: III/2 – Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN prostřednictvím.
Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze.
MorČe morfologické značkování češtiny
ŠKOLA: Gymnázium, Tanvald, Školní 305, příspěvková organizace ČÍSLO PROJEKTU: CZ.1.07/1.5.00/ NÁZEV PROJEKTU: Šablony – Gymnázium Tanvald ČÍSLO.
Autorem materiálu a všech jeho částí, není- li uvedeno jinak, je Ing. Petra Andrlová Tento materiál byl vytvořen v rámci projektu Operačního programu Vzdělávání.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:
1/25 Překladový systém TectoMT Zdeněk Žabokrtský ÚFAL MFF UK.
1/29 FI MUNI, 18. května 2011 Strojový překlad s využitím závislostní syntaxe Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO:
y.cz Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Roman Chovanec Název šablonyIII/2.
A Job Interview By Dagmar Machů Škola: SOU Val. Klobouky Ročník: třetí Obor: Kuchař/číšník Název projektu: Zkvalitnění výuky prostřednictvím ICT Předmět:
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_11_AJ_CM Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
 Piston pumps are a type of water pumps which cause the liquid to flow using one or more oscillating pistons.
Computer visualization of relational database in www environment Radek Horáček Supervisor: ing. J. Blažej,Phd. Bachelor Thesis, Department of Physical.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Causal Clauses – Věty příčinné Markéta Zakouřilová VY_32_INOVACE_103 ZŠ Jenišovice.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM Business Communications/Complaints 06C16 AutorLadislava Pechová Období.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
My family NÁZEV ŠKOLY: ZŠ a MŠ Osoblaha, příspěvková organizace AUTOR: Miroslava Jarkulišová NÁZEV: VY_32_INOVACE_14_ Jazyk anglický TEMA: My family ČÍSLO.
EU peníze středním školám Název vzdělávacího materiálu: Love relationship Číslo vzdělávacího materiálu: AJ2-18 Šablona: II/2 Inovace a zkvalitnění výuky.
ANOTACE: Anotace: Didaktický učební materiál je určen žákům středních škol k zopakování učiva. Prezentace je se skládá z přehledu daného učiva a ze cvičení.
Základní škola Velké Karlovice, okres Vsetín ŠKOLA: Základní škola Velké Karlovice, okres Vsetín Mgr. Pavla Šrubařová AUTOR: Mgr. Pavla Šrubařová VY_22_INOVACE_AKON_20_First_aid.
Easter in Great Britain NÁZEV ŠKOLY: ZŠ a MŠ Osoblaha, příspěvková organizace AUTOR: Miroslava Jarkulišová NÁZEV: VY_32_INOVACE_17_ Jazyk anglický TEMA:
NÁZEV ŠKOLY: Základní škola Strančice, okres Praha - východ AUTOR: Mgr. Hana Kletečková NÁZEV:VY_32_INOVACE_ K 20 – Past simple 7. tř. TEMA: Anglický.
Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie.
Listening VY_32_INOVACE_AJ_2_60 Multiple choice Číslo projektu: CZ.1.07./1.5.00/ Název projektu: Zlepšení podmínek pro vzdělávání na SUŠ, Ostrava.
Gymnázium, Brno, Elgartova 3 GE - Vyšší kvalita výuky CZ.1.07/1.5.00/ III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Téma: English Grammar.
Gymnázium, Brno, Elgartova 3 GE - Vyšší kvalita výuky CZ.1.07/1.5.00/ III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Téma: English Grammar.
Gymnázium, Brno, Elgartova 3 GE - Vyšší kvalita výuky CZ.1.07/1.5.00/ III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Téma: English Grammar.
NÁZEV ŠKOLY: Základní škola Konstantinovy Lázně, okres Tachov, příspěvková organizace AUTOR: Mgr. Alena Kaĺavská NÁZEV: VY_32_INOVACE_10_School TEMA: School.
Word order Střední škola pedagogická, hotelnictví a služeb, Litoměřice, příspěvková organizace Litoměřice, Komenského 3 Autor: Pavel Vágai.
Základní škola Velké Karlovice, okres Vsetín ŠKOLA: Základní škola Velké Karlovice, okres Vsetín Mgr. Pavla Šrubařová AUTOR: Mgr. Pavla Šrubařová VY_22_INOVACE_AKON_My_weekend.
Analýza pracovního výkonu zaměstnanců
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
NÁZEV ŠKOLY: ZŠ Dolní Benešov, přísp.organizace
Název školy Gymnázium, střední odborná škola, střední odborné učiliště a vyšší odborná škola, Hořice Číslo projektu CZ.1.07/1.5.00/ Název materiálu.
FAMILY.
Název školy: ZŠ Varnsdorf, Edisonova 2821, okres Děčín, příspěvková organizace Jazyk a jazyková komunikace, Anglický jazyk, Minulý čas prostý pravidelných.
REVISION OF TENSES Anotace: Materiál je určen žáků 8
I haven´t seen your ID card.
AUTOR: Mgr. Ilona Jurčeková NÁZEV: VY_32_INOVACE_06_AJ_09
AUTOR: Mgr. Ilona Jurčeková NÁZEV: VY_32_INOVACE_06_AJ_03
Čeština: 1. lekce Czech language: 1st lesson
Název školy: Základní škola a Mateřská škola Sepekov Autor:
DIGITÁLNÍ UČEBNÍ MATERIÁL
Účetní schémata MS Dynamics NAV RTC-základy
NÁZEV ŠKOLY: Základní škola Strančice, okres Praha - východ
Transkript prezentace:

Strojový překlad přes tektogramatickou rovinu v systému TectoMT Martin Popel ÚFAL, MFF UK Pondělní seminář, 22. března 2010

Osnova ● Ukázka překladu krok za krokem ● Anotace překladových chyb ● Novinky v TectoMT - Hidden Markov Tree Models (HMTM) - nové slovníky (Maximum Entropy) ● Výsledky a zhodnocení TectoMT

TectoMT jako framework modulární, open source, objektový, Perl, Linux TectoMT Core Classes TectoMT::Document TectoMT::Bundle TectoMT::Node TectoMT::Scenario TectoMT::Block Format Convertors (to & from tmt) plain text HTML & various XML corpora PDT, PennTB, EMILLE, PADT, CoNLL, vertical In-house Tools taggers, parsers NE recognizers language models API machine learning tools TectoMT Blocks Tree_tagger McD_parser Mark_passives Applications scenarios + format conversions Visualization TrEd (Tree Editor with SVG and PDF export options) versioned part shared part Third-party Tools Malt parser TreeTagger fnTBL, CRF++ Data models for stochastic tools translation dictionaries special-purpose lexical databases

Ukázka překladu - Schéma morfologická rovina analytická rovina a- rovina m- rovina w- rovina t- rovina ANALÝZATRANSFER SYNTÉZA zdrojový jazyk (angličtina) cílový jazyk (čeština) tectogramatická rovina transfer přes tektogramatickou rovinu

Schéma překladu v TectoMT a bloky morfologická rovina analytická rovina tectogramatická rovina a- rovina m- rovina w- rovina t- rovina tokenizace lemmatizace tagger (Morče) parser (McDonald's MST) analytické funkce označení funkčních slov stavba t-stromu (kontrakce hran) formémygramatémy HMT M varianty ze slovníků morfologické kategorie gramatická shoda přidání funkčních slov vygenerován í slovních tvarů linearizac e pravidlové statistické segmentac e ANALÝZATRANSFER SYNTÉZA zdrojový jazyk (angličtina) cílový jazyk (čeština)

Ukázka překladu – Analýza Machine translation should be easy. machine translation should be easy. NN NN MD VB JJ. vstupní text m-rovina a-rovina Atr machine Sb translation Pred should Obj be AuxK. Pnom easy

Machine translation should be easy. machine translation should be easy. NN NN MD VB JJ. Atr machine Sb translation Obj be AuxK. Pnom easy Označení funkčních slov (a interpunkce) Pred should Ukázka překladu – Analýza vstupní text m-rovina a-rovina

Machine translation should be easy. machine translation should be easy. NN NN MD VB JJ. Atr machine Sb translation Obj be AuxK. Pnom easy Označení hran ke kontrakci Pred should Ukázka překladu – Analýza vstupní text m-rovina a-rovina

Machine translation should be easy. machine translation should be easy. NN NN MD VB JJ. machine translation be easy Stavba t-stromu (jen základ) Ukázka překladu – Analýza vstupní text m-rovina a-rovina

Machine translation should be easy. machine translation should be easy. NN NN MD VB JJ. machine translationeasy n:attrn:subj v:fin adj:compl Vyplnění formémů be Ukázka překladu – Analýza vstupní text m-rovina a-rovina

Machine translation should be easy. machine translation should be easy. NN NN MD VB JJ. machine translationeasy n:attrn:subj v:fin adj:compl Vyplnění gramatémů tense = simultaneous, modalita,... number = singular degcmp = positive be Ukázka překladu – Analýza vstupní text m-rovina a-rovina

Ukázka překladu – Transfer zdrojová t-rovina machine translation be easy n:attr n:subj v:fin adj:compl Stavba cílového t-stromu (klonováním) cílová t-rovina machine translation be easy n:attr n:subj v:fin adj:compl

machine translation be easy n:attr n:subj v:fin adj:compl Vyplnění překladových variant lemmat a formémů počítač stroj strojový překlad převod snadný jednoduchý n:2 n:attr adj:attr n:1 v:fin v:inf adj:compl n:1 adv: být mít Ukázka překladu – Transfer zdrojová t-rovina cílová t-rovina

machine translation be easy n:attr n:subj v:fin adj:compl Výběr optimální kombinace lemmat a formémů počítač stroj strojový překlad převod snadný jednoduchý n:2 n:attr adj:attr n:1 v:fin v:inf adj:compl n:1 adv: být mít Ukázka překladu – Transfer zdrojová t-rovina cílová t-rovina

Ukázka překladu – Syntéza Stavba cílové a-roviny (klonováním) strojový překlad snadný adj:attr n:1 v:fin adj:compl být strojový překlad snadný být cílová t-rovina cílová a-rovina

Některé morfologické kategorie podle gramatémů a formémů strojový překlad snadný adj:attr n:1 v:fin adj:compl být strojový překlad snadný být number = singular gender = masc. inanim. case = nominative degcmp = positive Ukázka překladu – Syntéza cílová t-rovina cílová a-rovina

Shoda (vztažná a přivlast. zájemena, podmět-přísudek, přívlastek, doplněk) strojový překlad snadný adj:attr n:1 v:fin adj:compl být strojový překlad snadný být target a-rovina number = singular gender = masc. inanim. case = nominative number = singular case = nominative gender = masc. inanim. degcmp = positive number = singular case = nominative gender = masc. inanim. number = singular gender = masc. inanim. Ukázka překladu – Syntéza cílová a-rovina cílová t-rovina

Přidání funkčních slov (a interpunkce) strojový překlad snadný adj:attr n:1 v:fin adj:compl být strojový překlad snadný mít být by. Ukázka překladu – Syntéza cílová a-rovina cílová t-rovina

Přerovnání klitik (Wackernagel) strojový překlad snadný adj:attr n:1 v:fin adj:compl být strojový překlad snadný mít být by. Ukázka překladu – Syntéza cílová a-rovina cílová t-rovina

Vygenerování slovních tvarů strojový překlad snadný adj:attr n:1 v:fin adj:compl být strojový překlad snadný měl být by. Ukázka překladu – Syntéza cílová a-rovina cílová t-rovina

Linearizace (zřetězení slov) strojový překlad snadný adj:attr n:1 v:fin adj:compl být strojový překlad snadný měl být by Strojový překlad by měl být snadný.. Ukázka překladu – Syntéza cílová a-rovina cílová t-rovina

Ukázka překladu – Skutečný scénář SEnglishW_to_SEnglishM:: Tokenization Normalize_forms Fix_tokenization TagMorce Fix_mtags Lemmatize_mtree SEnglishM_to_SEnglishN:: Stanford_named_entities Distinguish_personal_names SEnglishM_to_SEnglishA:: McD_parser Fill_is_member_from_deprel Fix_tags_after_parse McD_parser REPARSE=1 Fill_is_member_from_deprel Fix_McD_topology Fix_nominal_groups Fix_is_member Fix_atree Fix_multiword_prep_and_conj Fix_dicendi_verbs Fill_afun_AuxCP_Coord Fill_afun SEnglishA_to_SEnglishT:: Mark_edges_to_collapse Mark_edges_to_collapse_neg Build_ttree Fill_is_member Move_aux_from_coord- _to_members Fix_tlemmas Assign_coap_functors Fix_either_or Fix_is_member Mark_clause_heads Mark_passives Assign_functors Mark_infin Mark_relclause_heads Mark_relclause_coref Mark_dsp_root Mark_parentheses Recompute_deepord Assign_nodetype Assign_grammatemes Detect_formeme Rehang_shared_attr Detect_voice Fix_imperatives Fill_is_name_of_person Fill_gender_of_person Add_cor_act Find_text_coref SEnglishT_to_TCzechT:: Clone_ttree Translate_LF_phrases Translate_LF_joint_static Delete_superfluous_tnodes Translate_F_try_rules Translate_F_add_variants Translate_F_rerank Translate_L_try_rules Translate_L_add_variants Translate_LF_numerals_by_rules Translate_L_filter_aspect Transform_passive_constructions Prune_personal_name_variants Remove_unpassivizable_variants Translate_LF_compounds Cut_variants Rehang_to_eff_parents Translate_LF_tree_Viterbi Rehang_to_orig_parents Fix_transfer_choices Translate_L_female_surnames Add_noun_gender Add_relpron_below_rc Change_Cor_to_PersPron Add_PersPron_below_vfin Add_verb_aspect Fix_date_time Fix_grammatemes_after_transfer Fix_negation Move_adjectives_before_nouns Move_genitives_to_postposit Move_relclause_to_postposit Move_dicendi_closer_to_dsp Move_PersPron_next_to_verb Move_enough_before_adj Fix_money Recompute_deepord Find_gram_coref_for_refl_pron Neut_PersPron_gender_from_antec Override_pp_with_phrase_translation Valency_related_rules Fill_clause_number Turn_text_coref_to_gram_coref TCzechT_to_TCzechA:: Clone_atree Distinguish_homonymous_mlemmas Reverse_number_noun_dependency Init_morphcat Fix_possessive_adjectives Mark_subject Impose_pron_z_agr Impose_rel_pron_agr Impose_subjpred_agr Impose_attr_agr Impose_compl_agr Drop_subj_pers_prons Add_prepositions Add_subconjs Add_reflex_particles Add_auxverb_compound_passive Add_auxverb_modal Add_auxverb_compound_future Add_auxverb_conditional Add_auxverb_compound_past Add_clausal_expletive_pronouns Resolve_verbs Project_clause_number Add_parentheses Add_sent_final_punct Add_subord_clause_punct Add_coord_punct Add_apposition_punct Choose_mlemma_for_PersPron Generate_wordforms Move_clitics_to_wackernagel Recompute_ordering Delete_superfluous_prepos Delete_empty_nouns Vocalize_prepositions Capitalize_sent_start Capitalize_named_entities TCzechA_to_TCzechW:: Concatenate_tokens Ascii_quotes Remove_repeated_tokens

Anotace překladových chyb ● vzorek 250 vět, celkem 1463 označených chyb ● Type lemma, formeme, gram., w. order,... ● Subtype gram: gender, person, tense,... ● Seriousness serious, minor ● Circumstancescoordination, named entity, numbers ● Source tok, lem, tagger, parser, tecto, trans, non-iso, syn, ? ANALYSI S 30% SYNTHESIS 3% TRANSFE R 67% chyby způsobené předpokladem Izomorfismu t-stromů 8% ostatní chyby v transferu 59% Detaily viz [Popel,2009].

Novinky v TectoMT – Analýza ● Analýza angličtiny ● Lemmatizace (70krát zrychlena) ● Parsing– pravidlové opravy – oddělený parsing parentezí v závorkách

Parsing parentezí This sentence (excluding the long parenthesis, which was added as an example) is short. Rozdíl: 0,3 bodu BLEU

Novinky v TectoMT – Analýza ● Analýza angličtiny ● Lemmatizace (70krát zrychlena) ● Parsing– pravidlové opravy – oddělený parsing parentezí v závorkách ● Analytické funkce (pravidlový blok, chybí manuál) ● I do AuxV not Neg want to AuxV make up AuxV an AuxA example. to want make want to ?

Novinky v TectoMT – Analýza ● Analýza angličtiny ● Lemmatizace (70krát zrychlena) ● Parsing– pravidlové opravy – oddělený parsing parentezí v závorkách ● Analytické funkce (pravidlový blok, chybí manuál) ● Budování t-roviny – vydělena jazykově nezávislá část ● Pojmenované entity ve zvláštním stromě ● Rozpoznávání ženských a mužských jmen ● Koreference

Novinky v TectoMT - Transfer ● nové slovníky (Maximum Entropy) ● Hidden Markov Tree Models (HMTM) ● časté fráze (neizomorfní t-stromy), např. – take place → konat_se, proběhnout – prime minister → premiér ● přechylování ženských příjmení ● pravidla pro slovesný vid, číslovky,...

Novinky v TectoMT - Syntéza ● Upraveno dělení věty na klauze, vkládání interpunkce, přesun klitik ● Přidán morfologický model (trénován na SYNu) – nalezení slovního tvaru pro dané lemma s daným omezením na tag – některé pozice tagu po překladu neznáme, netřeba je specifikovat, vybere se nejčastější tvar ● Potíže s morfologií omezeny, byť ne zcela

Slovníky - MaxEnt ● Slovník natrénován na paralelním korpusu CzEng pomocí metody Maximum Entropy ● Pro slovník lemmat použit kontext (features): ● pro daný uzel a jeho rodiče: tlemma, formeme, voice, negation, tense, number, degcmp, sempos, short_sempos, person, is_capitalized ● pro daný uzel: position (před/za rodičem), is_member, tag, has_left_child, has_right_child, prev_node_tlemma, next_node_tlemma, child_formem_*, child_tlemma_*, determiner (a/the)

Slovníky – Nové rozhraní ● obecné – totéž rozhraní pro lemmata i formémy ● $dict->get_translations($input_label, $features) ● vrátí seznam překladových variant včetně pravděpodobnosti ● Slovníky jsou objekty, v konstruktoru lze zadat jeden či více jiných slovníků – hierachie ● Základní typy slovníků: ● data ze souboru, „lemma → lemma“ ● data ze souboru, „lemma,features → lemma“ ● překlady odvozeny dynamicky, vstupní slovník ● kombinace více vstupních slovníků Statický Kontextový Derivační Kombinačn í

Slovníky – Hierarchie (lemmata) MaxEnt (CzEng) Static (CzEng) Human Backoff

Slovníky – Hierarchie (lemmata) MaxEnt (CzEng) Static (CzEng) Human Interpolated 0,8 0,1

Slovníky – Hierarchie (lemmata) MaxEnt (CzEng) Static (CzEng) Human Prefixes Interpolated multi-core → více-jádrový více-jádro multi-jádrový multi-jádro

Slovníky – Hierarchie (lemmata) MaxEnt (CzEng) Static (CzEng) Human Deadjectival_adverb s Nouns_to_adjective s Prefixes Interpolated water → voda → vodový vodní deaf → hluchý → hluše necitlivý → necitlivě

Slovníky – Hierarchie (lemmata) MaxEnt (CzEng) Static (CzEng) Human Deadjectival_adverb s Nouns_to_adjective s Prefixes Interpolated high-water → vodový → vysoko- vodový vodní → vysoko-vodní Hyphen_compounds

Slovníky – Hierarchie (lemmata) MaxEnt (CzEng) Static (CzEng) Human Deverbal_adjective s Deadjectival_adverb s Nouns_to_adjective s Verbs_to_nouns Numbers Hyphen_compounds Prefixes Suffixes TransliterateBackoff Interpolated

machine translation be easy n:attr n:subj v:fin adj:compl Výběr optimální kombinace lemmat a formémů počítač stroj strojový překlad převod snadný jednoduchý n:2 n:attr adj:attr n:1 v:fin v:inf adj:compl n:1 adv: být mít HMTM – Motivace cílová t-rovina zdrojová t-rovina

machine be easy n:attr v:fin adj:compl počítač| n:2, počítač| n:attr, strojový|adj:attr,... překlad| n:1, převod| n:1 být|v:fin, být|v:inf, mít|v:fin, mít|v:inf snadný|adj:compl, jednoduchý|adj:compl,... Výběr optimální kombinace lemmat a formémů HMTM – Motivace cílová t-rovina zdrojová t-rovina translation n:subj

HMTM - Teorie ● HMTM zavedl [Crouse,1998], používáno pro signal processing segmentaci obrazu apod., viz [Durand,2004]. ● (V,E) – zakořeněný strom ● X – sekvence náhodných proměnných (skryté stavy vrcholů V) ● Y – sekvence náhodných proměnných (viditelné symboly) ● P(X v | X rodič(v) ) – přechodová pravděpodobnost (transition prob.) ● P(Y v | X v ) – emisní pravděpodobnost (emission prob.) ● Stromová Markovova vlastnost (podmínka nezávislosti): ∀ v ∈ V \ {kořen}, ∀ w ∈ V \ podstrom(v) : P(X podstrom(v) | X rodič(v), X w ) = P(X podstrom(v) | X rodič(v) ) ● Známe-li Y, můžeme najít nejpravděpodobnější sekvenci skrytých stavů pomocí stromového Viterbiho algoritmu.

HMTM – v překladu machineengine translationarcade behave easysimple strojový překlad být snadný ROOT P E (strojový | engine) = 0.5 P E (strojový | machine) = 0.4 P E (překlad | translation) = 0.6 P E (překlad | arcade) = 0.7 1× P T (machine | translation) = × × P E (být | be) = 0.8 P E (být | have) = × Source tree (Czech) Target tree (English) ANALYSIS TRANSFER SYNTHESIS ROOT Source sentence: Strojový překlad by měl být snadný. Target sentence: Machine translation should be easy. P E (source | target) … emission probabilities … translation model P T (dependent | governing) … transition probabilities … target-language tree model P(optimal_tree) = P E (strojový | machine) · P T (machine | translation)· P E (překlad | translation) · P T (translation | be)· P E (snadný | easy) · P T (easy | be)· P E (být | be) · P T (be | ROOT)

Výsledky – WMT (BLEU) TectoMT: Rok BLEU 2008 WMT 6, WMT 7, zaří 10, leden 10, únor 11, WMT 12,6

TectoMT před 3 lety

TectoMT před 3 lety a dnes SRC: A Turkish girl has died from bird flu, days after her brother and sister died from the disease. 2007: Turecká dívka zemřela z ptačí chřipky dny after, že její bratr a sestra zemřeli z nemoci. 2010: Turecká dívka zemřela ptačí chřipkou, dny, ona, bratr a sestra zemřela nemocí. SRC: The latest victim, Hulya Kocyigit, died early on Friday at the hospital. 2007: Nejpozdnější oběť Kocyigit Hulya zemřela brzy v pátku v nemocnici. 2010: Poslední oběť Hulya Kocyigit zemřela brzy v pátek v nemocnici.

Ukázky překladu ● Birds of a feather flock together. ● Great talkers are little doers. ● As good be an addled egg as an idle bird. ● A miss by an inch is a miss by a mile. ● I’d rather be a hammer than a nail. ● A bird in the hand is worth two in the bush. ● Bread is the staff of life. ● I’ll come a bit later on my own. ● Ptáci v bederním hejnu spolu. ● Velcí řečníci jsou malí vrazi. ● Dobré je feťácké vejce jako činný pták. ● Slečna palec je slečna miliónu. ● Spíše bych byl kladivo než nehet. ● Pták v ruce je cenný dvakrát v Bushovi. ● Chléb je zaměstnanec života. ● Sem čelist ještě na své milé.

Literatura ● TectoMT: ● [Popel,2009] Martin Popel: Ways to Improve the Quality of English-Czech Machine Translation. Master’s thesis, ÚFAL, MFF UK, Prague, ● [Crouse,1998] Matthew Crouse, Robert Nowak, and Richard Baraniuk: Wavelet-Based Statistical Signal Processing Using Hidden Markov Models. IEEE Transactions on Signal Processing, 46(4):886– ● [Durand,2004] Jean-Baptiste Durand, Paulo Gonçalvès, Yann Guédon: Computational Methods for Hidden Markov Tree Models – An Application to Wavelet Trees IEEE Transactions on Signal Processing, 2004.