Překlad do hindštiny pro začátečníky Daniel Zeman Ondřej Bojar, Pavel Straňák ÚFAL MFF, Univerzita Karlova, Praha Granty MSM 0021620838, EU FP6-IST-5-034291-STP.

Slides:



Advertisements
Podobné prezentace
CZ.1.07/1.4.00/ "Učíme se moderně" Digitální učební materiál zpracovaný v rámci projektu Šablona:III/2 Inovace a zkvalitnění výuky prostřednictvím.
Advertisements

Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie.
Výukový materiál zpracovaný v rámci projektu EU peníze školám Registrační číslo projektu:CZ.1.07/1.4.00/ Šablona:III/2 Inovace a zkvalitnění výuky.
Období vzniku: duben _inovace_FG.9.48 Autor : Vladimír TesaříkČlověk a svět práce, finanční gramotnost, nové auto.
Základní škola a Mateřská škola Dobrá Voda u Českých Budějovic, Na Vyhlídce 6, Dobrá Voda u Českých Budějovic EU PENÍZE ŠKOLÁM Zlepšení podmínek.
Elektronické učební materiály - II. stupeň Digitální technologie 9 Autor: Bc. Pavel Šiktanc Movie Maker uložení a sdílení filmů Co se všechno naučíme???
VZNIK PRACOVNÍHO POM Ě RU Název školy: Základní škola Karla Klíče Hostinné Autor: Mgr. Helena Baculáková Název: VY_32_INOVACE_01_B_08_VZNIK PRACOVNÍHO.
1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
Elektronické učební materiály - II. stupeň Informatika – aplikace informačních technologií Autor: Bc. Pavel Šiktanc Internetové stránky Co se všechno naučíme???
Základní škola a mateřská škola Lázně Kynžvart Autor: Mgr. Petra Šandová Název: VY_32_INOVACE_5B_INF3_16_ Téma: pro 4.,5.ročník ZŠ, vytvořeno:
Seminář o stavebním spoření
Testování hypotéz Testování hypotéz o rozdílu průměrů
ADOBE DREAMWEAVER CS6 Formátování HTML vs. CSS
Základní škola Ústí nad Labem, Anežky České 702/17, příspěvková organizace   Číslo projektu: CZ.1.07/1.4.00/ Název projektu: „Učíme lépe a moderněji“
Bohumil Havel MoodleMoot.cz 2016
Digitální učební materiál zpracovaný v rámci projektu
Název školy: ZŠ Varnsdorf, Edisonova 2821, okres Děčín, příspěvková organizace Člověk a svět práce, Finanční gramotnost, Mzda Autor: Pavla Lukešová.
Odborný výcvik ve 3. tisíciletí
NÁZEV ŠKOLY: Základní škola Hostouň, okres Domažlice,
Vysoká škola technická a ekonomická v Českých Budějovicích Ústav podnikové strategie Firemní kultura zahraniční společnosti na území ČR Autor bakalářské.
Základní škola Děčín VI, Na Stráni 879/2 – příspěvková organizace
ČÍSLO PROJEKTU CZ.1.07/1.5.00/ ČÍSLO MATERIÁLU 1 – Množiny – teorie
Testování hypotéz Testování hypotéz o rozdílu průměrů
Výkon, účinnost VY_32_INOVACE_11_218
Digitální učební materiál zpracovaný v rámci projektu
Jméno autora Mgr. Stanislava Junková Datum vytvoření leden 2013 Ročník
Číslo projektu CZ.1.07/1.4.00/ Název sady materiálů
Inf Tabulkový procesor - formátování
Digitální učební materiál zpracovaný v rámci projektu
SIMULAČNÍ MODELY.
Dan Zeman (Statistický parser na analytické rovině)
Název školy: ZŠ a MŠ Unkovice, příspěvková organizace
III/2 Inovace a zkvalitnění výuky prostřednictvím ICT
Poměr v základním tvaru.
Základní škola Ústí nad Labem, Anežky České 702/17, příspěvková organizace   Číslo projektu: CZ.1.07/1.4.00/ Název projektu: „Učíme lépe a moderněji“
Základy zpracování geologických dat testování statistických hypotéz
ENVIROMENTÁLNÍ VÝCHOVA EKOSYSTÉM – les a pole
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu VY_32_INOVACE_21-18
Kvadratické nerovnice
Věcné učení Bezpečné chování ve škole, při hrách, výletech, koupání
ZÁKLADNÍ ŠKOLA, JIČÍN, HUSOVA 170 Číslo projektu
VYBER SPRÁVNÉ PŘÍSLOVÍ
Maturity 2017/2018 listopad 2017 L. Jíša.
Realizace Vnitřních grantů 2015
Základní škola Ústí nad Labem, Anežky České 702/17, příspěvková organizace   Číslo projektu: CZ.1.07/1.4.00/ Název projektu: „Učíme lépe a moderněji“
Tato práce je šířena pod licencí CC BY-SA 3
Odborný výcvik ve 3. tisíciletí
PŘIJÍMACÍ ŘÍZENÍ NA STŘEDNÍ ŠKOLY PRO ŠKOLNÍ ROK 2018/19
Provozováno Výzkumným ústavem pedagogickým v Praze.
Digitální učební materiál zpracovaný v rámci projektu
Nesrovnalosti v měření imisí a rozptylových modelech
Teorie chyb a vyrovnávací počet 1
NÁZEV: VY_32_INOVACE_04_14_M9_Hanak
JEDNOTNÉ PŘIJÍMACÍ ZKOUŠKY V ROCE 2018
Moudra s květinou.
Základní škola Ústí nad Labem, Anežky České 702/17, příspěvková organizace   Číslo projektu: CZ.1.07/1.4.00/ Název projektu: „Učíme lépe a moderněji“
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_35_ČJ4
PŘEDZKOUŠKOVÁ PREZENTACE
Poměr v základním tvaru.
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_264_ČJ
Cílové skupiny Studenti Farníci Rodiče Řeholníci Katolíci
Teorie chyb a vyrovnávací počet 1
ROZBOR VĚTY JEDNODUCHÉ
První pomoc.
Informatika – Základní operace s buňkami
Autor: Mgr. Vladimíra Dvořáková
Pořádek slov v české větě
Příklady - opakování Auto se pohybovalo 3 hodiny stálou rychlostí 80 km/h, poté 2 hodiny rychlostí 100 km/h, pak 30 minut stálo a nakonec 2,5 hodiny rychlostí.
Vzdělávání a příprava na digitální budoucnost z pohledu Statutárního města Liberec Mgr. Šárka Prachařová.
Teorie chyb a vyrovnávací počet 2
Transkript prezentace:

Překlad do hindštiny pro začátečníky Daniel Zeman Ondřej Bojar, Pavel Straňák ÚFAL MFF, Univerzita Karlova, Praha Granty MSM , EU FP6-IST STP

Seminář ÚFAL, Horní Mísečky, NLP Tools Contest Společná úloha: překlad z angličtiny do hindštiny Při konferenci ICON, prosinec 2008, Puné, Indie –ICON je „International…“, ale hodilo by se „Indian…“ –Pořádáno s nadšením, ale velmi amatérsky, zejména co do webu Nakonec se nám podařilo zaregistrovat i trefit do místa konání V létě vyhlášeno, koncem října data, 1. prosince článek (BLUE jsme si počítali sami)

Seminář ÚFAL, Horní Mísečky, D Osoby a obsazení Pavel nás do toho namočil a dodával data Ondra zajistil výcvik Mojžíše Dan předstíral znalost hindštiny NAMOČITEL DODAVATEL PŘEKLADATEL प्रॆद्स्तीरतॆल

Seminář ÚFAL, Horní Mísečky, Osoby a obsazení A další, kteří měli smůlu, že –Mají zajímavý software –Mají indické jméno –Potkali Ondru Mirek Vašek Uméš Ganéš Pradžól Pavel Ondra Dan Dear Bojar Šrí Straňák Šrírám Karthik श्रीराम कर्थिक श्री गनेश प्रजोल उमेश PhilipCharlie Zdeněk & Co. संजीव Noah శ్రీరామ

Seminář ÚFAL, Horní Mísečky, Zúčastněné týmy Univerzita Karlova (Ondra, Dan, Pavel) Dublin City University (Andy Way a Indové) IIIT Hyderabad (Indové) IIT Bombay (Indové) IIT Kharagpur (další Indové) Jen u nás nikdo hindsky neuměl –Statistika se to musela naučit za nás

Seminář ÚFAL, Horní Mísečky, Něco o hindštině Indoevropský jazyk –tj. vzdáleně příbuzný češtině (v některých slovech víc než třeba angličtina) –Ale spousta slov i z perštiny a arabštiny Nápadná podobnost –čísla: 1 एक ék 2 दो dó 3 तीन tín 4 चार čár 5 पांच pánč 6 छह čhah 7 सात sát 8 आठ áth 9 नौ nau 10 दस das –dveře = दरवाज़ा darvázá –piju = पितो pitó –padat = पदन padana

Seminář ÚFAL, Horní Mísečky, Něco o hindštině Prý volný slovosled, ale zjevně míň než v češtině SOV jazyk: –„Ráma Móhana vidí.“ Sloveso je vždy na konci –Často spona / pomocné sloveso být: है (hai) = „je“ … hodně častý konec věty Postpozice (záložky) místo předložek

Seminář ÚFAL, Horní Mísečky, Něco o hindštině Tradiční systém pádů (vibhakti) Skutečné pády 2 (nominativ a oblique) Zbytek tvořen záložkami –Záložky dříve přilepené ke slovu, tj. pádové koncovky Příklad: genitiv –Delhi is the capital of India –दिल्ली भारत का राजधानी है –dillí bhárat k á rádžadhání hai –Dillí Indie genitiv hlavní-město je

Seminář ÚFAL, Horní Mísečky, Strategie Soustředili jsme se na tři okruhy: –Sehnat co nejvíc dat –Sehnat morfologii hindštiny (faktorizovaný překlad) –Udělat něco se slovosledem angličtiny Neplánovaně přibyl ještě čtvrtý: –Vhodné nastavení Mosese

Seminář ÚFAL, Horní Mísečky, Data Paralelní (en-hi) –TIDES (50k trénovacích vět, 1.2M hi slov) –EILMT (7k trénovacích vět, 181k hi slov) –EMILLE (12k vět, 200k en slov) –Daniel Pipes (322 texts, 15k vět, 300k hi slov) –Agriculture (17k en ~ 13k hi slov) Jednojazyčná (hi) –Hindi news web (18M vět, 309M slov) –EMILLE neparalelní (365k odstavců) –Hindská strana paralelních dat, viz výše

Seminář ÚFAL, Horní Mísečky, Testovací data Paralelní (en-hi) –TIDES –EILMT EILMT jsou velmi čistá data, specializovaná doména (turistika, hodně pojmenovaných entit) TIDES jsou sice několikrát větší, ale se šumem

Seminář ÚFAL, Horní Mísečky, Vliv přídavných dat Přídavná paralelní data pomáhají –Testovací data: EILMT –Trénovací & dev data: EILMT18,88 ± 2,05 EILMT+TIDES19,27 ± 2,22 EILMT+TIDES+20k web vět20,07 ± 2,21

Seminář ÚFAL, Horní Mísečky, Vliv přídavných dat Větší hindský jazykový model nepomáhá –Testovací data: EILMT –Paralelní trénovací data: EILMT + TIDES + 20k web vět –Trénovací data pro jazykový model: EILMT + web (>300M slov):18,82 ± 2,13 EILMT (181k slov):20,07 ± 2,21 –Mimo doménu –Nekompatibilní tokenizace?

Seminář ÚFAL, Horní Mísečky, Co jsme s daty nestihli Pavlův seznam pojmenovaných entit z Wikipedie –Přidali jsme do trénovacích dat, ale nemáme vyhodnoceno Hindská Wikipedie –Jen jednojazyčná data –Dan má staženo, jakž takž vyčištěno –Tokenizace zavařila TectoMT: 20k souborů, některé jen 1 věta, některé desetitisíce slov –Nutné rozpoznávání jazyků (angličtina, maráthí, nepálí, sanskrtská poezie )

Seminář ÚFAL, Horní Mísečky, Co jsme s daty nestihli Hindská Bible, Bhagávadgíta aj. –Sice mimo doménu, ale paralelní Navíc velmi dobré párování vět –Problém s překódováním z exotických webových kódování („fontů“) Paralelní EMILLE –Hunalign nebyl schopen spárovat (neodpovídají si záhlaví souborů) STRAND (Philip Resnik, Noah Smith) –Hledá pomocí webového vyhledávače dvojice paralelních stránek

Seminář ÚFAL, Horní Mísečky, Nastavení Mosese Heuristika pro symetrizaci párování: grow-diag- final-and (GDFA) –4× víc extrahovaných frází než GDF –Rozdíl v BLEU skóre 5 bodů! (tabulka)

Seminář ÚFAL, Horní Mísečky, Symetrizace párování Model IBM (Giza++) umí navrhnout párování 1:N –Funkce může vrátit stejnou hodnotu pro různé vstupy, ale pro jeden vstup vrátí jen jednu hodnotu Potřebujeme párování M:N

Seminář ÚFAL, Horní Mísečky, Symetrizace: „grow“

Seminář ÚFAL, Horní Mísečky, Symetrizace párování

Seminář ÚFAL, Horní Mísečky, Symetrizace párování Grow-diag: –Nespárované slovo –Párovací bod v sousedství existujícího –Párovací bod je ve sjednocení obou párování: přidat Final-and: –Dvojice dosud nespárovaných slov –Párovací bod je ve sjednocení: přidat Co je final(-non-and)? –Možná stačí, aby jen jedno slovo bylo nespárované (anglické nebo hindské)

Seminář ÚFAL, Horní Mísečky, Heuristika pro párování EILMTall grow-diag-final13,82 ± 1,4614,67 ± 1,46 grow-diag-final-and18,88 ± 2,0520,07 ± 2,21

Seminář ÚFAL, Horní Mísečky, Heuristika pro párování: cs-en CS to ENEN to CS grow-diag-final17,37 ± 0,4614,40 ± 0,88 grow-diag-final-and17,67 ± 0,4414,50 ± 0,87

Seminář ÚFAL, Horní Mísečky, Nastavení Mosese Párování pomocí prvních 4 znaků (“light stemming”) –pomáhá ve spojení s GDF (nevýznamně) –nepomáhá s GDFA (nevýznamně) MERT vyvažování překladového modelu, jazykového modelu a dalších rysů –(tohle Indové do oficiálního baseline nezahrnuli)

Seminář ÚFAL, Horní Mísečky, Pravidla pro úpravu slovosledu Přesunout určitá slovesa na konec věty (ale ne přes interpunkci, “that”, WH-slova). Z předložek udělat záložky Tady se uplatnilo TectoMT –označkovat angličtinu Morčetem –rozebrat McDonaldovým MST parserem –na analytickou rovinu pustit přeskládávací blok

Seminář ÚFAL, Horní Mísečky, Příklad přeskládané věty Technology is the most obvious part : the telecommunications revolution is far more pervasive and spreading more rapidly than the telegraph or telephone did in their time. Technology the most obvious part is : the telecommunications revolution far more pervasive is and spreading more rapidly than the telegraph or telephone their time in did.

Seminář ÚFAL, Horní Mísečky, Neřízené sekání kmene a koncovky Faktory v Mosesovi –Lemma + tag: ale nemáme hindský tagger –Kmen + koncovka: neřízené učení morfémů –Danův nástroj z Morpho Challenge 2007, 2008

Seminář ÚFAL, Horní Mísečky, Základní myšlenka Předpoklad: jen 2 morfémy: kmen+koncovka –Koncovka může být prázdná Všechna možná dělení všech slov –(na kmen a koncovku) Vzor = soubor koncovek viděných se stejným kmenem –V širším smyslu vzor = sada koncovek + sada kmenů, které k nim patří

Seminář ÚFAL, Horní Mísečky, Filtrování vzorů Odstranit vzor, jestliže: –Má víc koncovek než kmenů –Všechny koncovky začínají stejným písmenem –Obsahuje pouze jednu koncovku Sloučit vzory A a B, jestliže: –B je podmnožinou A –A je jedinou nadmnožinou B

Seminář ÚFAL, Horní Mísečky, Příklady vzorů (en) Koncovky: e, ed, es, ing, ion, ions, or Kmeny: calibrat, decimat, equivocat, … Koncovky: e, ed, es, ing, ion, or, ors Kmeny: aerat, authenticat, disseminat, … Koncovky: 0, d, r, r’s, rs, s Kmeny: analyze, chain-smoke, collide, …

Seminář ÚFAL, Horní Mísečky, Příklady vzorů (hi) Koncovky: 0, ा, े, ों Kmeny: अहात, खांच, घुटन, चढाव, … Koncovky: 0, ं, ंगे, गा Kmeny: कराए, दर्शाए, फेंके, बदले, … Koncovky: 0, ि, ियां, ियों Kmeny: अनुभूत, अभिव्यक्त, …

Seminář ÚFAL, Horní Mísečky, Příklady vzorů (hi) Koncovky: 0, á, é, ón Kmeny: ahát, khánč, ghutan, čadáv, … Koncovky: 0, n, ngé, gá Kmeny: karáé, daršáé, fénké, badalé, … Koncovky: 0, i, iján, ijón Kmeny: anubhút, abhivjakt, …

Seminář ÚFAL, Horní Mísečky, Výstup trénování Seznam vzorů Seznam známých kmenů Seznam známých koncovek Seznam dvojic kmen-koncovka viděných spolu Jak tohle využít k segmentaci slova?

Seminář ÚFAL, Horní Mísečky, Morfematická segmentace Zkusit všechna možná dělení slova 1. Kmen i koncovka jsou známé a dovolené dohromady 2. Kmen i koncovka jsou známé, ale ne pohromadě 3. Kmen je známý 4. Koncovka je známá 5. Obojí je neznámé Používáme 4 (nejdelší známá koncovka)

Seminář ÚFAL, Horní Mísečky, Vyhodnocení Zatím pouze BLEU score, počítal si ho každý tým sám Údajně se pracuje i na ručním vyhodnocení, výsledky zatím neznámé

Seminář ÚFAL, Horní Mísečky, Vliv našeho předzpracování

Seminář ÚFAL, Horní Mísečky, Ostatní dle shrnutí (EILMT) TýmBaselineNejlepší BLUE Hajdarábád0,20180,2260 Praha0,18880,2101 Kharagpur0,16490,1873 Mumbaí0,14500,1751 Dublin0,16350,1741

Seminář ÚFAL, Horní Mísečky, Ostatní dle jejich článků Hajdarábád –Má ve svém článku maximální BLUE 0,1998 (?!), v prezentaci už mají 0,2260 –Odstraňování nepohodlných frází. (Možná i automatické – tečky za větou.) –Změna slovosledu angličtiny (Libinův dep parser) –Zkoušeli faktorizovaný překlad s POS taggerem –Anglicko-hindský slovník na neznámá slova

Seminář ÚFAL, Horní Mísečky, Ostatní dle jejich článků Kharagpur –Soustředili se na slovník (uvádějí i BLEU-1) Přidali slovník do frázové tabulky –Faktorizovaný překlad –Uvádějí vyhodnocení pouze na TIDES (ta horší data) Mumbaí –Taky uvádějí jiné číslo (0,1601) –Změna slovosledu pomocí Stanfordského parseru

Seminář ÚFAL, Horní Mísečky, Ostatní dle jejich článků Dublin –Použili svůj systém Matrex, což je nějaká nadstavba Mosese –Statistická transliterace neznámých slov

Seminář ÚFAL, Horní Mísečky, Shrnutí Relativně slibné výsledky –S naprostým minimem znalostí o hindštině –S málo jazykovými zdroji (jen malý paralelní korpus) –Ve velmi krátkém čase (pár týdnů v listopadu) Ale –Jistá protekce při vylaďování Mosese –Je to BLUE score, subjektivní verdikt může být jiný Závěr: vytahujme se, dokud je čas

Seminář ÚFAL, Horní Mísečky, Co dál? Dodělat s daty to, co jsme minule nestihli (párování EMILLE, Wiki, Bible, STRAND) Slovník a transliterace na neznámá slova Zkontrolovat tokenizaci a normalizaci Přidat pořádnou morfologii / tagger Lepší práce se slovosledem (X ké Y) Hierarchický překlad (Joshua, Ašíš) Najmout Gaurava na analýzu chyb