Moses M. Fabianová, A. Štromajerová, M. Vaněk. Osnova 1.Trocha historie 2.Co je to Moses? 3.V čem je Moses jiný/lepší než ostatní SMT překladače? 4.Využití,

Slides:



Advertisements
Podobné prezentace
Stránka 1, © Vema, a. s.. Stránka 2, © Vema, a. s. Podnikové aplikace  Integrovaný podnikový systém (Integrated Business System):  komplex aplikací.
Advertisements

Digitální učební materiál naleznete v on-line verzi na...
Použito z webu TICK.CZ Determinanty (členy a/the/-) dávají se k podstatným jménům doplňují, “určují” jeho význam a/an, the, (-) Členy my, your, his, her,...
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
Představujeme službu Samepage
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Second Conditional – tvar a použití
Téma:Předpřítomný čas – vyjádření délky trvání Vypracovala: Mgr. Blanka Ročkárová.
© 2007 Cisco Systems, Inc. All rights reserved.Cisco Public ITE PC v4.0 Chapter 1 1 Operating Systems Networking for Home and Small Businesses – Chapter.
Přítomný čas PRŮBĚHOVÝ Učební materiál vznikl v rámci projektu INFORMACE – INSPIRACE – INOVACE, který je spolufinancován Evropským sociálním fondem a státním.
Systémy pro podporu managementu 2
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Relative Clauses Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Romana Petrová. Dostupné z Metodického portálu ISSN: 
Označení materiálu: VY_32_INOVACE_KASPE_ANGLICTINA1_03 Název materiálu: Zájmena Tematická oblast: Angličtina 1. ročník – strojírenské obory Anotace: Zájmena.
Jméno autora: Mgr. Olga Bayerlová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_05_AJ1G Ročník: I. Anglický jazyk Vzdělávací oblast: Jazyk a jazyková.
Third Conditional – tvar a použití
Základní škola Jakuba Jana Ryby Rožmitál pod Třemšínem Efektivní výuka pro rozvoj potenciálu žáka projekt v rámci Operačního programu VZDĚLÁVÁNÍ PRO KONKURENCESCHOPNOST.
GIS??? Ve státní správě Karel Charvát. GIS?????? Je správné používat v souvislosti s využíváním prostorových informací ve státní správě, ale i v komerčním.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Registrační číslo projektu:CZ.1.07/1.5.00/ Šablona/číslo materiálu:III/2 VY_32_INOVACE_ANJ449 Jméno autora:Mgr. Soňa Nekvindová Třída/ročník1. ročník.
* Obecně lze říci, že software je programové vybavení počítače např.: * BIOS * Operační systém * Aplikace * Ovladače * Je software důležitý? * Zatímco.
Reported speech – nepřímá řeč Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Romana Petrová. Dostupné z Metodického portálu
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
Microsoft Dynamics CRM
ČLENY PODSTATNÝCH JMEN člen neurčitý člen určitý Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Radek Dlouhý Základní škola Kolín III.,
Označení materiálu: VY_32_INOVACE_KASPE_ANGLICTINA2_09
Obchodní akademie a Střední odborná škola, gen. F. Fajtla, Louny, p.o. Osvoboditelů 380, Louny Číslo projektu CZ.1.07/1.5.00/ Číslo sady 04Číslo.
Označení materiálu: VY_32_INOVACE_KASPE_ANGLICTINA1_02
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_04_AJ_CM Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Hana Syrovátková Tento materiál byl vytvořen v rámci projektu Operačního programu.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Označení materiálu: VY_32_INOVACE_KASPE_ANGLICTINA1_18
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Označení materiálu: VY_32_INOVACE_KASPE_ANGLICTINA2_07
So, such, (a) few, (a) little Nominal Subject Clauses Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Romana Petrová. Dostupné z Metodického.
Výukový materiál zpracován v rámci projektu EU peníze školám Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona:III/2č. materiálu:VY_32_INOVACE_49.
MorČe morfologické značkování češtiny
 Birth :13 March 1880 in Semín Austria- Hungary  Death :10 September 1945 in Jičín Czechoslovakia  Work : architect, university lecturer.
Aktivní škola - podpora, zlepšení kvality vzdělávání a výuky na základní škole Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem.
Revision test Relative clauses.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Second conditional – tvar a použití Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Romana Petrová. Dostupné z Metodického portálu
Název školy: ZÁKLADNÍ ŠKOLA SADSKÁ Autor: Mgr. Věra Tománková Název DUM: VY_32_Inovace_ Since, for Název sady: Project 3 Číslo projektu: CZ.1.07/1.4.00/
Datum: Projekt: Kvalitní výuka Registrační číslo: CZ.1.07/1.5.00/ Číslo DUM: VY_22_INOVACE_56 Jméno autora: Mgr. Barbora Studena Název.
AUTOR : Mgr. Alena Bartoňková NÁZEV : VY_32_INOVACE_13_08_A7_Bartonkova TÉMA : Složeniny some – thing, body OBSAH : Složeniny some – thing, body ČÍSLO.
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
ČESKÝ STATISTICKÝ ÚŘAD Na padesátém 81, Praha 10 Dlouhodobý vývoj zahraničního obchodu České republiky V Praze, dne 6. října 2008.
Gymnázium, Brno, Elgartova 3 GE - Vyšší kvalita výuky CZ.1.07/1.5.00/ III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Téma: English Grammar.
Gymnázium, Brno, Elgartova 3 GE - Vyšší kvalita výuky CZ.1.07/1.5.00/ III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Téma: English Grammar.
CZECH STATISTICAL OFFICE Na padesátém 81, CZ Praha 10, Czech Republic STATISTIKA CIZINCŮ V REGIONECH ČR Tisková konference ČSÚ 11.
Číslo projektuCZ.1.07/1.5.00/ Název projektuModerní škola Název školyStřední hotelová škola, s.r.o., Floriánské nám. 350, Kladno PředmětAnglický.
Ukládání dat biodiverzity a jejich vizualizace
Operační Systém Operační systém je v informatice základní programové vybavení počítače (tj. software), které je zavedeno do paměti počítače při jeho.
OPERAČNÍ SYSTÉMY Číslo projektu CZ.1.07/1.5.00/ Název školy
Internet - historie.
Jméno autora: Mgr. Jiří Kala Škola: ZŠ Náklo Datum vytvoření (období):
Autor: Mgr. Renata Václavíčková
Název školy: Základní škola speciální Litvínov, Šafaříkova 991
ZÁKLADNÍ ŠKOLA SLOVAN, KROMĚŘÍŽ, PŘÍSPĚVKOVÁ ORGANIZACE
NÁZEV ŠKOLY: ZŠ Dolní Benešov, přísp.organizace
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Radka Černá Název materiálu: VY_32_INOVACE_5_ANGLICKY_JAZYK_GRAMATIKA_03.
VY_32_INOVACE_Spo_III 11 Text: U6B Kids
Název školy: ZŠ Varnsdorf, Edisonova 2821, okres Děčín, příspěvková organizace Jazyk a jazyková komunikace, Anglický jazyk, Minulý čas prostý a průběhový.
Business intelligence shapes security
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
Time prepositions Anotace: Materiál je určen pro žáky
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
Datum: Projekt: Kvalitní výuka Registrační číslo: CZ.1.07/1.5.00/
Possessive adjectives
Transkript prezentace:

Moses M. Fabianová, A. Štromajerová, M. Vaněk

Osnova 1.Trocha historie 2.Co je to Moses? 3.V čem je Moses jiný/lepší než ostatní SMT překladače? 4.Využití, příklady, srovnání

Trocha historie 50. létaprvní systémy založené na pravidlech 1966ALPAC => snížení grantů na výzkum SP 80. létaprvní komerční systémy 90. létafrázový překlad prudký vzestup strojového překladu 2006představení projektu Moses

Co je to Moses?

Moses = nejstarší a nejrozšířenější open-source systém pro statistický strojový překlad -umožňuje automatickou přípravu překladových modelů pro jakoukoliv dvojici jazyků -flexibilní Co je potřeba? -sbírka překladů (paralelní korpus) ==> efektivní vyhledávací algoritmus najde nejpravděpodobnější překlad požadovaného textu mezi exponenciálním počtem dostupných možností

Rozšíření -Vývoj: University of Edinburgh (+ Itálie, ČR (UK v Praze),...) návštěv webových stránek/měsíc a.akademické využití - strojový překlad - výzkum - vyhodnocování kampaní b.komerční využití - úprava podle požadavků uživatele a následný prodej - společnosti zajišťující jazykové služby

Moses umožňuje -dva typy překladů: a) TREE-BASED = model založený na syntaktických stromech b) PHRASE-BASED (frázový překlad) = překlad celých sekvencí slov -možnost budovat vlastní překladové systémy na základě systému Moses -plná kontrola nad procesem překladu

Online demo Poznatky: - překlad chvíli trvá - poměrně nepřesné (čeština) - mělo by fungovat lépe pro: angličtina, španělština, němčina, čínština

V čem je Moses jiný/lepší než ostatní SMT překladače?

Open source/Free software ●většina předchozích systémů SMT proprietární/s restriktivními licencemi ●proprietární software ○nespravedlivý ○„černá skříňka“ (black box) ○neprospěšný celé komunitě ○nemožné jej dále zkoumat, rozvíjet, vylepšovat ●svobodný software ○dostupný pro všechny ○bez nutnosti vymýšlet něco, co již bylo vymyšleno ●Moses je svobodný software – distribuován pod licencí LGPL od GNU

Factored translation ●integrování přídavných lingvistických informací do překladového modelu ○morfologie, syntax, sémantika ●na úrovni slov vs. při pre- či post-processingu ●mnoho aspektů překladů záleží na těchto lingvistických informacích – pořadí slov ve větě (syntax), shoda přídavného jména s podstatným jménem (morfologie), apod. ●slovo-token → slovo-vektor faktorů

Confusion network decoding ●confusion networks - vážené orientované grafy (slovo a jeho pravděpodobnost) ●vstup ○SMT systémy obecně - jednoduchá sekvence slov, JEDNA vstupní hypotéza ○Moses - confusion networks, VÍCE vstupních hypotéz ●použití např. při zpracování vstupů ze systémů rozpoznávání řeči, morfologické analýzy, apod.

Efektivní struktura dat ●systémy strojového překladu – velké nároky na hardware ●Moses – načítání dat překladové tabulky ○načtení VŠECH dat do paměti – rychlý překlad, zabere hodně paměti ○načtení ON DEMAND – pomalejší překlad, ale zabere velmi málo paměti ○využití prefixových stromů (rychlejší, potřebují méně paměti) ●Moses - jazykové modely ○nejčastěji používané SRILM ○další: KenLM, IRSTLM, RandLM – menší paměťové nároky než SRILM

Využití, srovnání, příklady

Využití všeobecně - cílem obvykle není vytvořit všeobjímající překladový systém - zaměření zejména na specifické uživatele a domény - možnost natrénování na specifických datech a tím zvýšení úspěšnosti - výsledky Moses slouží jako baseline nové systémy - výzkum financován Evropskou unií => zaměření zejména na evropské jazyky

Komerční yužití - komerční využití Moses – TAUS - hojně využíván jako základ pro reálné překladové systémy - Lets MT, Moses for Mere Mortals – usnadnění vytvoření vlastního MT systému - computer-aided translation - malé paměťové nároky – v budoucnu pro mobilní zařízení?

Srovnání úspěšnosti Moses vs. Google Translate - ve všeobecné doméně u častých jazykových párů zpravidla vítězí GT – výhoda velká databáze - v omezené doméně vítězí Moses – možnost specifického natrénování - Khalilov, Choudhury 2012: čínština–angličtina: Moses lepší než GT (2x vyšší BLEU, GTM +7 %) angličtina–čínština: Moses výrazně lepší než GT (4x vyšší BLEU, GTM +20 %) - Moses-based systém Chimera (ÚFAL) slibuje vyšší úspěšnost než GT

Příklady překladu – kontext Koupili jsme losy a soby.Koupili jsme soby a losy. Na počátku stvořil Bůh nebe a zemi. Bible - Na počátku stvořil Bůh nebe a zemi. Moses: We bought tickets and reindeer.We bought reindeer and elk. At the beginning of the God created the heaven and earth. The Bible - in the beginning God created the heaven and earth.

Srovnání překladu 1 – běžný text Miloš Zeman (* 28. září 1944 Kolín) je český politik, ekonom, prognostik a třetí prezident České republiky. Úřadu se ujal složením slibu dne 8. března Moses: Milos Zeman (* 28 September 1944 Cologne) is the czech politician, economist, expert and the third president of the Czech Republic. He took the oath of office on 8 March Google Translate: Milos Zeman (* 28 September 1944 Cologne) is a Czech politician, economist and forecaster, and the third president of the Czech Republic. Office took the oath of office on 8 March Bing Translator: Miloš Zeman (born September 28, 1944 in Kolín) is a Czech politician, Economist, writer and the third President of the Czech Republic. The Office took the oath the day 8. March 2013.

Srovnání překladu 2 – idiomy Starý mládenec zjistil, že tu něco neklape, a tak z čista jasna vzal nohy na ramena. Moses: The old boy found that something was amiss, and then suddenly took on his shoulders. Google Translate: Bachelor realized that something was amiss, so out of the blue took to his heels. Bing Translator: A Bachelor has found that there's something wrong, and so out of the blue he took her legs on his shoulders.

Srovnání překladu 3 – homonyma Ženu ženu holí. Anička má svačinu a Honzík jí ji jí. Moses: The woman woman with a stick. Annie has a snack and Honzík her her. Google Translate: Woman woman shaves. Annie has a snack and Johnny had it to her. Bing Translator: Woman to woman. Annie has a snack and Habila her her.

Srovnání překladu 4 – robustnost Zapoměl jsem. Je to vyjímka. Vyzkoušela bysis ty šaty? Moses: I forgot. It is an exception. Bysis tried the dress? Google Translate: I forgot. It is the exception. Would you tried the dress? Bing Translator: I forgot. It is the exception. Tried to marry the dress?

KONEC Děkujeme za pozornost.