Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

TectoMT Zdeněk Žabokrtský. Osnova 1.Základní vlastnosti TectoMT 2.Novinky v TectoMT 3.TectoMT jako investiční fond 4.Statistiky ze zákulisí 5.Cíle pro.

Podobné prezentace


Prezentace na téma: "TectoMT Zdeněk Žabokrtský. Osnova 1.Základní vlastnosti TectoMT 2.Novinky v TectoMT 3.TectoMT jako investiční fond 4.Statistiky ze zákulisí 5.Cíle pro."— Transkript prezentace:

1 TectoMT Zdeněk Žabokrtský

2 Osnova 1.Základní vlastnosti TectoMT 2.Novinky v TectoMT 3.TectoMT jako investiční fond 4.Statistiky ze zákulisí 5.Cíle pro rok 2010

3 (1) Základní vlastnosti TectoMT

4 What is TectoMT? TectoMT is … a highly modular extendable NLP software system composed of numerous (mostly previously existing) NLP tools integrated into a uniform infrastructure aimed at (not limited to) developing MT system TectoMT is not … a specific method of MT (even if some approaches can profit from its existence more than others) an end-user application (even if releasing of single-purpose stand-alone applications is possible and technically supported)

5 Design decisions Linux + Perl set of well-defined, linguistically relevant layers of language representation neutral w.r.t. chosen methodology ("rules vs. statistics") accent on modularity: translation scenario as a sequence of translation blocks (modules corresponding to individual NLP subtasks) reusability substitutability source language target language MT triangle: interlingua tectogram. surf.synt. morpho. raw text.

6 MT triangle Illustration: analysis-transfer-synthesis in TectoMT She has never laughed in her new boss's office.Nikdy se nesmála v úřadu svého nového šéfa.

7 (2) Novinky v TectoMT

8 WWW rozhraní k TectoMT vytvořil Michal Novák

9 Vývoj kvality překladu uzávěrka překladové soutěže při WMT'10 na dohled… BLEU v posledních pěti týdnech

10 Nedávná zlepšení důsledné ověřování změn překladu (zlepšení/"zlepšení") vyřešení řady "banalit" tokenizace, uvozovky... nový překladový slovník/model vyladění vah překladového a jazykového modelu (parallel hillclimbing) bugfix v morfologické syntéze pojmenované entity

11 Překladový model pro t-lemmata překladový slovník + odhady pravděpodobností 1. řešení (2006) – pravděpodobnostní slovník Jana Cuřína z PCEDT 2. řešení (2007) – ad-hoc mix slovníku z PCEDT se slovníkem extrahovaným z CzEngu 0.5 a s lidským slovníkem z webu 3. řešení (2009) – slovník Jana Rouše 4. řešení (2009-2010) – pokus o systematickou kombinaci několika modelů

12 Nová soustava překlad. modelů „statický“ překladový model vyextrahovaný z párů t-uzlů v CzEng 0.9 psti aproximované relativní četností, 100 tis. hesel P(T|S) = C(T,S) / C(*|S) „dynamický“ překladový model natrénovaný na CzEng 0.9 psti aproximované maxentovým klasifikátorem, 14 tis. hesel P(T|S) = 1/Z. exp(w.f) „člověčí“ slovník psti aproximované unigramovým jazykovým modelem z ČNK 50 tis. hesel derivační překladové modely využití znalosti slovotvorby: (cut  snížit)  snížení kombinované překladové modely Interpolace backoff

13 Hidden Tree Markov Model nejvýznamnější jednotlivá příčina zlepšení tektopřekladu za rok 2009 implementoval Martin Popel

14 Kombinace překl. systémů 1. překlad věty více systémy systém 1: A B C D systém 2: E B F G H 2. alignment hypotéz A B C D E B F G H 3. vytvoření lattice 4. nalezení optimálního průchodu skrz lattice START A E B C FG D END H

15 (3) Investujte do TectoMT

16 TectoMT jako podílový fond (metafora, nebude řeč o penězích) TectoMT je společná iniciativa, nikoli jeden konkrétní projekt krytý jedním konkrétním grantem  TectoMT je závislé vnějších "investorech" investoři: programátoři, šéfové grantů náklady programátorská práce výnosy ušetřená práce  rychlejší vývoj další výhody plynoucí ze sdíleného vývoje budoucí výnosy: publikované články/data atd.

17 Investování v kostce něco za něco, na vyspělém volném trhu neexistuje oběd zadarmo, nikdy jeden z příkladů: obecný tradeoff výnos/riziko (výnost/investiční horizont) existují různé třídy aktiv s různou kolísavostí depozita - nízké riziko, nízký výnos dluhopisy - střední riziko, střední výnos akcie - vysoké riziko, vysoký výnos

18 Jak investovat s TectoMT? "depozita" - nízký výnos, nízké riziko náklady: naučte se využívat NLP nástroje dostupné v repozitáři výnosy: ušetříte si práci investiční horizont: dny až týdny "dluhopisy" - střední výnos, střední riziko náklady: přemístěte vývoj vašich nástrojů do repozitáře TectoMT výnosy: klasické výhody plynoucí ze sdílení "dluhopisový kupón": budoucí spoluautorství investiční horizont: měsíce "akcie" - vysoký potenciální výnos, vysoké riziko náklady: přidejte se k vývoji překladu přes t-rovinu dřina, dřina, dřina... výnosy: pokud pobijeme Google Translate (sami nebo v kombinaci) investiční horizont: měsíce až roky

19 Diverzifikace lze se nějakou kombinací aktiv dostat "nad diagonálu"? jedna z možností: diverzifikace množinou aktiv s nízkou korelací (H.M.Markowitz, Nobelova cena za ekonomii 1990); diverzifikace v TectoMT: vedle tektopřekladu také integrace NLP nástrojů, podpora anotačních projektů, vydávání korpusů, Companion... "z nouze cnost": investice do tektopřekladu je ve skutečnosti daleko riskantnější, než se zdálo v roce 2005 riziko budoucího krachu TectoMT je diverzifikací snížené, ale nenulové všechno může jednou převálcovat třeba "konekcionistické NLP" budoucnost Perlu ?

20 (4) Ze zákulisí

21 Statistiky z repozitáře SVN vývoj TectoMT probíhá v repozitáři verzovacího systému Subversion veškeré jednotlivé příspěvky ("commity") jsou tedy zaznamenány (autor, čas, změněné soubory...) sledované období: březen 2007 - leden 2009

22 graf 1: celkový počet příspěvků jednotlivých vývojářů graf 2: počet "aktivních měsíců" alespoň 10 příspěvků za měsíc Příspěvky jednotlivých vývojářů

23 Aktivita v průběhu týdne (Po-Ne)

24 Aktivita během dne (0.-23. hod.)

25 Aktivita za celou historie repozitáře modrá - počet commitů za měsíc vyhlazeno průměrováním s dvěma sousedními měsíci normalizace na interval 0-100% mezi maximem a minimem

26 Aktivita za celou historii repozitářů modrá - počet commitů za měsíc vyhlazeno průměrováním s dvěma sousedními měsíci normalizace na interval 0-100% mezi maximem a minimem červená - průměrná teplota v daném měsíci v Austrálii korelace: 0,63

27 Aktivita za celou historii repozitářů modrá - počet commitů za měsíc vyhlazeno průměrováním s dvěma sousedními měsíci normalizace na interval 0-100% mezi maximem a minimem červená - průměrná měsíční teplota v Austrálii WMT'08 WMT'09 Marathon diplomky Compan. WMT'10

28 (5) Cíle pro rok 2010

29 Hlavní cíle 1.pobít tektopřekladem Google Translate 2.zajistit světový mír

30 Dodělat drobné resty dokumentace vyčištění pml schématu úklid nepoužívaných/zastaralých bloků refaktoring některých knihoven TectoMT pro neprogramátory (web) optimalizace na pamět a rychlost dotáhnout zkombinování s jiným překladovým systémem zapojit TectoMT víc do výuky

31 Potenciál pro zlepšení tektopřekladu překladový model pro slovesné diateze (...je věděn...) koreference (např. kvůli reflexivitě) Conditional Random Field místo MaxEnt+HMTM milióny drobností...

32 Velký třesk (1) jednorázové významné změny v designu, v historii TectoMT asi pátý :-) některé změny povedou k přerušení zpětné kombatibility - poslední příležitost před přechodem na CPAN kompletně odstínit práci s ídéčky usnadnit přidávání dalších jazyků datové struktury i bloky parametrizovatelné jazykem umožnit více paralelních alternativ (spíš kvůli kombinování než kvůli rerankingu n-best)

33 Velký třesk (2) zrušení m-roviny (resp. sloučení s a-rovinou) výrazné zjednodušení struktur (mj.odpadnou backpointery) úspora paměti/času/plochy v tredu... dotažení automatické instalace (stahování modelů z části share, kompilace jinojazyčných komponent...) přechod na tredí extension (místo tredu nakonfigurovaného z příkazové řádky) překopání adresářové struktury (mj. kvůli extension)

34 Rebranding rebranding = změna (obchodní) značky TectoMT má v praxi nežádoucí asociace: "TectoMT mě nezajímá, protože nepracuju s tektogramatikou." "TectoMT mě nezajímá, protože nedělám překlad." TectoMT  Treex ?

35 TectoMT goes to CPAN (1) s kůží na open-source trh... CPAN = Comprehensive Perl Archive Network "The gateway to all things in Perl" všeobecně uznávané uložiště, de facto standard až po velkém třesku a rebrandingu potenciál na zvýšení počtu uživatelů TectoMT nejméně o řád... tedy pokud se vše povede :-)

36 "přechod na euro": zvýší se tlak na kvalitu kódu / otestovanost / přehlednou strukturu / existenci dokumentace / stabilitu / releasing... neduživé ostrůvky NLP nástrojů už na CPANu nějakou dobu existují...... ale žádný reálný perlový konkurent GATE (NLP v Javě) tam zatím nevyrostl: šance pro nás! TectoMT goes to CPAN (2)


Stáhnout ppt "TectoMT Zdeněk Žabokrtský. Osnova 1.Základní vlastnosti TectoMT 2.Novinky v TectoMT 3.TectoMT jako investiční fond 4.Statistiky ze zákulisí 5.Cíle pro."

Podobné prezentace


Reklamy Google