TectoMT Zdeněk Žabokrtský. Osnova 1.Základní vlastnosti TectoMT 2.Novinky v TectoMT 3.TectoMT jako investiční fond 4.Statistiky ze zákulisí 5.Cíle pro.

Slides:



Advertisements
Podobné prezentace
Shrnutí výhod při použití plukotraku 1.
Advertisements

Target Click Fund Zajištěný investiční program.
Stránka 1, © Vema, a. s.. Stránka 2, © Vema, a. s. Podnikové aplikace  Integrovaný podnikový systém (Integrated Business System):  komplex aplikací.
TEORIE ROZHODOVÁNÍ A TEORIE HER
Schůze společenství vlastníků Bochovská
Ing. Jan Mittner MySQL Workbench 2. Základy práce s databází 3. Subversion 2.
Investiční společnosti a podílové fondy
Zadlužení, inflace, demografie
Vývoj SME segmentu a jeho exportní parametry Ivan Čopák Ř editel pro firemní sektory a nové obchodní příležitosti GE Money Bank.
Elektronické knihy: Tak trochu jiný způsob akvizice Filip Vojtášek Albertina icome Praha 24. akviziční seminář
Zlatá střední cesta aneb Vyvážené investiční řešení
DIGITÁLNÍ UČEBNÍ MATERIÁL Číslo projektuCZ.1.07/1.5.00/ Název projektuEU peníze středním školám Masarykova OA Jičín Název školyMASARYKOVA OBCHODNÍ.
Název školy: Střední průmyslová škola, Ostrava - Vítkovice, příspěvková organizace Autor: Ing. Andrea Modrovská Datum: 1. srpna 2012 Název: VY_62_INOVACE_1.2.4.
OR 2014 Helsinky : zpráva z konference Helena Kováříková Ústřední knihovna ČVUT.
Fondy kolektivního investování Zdroj investic pro nemovitostní trh? Lukáš Vácha.
Univerzita Karlova v Praze PEDAGOGICKÁ FAKULTA Středisko vzdělávací politiky Malátova 17, Praha 5 Tel.:
Mikroekonomie I Investiční rozhodování a podnikání
Barevný svět dluhopisů pro pokročilé Dámský investiční klub České spořitelny Jaromír Zdražil.
Kdy nakoupit a kdy prodat? Časovat či nečasovat investice? Ing. Martin Viktora ředitel úseku podpory prodeje Investiční společnost.
Základní druhy finančních investičních instrumentů
1 Finanční trhy Ostatní informace Petr Krajcigr
5 TIPŮ PRO ÚSPĚŠNÉ INVESTOVÁNÍ. 2 1) Neorientujte se podle zpětného zrcátka ● Minulá výkonnost nezaručuje výkonnost budoucí.
Softwareová architektura
1 Zajištěné investice - jistota má svoji cenu Dámský investiční klub Petr Valenta ředitel odboru řízení produktů finančních trhů ČS.
25/1 Příčina globální krize? Smilovice ‘09 M. Vlček.
Jednoduchá cesta k optimálnímu rozložení investic
Investice Kudy vlastně putují peníze FINANČNÍ GRAMOTNOST.
Transparentní modelování a provádění procesů Michael Juřek Software Architect Microsoft s.r.o.
Plynárenství v evropském kontextu Situace na trhu s plynem ČR Možnosti odběratelů při výběru dodavatele Ing. Vladimír Štěpán, ENA s.r.o. 8. březen 2007.
Operační systém Android
Pohodlí nade vše Využívejte všech služeb při investování Ing. Martin Viktora ředitel úseku podpory prodeje Investiční společnost.
Real Estate Market > Autumn 2006 Komerční nemovitosti a budoucnost výnosů Současný vývoj výnosů na trhu nemovitostí v České republice PRAHA, 5. října 2006.
SEKCE SDRUK PRO IT Souborný katalog SKAT a elektronické informační zdroje z dílny firmy LANius s.r.o. Ing. Jiří Šilha.
GIS??? Ve státní správě Karel Charvát. GIS?????? Je správné používat v souvislosti s využíváním prostorových informací ve státní správě, ale i v komerčním.
Vedoucí odboru strategického rozvoje města Vsetín
Výhody a nevýhody open-source a komerčních SW produktů
Oborová brána TECH tech.jib.cz Seminář „Okna oborů dokořán! Proč a jak využívat oborové brány & jak dál v CPK? “ Praha, NTK PhDr. Lenka Hvězdová.
Emise dluhopisů a snížení základního kapitálu DŮVĚRNÉ PRACOVNÍ VERZE 2013/07/22.
11/2011Přednáška č. 31 Řízení sestaveného modelu Obsah předmětu: Počítačová podpora řízení Předmět : Počítačová podpora řízení K126 POPR Obor : E ZS, 2011,
Veřejné finance a penzijní systémy - klíčová východiska Státem provozovaný penzijní systém ve své stávající podobě je součástí veřejných rozpočtů váhově.
Řízení finančních rizik
Příběh jedné úspěšné akciové investice. 2 ISČS Top Stocks - prezentace pro DIK 14. dubna 2015 Nejdříve trochu teorie...  %výnos = Δ% EPS + Δ% P/E + %
Zkušenosti s nasazením svobodného software při výuce
Řízení finančních rizik Jan Vlachý Vlachý, J.: Řízení finančních rizik; Eupress, Praha, 2006.
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_12_AJ_EP Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
Harry M. Markowitz 126TERI Autoři: Marie Hnojská, Radovan Vnuk.
MorČe morfologické značkování češtiny
Problematika optimalizace portfolia
1/25 Překladový systém TectoMT Zdeněk Žabokrtský ÚFAL MFF UK.
1/29 FI MUNI, 18. května 2011 Strojový překlad s využitím závislostní syntaxe Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
Visual Basic - programování
11 Osobní finance a investování. 2 Osobní finanční plánování Smyslem osobního finančního plánování je ujasnit si: budoucí osobní a rodinné.
Hledisko projektu a investora Výnos a riziko
Eva Tomášková Ukazatel EVA Ekonomické souvislosti právní úpravy obchodních společností 3. přednáška.
Aplikovaná statistika 2.
KDE – Lukáš Tinkl - KDE – desktop pro uživatele i vývojáře Lukáš Tinkl
Statistické metody pro prognostiku Luboš Marek Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze.
J&T LIFE 2025 / 2030 / 2035 Fondy životního cyklu 1.
NÁZEV ŠKOLY: Základní škola Strančice, okres Praha - východ AUTOR: RNDr.Ivana Řehková NÁZEV:VY_32_INOVACE_ R19_Základy investování TEMA: Matematika.
Projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem. FINANČNÍ GRAMOTNOST ZADLUŽOVÁNÍ RODIN Spolek pro obnovu venkova Senát Parlamentu.
Název školy: Základní škola Pomezí, okres Svitavy Autor: Olga Kotvová
Ing. Milan Houška KOSA PEF ČZU v Praze
Kolektivní investování
Transfer learning Jan Hrach
Ekonomie 1 Magistři Čtvrtá přednáška Analýza trhu zápůjčních fondů
Název školy : Základní škola a mateřská škola,
Příklad (investiční projekt)
Vývoj dluhopisů u Nás a v evropě…
Kolektivní investování
Transkript prezentace:

TectoMT Zdeněk Žabokrtský

Osnova 1.Základní vlastnosti TectoMT 2.Novinky v TectoMT 3.TectoMT jako investiční fond 4.Statistiky ze zákulisí 5.Cíle pro rok 2010

(1) Základní vlastnosti TectoMT

What is TectoMT? TectoMT is … a highly modular extendable NLP software system composed of numerous (mostly previously existing) NLP tools integrated into a uniform infrastructure aimed at (not limited to) developing MT system TectoMT is not … a specific method of MT (even if some approaches can profit from its existence more than others) an end-user application (even if releasing of single-purpose stand-alone applications is possible and technically supported)

Design decisions Linux + Perl set of well-defined, linguistically relevant layers of language representation neutral w.r.t. chosen methodology ("rules vs. statistics") accent on modularity: translation scenario as a sequence of translation blocks (modules corresponding to individual NLP subtasks) reusability substitutability source language target language MT triangle: interlingua tectogram. surf.synt. morpho. raw text.

MT triangle Illustration: analysis-transfer-synthesis in TectoMT She has never laughed in her new boss's office.Nikdy se nesmála v úřadu svého nového šéfa.

(2) Novinky v TectoMT

WWW rozhraní k TectoMT vytvořil Michal Novák

Vývoj kvality překladu uzávěrka překladové soutěže při WMT'10 na dohled… BLEU v posledních pěti týdnech

Nedávná zlepšení důsledné ověřování změn překladu (zlepšení/"zlepšení") vyřešení řady "banalit" tokenizace, uvozovky... nový překladový slovník/model vyladění vah překladového a jazykového modelu (parallel hillclimbing) bugfix v morfologické syntéze pojmenované entity

Překladový model pro t-lemmata překladový slovník + odhady pravděpodobností 1. řešení (2006) – pravděpodobnostní slovník Jana Cuřína z PCEDT 2. řešení (2007) – ad-hoc mix slovníku z PCEDT se slovníkem extrahovaným z CzEngu 0.5 a s lidským slovníkem z webu 3. řešení (2009) – slovník Jana Rouše 4. řešení ( ) – pokus o systematickou kombinaci několika modelů

Nová soustava překlad. modelů „statický“ překladový model vyextrahovaný z párů t-uzlů v CzEng 0.9 psti aproximované relativní četností, 100 tis. hesel P(T|S) = C(T,S) / C(*|S) „dynamický“ překladový model natrénovaný na CzEng 0.9 psti aproximované maxentovým klasifikátorem, 14 tis. hesel P(T|S) = 1/Z. exp(w.f) „člověčí“ slovník psti aproximované unigramovým jazykovým modelem z ČNK 50 tis. hesel derivační překladové modely využití znalosti slovotvorby: (cut  snížit)  snížení kombinované překladové modely Interpolace backoff

Hidden Tree Markov Model nejvýznamnější jednotlivá příčina zlepšení tektopřekladu za rok 2009 implementoval Martin Popel

Kombinace překl. systémů 1. překlad věty více systémy systém 1: A B C D systém 2: E B F G H 2. alignment hypotéz A B C D E B F G H 3. vytvoření lattice 4. nalezení optimálního průchodu skrz lattice START A E B C FG D END H

(3) Investujte do TectoMT

TectoMT jako podílový fond (metafora, nebude řeč o penězích) TectoMT je společná iniciativa, nikoli jeden konkrétní projekt krytý jedním konkrétním grantem  TectoMT je závislé vnějších "investorech" investoři: programátoři, šéfové grantů náklady programátorská práce výnosy ušetřená práce  rychlejší vývoj další výhody plynoucí ze sdíleného vývoje budoucí výnosy: publikované články/data atd.

Investování v kostce něco za něco, na vyspělém volném trhu neexistuje oběd zadarmo, nikdy jeden z příkladů: obecný tradeoff výnos/riziko (výnost/investiční horizont) existují různé třídy aktiv s různou kolísavostí depozita - nízké riziko, nízký výnos dluhopisy - střední riziko, střední výnos akcie - vysoké riziko, vysoký výnos

Jak investovat s TectoMT? "depozita" - nízký výnos, nízké riziko náklady: naučte se využívat NLP nástroje dostupné v repozitáři výnosy: ušetříte si práci investiční horizont: dny až týdny "dluhopisy" - střední výnos, střední riziko náklady: přemístěte vývoj vašich nástrojů do repozitáře TectoMT výnosy: klasické výhody plynoucí ze sdílení "dluhopisový kupón": budoucí spoluautorství investiční horizont: měsíce "akcie" - vysoký potenciální výnos, vysoké riziko náklady: přidejte se k vývoji překladu přes t-rovinu dřina, dřina, dřina... výnosy: pokud pobijeme Google Translate (sami nebo v kombinaci) investiční horizont: měsíce až roky

Diverzifikace lze se nějakou kombinací aktiv dostat "nad diagonálu"? jedna z možností: diverzifikace množinou aktiv s nízkou korelací (H.M.Markowitz, Nobelova cena za ekonomii 1990); diverzifikace v TectoMT: vedle tektopřekladu také integrace NLP nástrojů, podpora anotačních projektů, vydávání korpusů, Companion... "z nouze cnost": investice do tektopřekladu je ve skutečnosti daleko riskantnější, než se zdálo v roce 2005 riziko budoucího krachu TectoMT je diverzifikací snížené, ale nenulové všechno může jednou převálcovat třeba "konekcionistické NLP" budoucnost Perlu ?

(4) Ze zákulisí

Statistiky z repozitáře SVN vývoj TectoMT probíhá v repozitáři verzovacího systému Subversion veškeré jednotlivé příspěvky ("commity") jsou tedy zaznamenány (autor, čas, změněné soubory...) sledované období: březen leden 2009

graf 1: celkový počet příspěvků jednotlivých vývojářů graf 2: počet "aktivních měsíců" alespoň 10 příspěvků za měsíc Příspěvky jednotlivých vývojářů

Aktivita v průběhu týdne (Po-Ne)

Aktivita během dne ( hod.)

Aktivita za celou historie repozitáře modrá - počet commitů za měsíc vyhlazeno průměrováním s dvěma sousedními měsíci normalizace na interval 0-100% mezi maximem a minimem

Aktivita za celou historii repozitářů modrá - počet commitů za měsíc vyhlazeno průměrováním s dvěma sousedními měsíci normalizace na interval 0-100% mezi maximem a minimem červená - průměrná teplota v daném měsíci v Austrálii korelace: 0,63

Aktivita za celou historii repozitářů modrá - počet commitů za měsíc vyhlazeno průměrováním s dvěma sousedními měsíci normalizace na interval 0-100% mezi maximem a minimem červená - průměrná měsíční teplota v Austrálii WMT'08 WMT'09 Marathon diplomky Compan. WMT'10

(5) Cíle pro rok 2010

Hlavní cíle 1.pobít tektopřekladem Google Translate 2.zajistit světový mír

Dodělat drobné resty dokumentace vyčištění pml schématu úklid nepoužívaných/zastaralých bloků refaktoring některých knihoven TectoMT pro neprogramátory (web) optimalizace na pamět a rychlost dotáhnout zkombinování s jiným překladovým systémem zapojit TectoMT víc do výuky

Potenciál pro zlepšení tektopřekladu překladový model pro slovesné diateze (...je věděn...) koreference (např. kvůli reflexivitě) Conditional Random Field místo MaxEnt+HMTM milióny drobností...

Velký třesk (1) jednorázové významné změny v designu, v historii TectoMT asi pátý :-) některé změny povedou k přerušení zpětné kombatibility - poslední příležitost před přechodem na CPAN kompletně odstínit práci s ídéčky usnadnit přidávání dalších jazyků datové struktury i bloky parametrizovatelné jazykem umožnit více paralelních alternativ (spíš kvůli kombinování než kvůli rerankingu n-best)

Velký třesk (2) zrušení m-roviny (resp. sloučení s a-rovinou) výrazné zjednodušení struktur (mj.odpadnou backpointery) úspora paměti/času/plochy v tredu... dotažení automatické instalace (stahování modelů z části share, kompilace jinojazyčných komponent...) přechod na tredí extension (místo tredu nakonfigurovaného z příkazové řádky) překopání adresářové struktury (mj. kvůli extension)

Rebranding rebranding = změna (obchodní) značky TectoMT má v praxi nežádoucí asociace: "TectoMT mě nezajímá, protože nepracuju s tektogramatikou." "TectoMT mě nezajímá, protože nedělám překlad." TectoMT  Treex ?

TectoMT goes to CPAN (1) s kůží na open-source trh... CPAN = Comprehensive Perl Archive Network "The gateway to all things in Perl" všeobecně uznávané uložiště, de facto standard až po velkém třesku a rebrandingu potenciál na zvýšení počtu uživatelů TectoMT nejméně o řád... tedy pokud se vše povede :-)

"přechod na euro": zvýší se tlak na kvalitu kódu / otestovanost / přehlednou strukturu / existenci dokumentace / stabilitu / releasing... neduživé ostrůvky NLP nástrojů už na CPANu nějakou dobu existují ale žádný reálný perlový konkurent GATE (NLP v Javě) tam zatím nevyrostl: šance pro nás! TectoMT goes to CPAN (2)