Dan Zeman (Statistický parser na analytické rovině) MUSSLAP (s Vaškem Klimešem a týmem z Plzně) letos končí Převod morfologických značek z jedné sady do jiné (poster LREC, námět na pizzový seminář) Neřízená segmentace slov na morfémy (za chvíli tady a za dva dny v Århusu)
Dan Zeman हिन्दी Statistický frázový strojový překlad z angličtiny do hindštiny (s Ondrou Bojarem a Pavlem Straňákem účast v soutěži, zatím hlavně sháníme data) Podán návrh na GAČR na 3 roky: strojový překlad mezi angličtinou, němčinou, španělštinou a češtinou, jádrem by měl být frázový překladač Moses (rozhodnutí v listopadu) Výuka: Počítačové zpracování přirozeného jazyka (+ ČVUT) „Špinavá“ (= nevědecká) práce: správa databáze adres lidí a ústavů, se kterými komunikujeme (PBML, korpusy, vánoční přání…) nově i podíl na správě publikačního systému Biblio (s Pavlem Straňákem, Petrem Homolou a lidmi z KSI)
Václav Klimeš – TBLa2t Hlavní a trvalý zájem: vývoj automatického tektogramatického analyzátoru (TBLa2t) V poslední době: převedení TBLa2t do TectoMT mnoho technické práce (vč. úpravy sdíleného kódu) opravy metody a koncepční vylepšení (díky Silvě) přetrénování (angličtina nyní na větších datech) u angličtiny zlepšení u některých atributů až o 1.5 % V plánu: natrénovat na datech, jejichž nižší roviny vznikly zcela strojově (nesnadné kvůli slučování těchto dat s golden-standard daty)
Václav Klimeš – nový plán Automatická kontrola anglické tektoanotace: myšlenka: stejné části vět by měly být anotovány stejně – netriviální implementace, nutno rozhodnout: „stejné“: co zahrnout do porovnávání? „části vět“: obecně to není pravda, tedy které? myšlenka úspěšně využita už pro tvorbu některých automatických kontrol při přípravě dat PDT 2.0 možná rozšíření (podle originální práce zabývající se kontrolou morfologického značkování angličtiny): automatické rozhodnutí, která anotace je správně automatická detekce případů, v nichž lze učinit rozhodnutí uvedené výše