CKL --- Centrum komputační lingvistiky Projekt MŠMT LC536 (LC05) Univerzita Karlova v Praze, ÚFAL MFF Západočeská univerzita Plzeň, KKY FAV Masarykova.

Slides:



Advertisements
Podobné prezentace
Projekty řešené Ústavem mechaniky těles, mechatroniky a biomechaniky Seminář k problematice spolupráce v OP VK
Advertisements

Automatické titulkování živých pořadů České televize – současný stav a výhled do budoucna Luděk Müller Katedra kybernetiky, Fakulta aplikovaných.
doc. Ing. Cyril Klimeš, CSc. vedoucí katedry
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Psaní grantových žádostí
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Připraveno v rámci projektu „Projektové financování vysokých škol“ podpořeného FRVŠ pod číslem 72/2011
Velké infrastruktury pro výzkum, vývoj a inovace
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem ČR. Rozvoj výzkumu a vývoje na Ekonomické fakultě JU CZ.1.07/2.3.00/
KULATÝ STŮL PRO STUDENTY FBI VŠB-TUO “Safety AGENT“ Posilování partnerství v oblasti bezpečnosti průmyslu r.č. CZ.1.07/2.4.00/ , Podnikatelský.
Rektor Zdroj:
PŘÍPRAVA GRANTOVÉHO PROJEKTU prof. RNDr. Jiří Patočka, DrSc.
Mechatronika v okresu Plzeň-sever (a nejen tam) Ing. Jiří Prantner, Klastr Mechatronika o.s., prezident Tel: Mail:
Transfer technologií na Technické univerzitě v Liberci Pavel Němeček.
Centrum praktické výuky FF UHK a SOA Zámrsk pro digitální technologie v archivnictví Petr Grulich Radek Pokorný.
CZ / /0037 Přímá komunikace mezi fakultami a průmyslem – Brána k výzkumu Žadatel: MEDICOMP s.r.o. Partneři: PřF UK Praha, MFF UK Praha,
Úvod do korpusové lingvistiky 8
„ČESKÉ INOVAČNÍ PARTNERSTVÍ“ 1 Spolupráce technických univerzit s podniky = významná podpora inovací Český národní komitét IMEKO Vladimír Haasz.
Další vývoj přiřazování kvalifikací k EQF v České republice Miroslav Kadlec, Praha,
Příprava projektového návrhu Lukáš Straňák, Ostrava 2006.
O fakultě... Fakulta vznikla 1. ledna 1991 rozdělením Fakulty strojní a elektrotechnické na dvě samostatné fakulty. Fakulta elektrotechniky a informatiky.
Výzkum ve FN HK Ing. Karel Antoš, Ph.D. Stáž CEPIN
ZAHÁJENÍ DOKTORSKÝCH STUDIÍ 2011/2012
Spolupráce ČR - Slovinsko v aplikované výpočetní geometrii v rámci projektů Kontakt v l Řešitelé : Doc.dr.ing.Ivana Kolingerová, Západočeská univerzita,
INOVACE 2004 Praha, Příprava předsednictví ČR v programu EUREKA Karel Šperlink Prezident AIP ČR Zástupce ČR v Skupině.
KANCELÁŘ CZELO: PARTNER ČESKÉHO VaVaI V BRUSELU ANNA VOSEČKOVÁ.
Spolupráce s 1. LF UK vývoj webové aplikace Anatonomina 2 Tomáš Skopal KSI MFF UK.
Realtime identifikace osob podle hlasu
5. Prezentace výsledků experimentální práce
HODNOCENÍ VÝZKUMU A VÝVOJE A JEJICH VÝSLEDKŮ V ROCE → Hodnocení VaV.
B ORIS L EHEČKA, ODDĚLENÍ VÝVOJE JAZYKA ÚJČ AV ČR, V. V. I. DALIBORIS. CZ P RAŽSKÉ JARO V O STRAVĚ, 24. BŘEZNA 2015 Nástroje pro badatele (nejen)
Zkušenosti s evropskými infrastrukturními projekty (ESFRI) a spolupráce v rámci ERIC (European research infrastructure consortium) a související komunikace.
Zvýšení vědeckovýzkumného potenciálu pracovníků a studentů technických vysokých škol v oblasti dopravy a nových dopravních technologií Registrační číslo:
CZ / /0020 Podpora týmu NET Genium při rozvoji progresivních informačních technologií Žadatel: NetGenium s.r.o. Partner: ČVUT Kontaktní osoba:
Tato prezentace je spolufinancována z Evropského sociálního fondu a státního rozpočtu České republiky Grantové příležitosti pro Ph.D. studenty Ing. Šárka.
Nástroje daňových úlev

Doktorské studium na AF
Elektrotechnická fakulta ČVUT KATEDRA KYBERNETIKY Vedoucí prof. Ing. Vladimír Mařík, DrSc. KATEDRA KYBERNETIKY ELEKTROTECHNICKÁ.
1 Visegrad, Norské fondy, veřejná výběrová řízení Mgr. Iva Minaříková.
Zápatí prezentace1 Evropské projekty a jejich podpora na ESF MU v roce 2009 Porada vedení fakulty+ vedoucí kateder předkládá: proděkan pro SaR.
CJBB105 Úvod do korpusové lingvistiky
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Elektrotechnická fakulta ČVUT KATEDRA KYBERNETIKY Vedoucí prof. Ing. Vladimír Mařík, DrSc. KATEDRA KYBERNETIKY ELEKTROTECHNICKÁ.
ESPON POLYCE Metropolizace a polycentrický rozvoj ve střední Evropě
ELRC Seminář, Praha, Tomáš Svoboda Jan Hajič Jazyky a jazykové technologie v České republice 1.
Problematika IDS na Dopravní fakultě Jana Pernera Univerzity Pardubice doc. Ing. Pavel Drdla, Ph.D. Univerzita Pardubice, Dopravní fakulta Jana Pernera.
Projekt Podpora přírodovědného a technického vzdělávání v Libereckém kraji PODPORA PŘÍRODOVĚDNÉHO A TECHNICKÉHO VZDĚLÁVÁNÍ V LIBERECKÉM KRAJI Leoš Křeček.
Česko-norský výzkumný program. Uzávěrka přijímání návrhů projektů: 14:00 hod Uzávěrka přijímání návrhů projektů na UTB: (nutno.
Výzkum a vývoj A NĚKTERÉ DALŠÍ SOUVISLOSTI…. Výzkum a vývoj v ČR  Rada vlády pro výzkum, vývoj a inovace  Zákony, týkající se VaV  Informační systém,
Reg. č. projektu: CZ.1.07/2.3.00/ Název projektu: Měření výkonnosti Rozvoj lidských zdrojů v oblasti výzkumu měření a řízení výkonnosti podniků,
1 PODPORA TECHNICKÝCH A PŘÍRODOVĚDNÝCH OBORŮ Radim Chmelík.
Zahájení doktorského studia oborů Řízení a ekonomika podniku Ekonomická informatika
CEITEC – představení centra a možností spolupráce Roman Badík Projektový manažer Brno,
PROFIL FAKULTY Vzdělávací činnost Vědeckovýzkumné aktivity Bc. studium
Program EUPRO II podprogram INTER-INFORM
Ing. Martina Dvořáková ředitelka odboru výzkumu a vývoje MK
NPU I - Průběžné hodnocení 2017:
Fond rozvoje sdružení CESNET
Z historie komise pro historii matematiky a fyziky na MFF UK
Oddělení pro vědu a výzkum, FHS UK Praha
Multimediální podpora výuky klinických oborů RITM a MEFANET: Přehled aktivit a návrh meziuniverzitní spolupráce při vytváření vzdělávací sítě lékařských.
PROFIL FAKULTY Vzdělávací činnost Vědeckovýzkumné aktivity Bc. studium
Vědeckovýzkumný informační systém
Projekt „CzechELib" – informace od realizátora IPs
Doktorské studium na FLD
pracoviště, časopisy, software
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
GaP a správa úvazků.
PROFIL FAKULTY Vzdělávací činnost Vědeckovýzkumné aktivity Bc. studium
Transkript prezentace:

CKL --- Centrum komputační lingvistiky Projekt MŠMT LC536 (LC05) Univerzita Karlova v Praze, ÚFAL MFF Západočeská univerzita Plzeň, KKY FAV Masarykova Univerzita Brno, FI Ústav pro jazyk český AV ČR Praha

, MFF UK2 Závěrečná oponentura Centra komputační lingvistiky MFF UK, Malostranské nám. 25 Refektář a MZ, 1. patro 11:00 – 11:10 Uvítání a představení komise a hostů 11:10 – 11:40 Představení činnosti CKL (J. Hajič) 11:40 – 12:15 Oponentní posudky, vyjádření řešitelů 12:15 – Jednání oponentní rady (uzavřené, MZ) 13:00 (cca) Seznámení příjemce s výsledky (MZ)

, MFF UK3 Projekt Centra Cíl: –integrovat statisticko-matematickou, počítačovou a lingvistickou složku výzkumu –integrovat výzkum mluvené řeči a zpracování jazyka –vytvořit anotovaná data –vytvořit nástroje (významové) analýzy a syntézy –integrovat lexikální zdroje vč. software

, MFF UK4 Kontext vzniku Centra Dříve: Centrum komputační lingvistiky (program MŠMT LN), –UK, ÚJČ, ZČU : Centrum komputační lingvistiky –(opět) základní výzkum, program MŠMT LC05 –k existujícím partnerům (UJ, ZČU, ÚJČ) přibyla Fakulta informatiky MU Brno (Laboratoř NLP)

, MFF UK5 Centrum komputační lingvistiky: personální obsazení Rozpočet a doba řešení –53,6 mil. Kč, (4 roky 9 měs.) –13,0 mil. Kč ,8 mil. Kč 2011 Personální obsazení (2010 [max]): –1 řešitel-koordinátor (prof.) –Dále: 7 řešitelů a garantů (3x prof., 4x doc.) –12 mladých věd. pracovníků (Ph.D.) –23 doktorandů (Mgr., Ing., RNDr.) Celkem 14 obhájilo v době zaměstnání v CKL nebo těsně poté (do března 2012)

, MFF UK6 Pracoviště (1) UK Praha (ÚFAL MFF) –vytváření jazykových dat –teoretický výzkum jazyka i metod zpracování –SW nástroje pro analýzu a syntézu ZČU Plzeň, KKY FAV –analýza a syntéza mluvené řeči, zejm. akustika –tvorba dat (transkripce, anotace)

, MFF UK7 Pracoviště (2) MU Brno, FI, NLP laboratoř –lexikální nástroje lexikální databáze: definice, správa, využití ÚJČ AV ČR, v.v.i. –elektronizace historických lexikálních dat –spolupráce na definici lexikální databáze

, MFF UK8 Koordinace a komunikace Neformální i formální schůzky Rada Centra –Zahraniční členové –Jednou ročně (poslední: jaro 2011) Spolupráce v rámci projektů EU / USA Obhajoby doktorských prací, rigorózní zk.

, MFF UK9 Rok 2005 Zahájení práce v Centru –(Až) překlenutí ze zdrojů instituce –Změna názvu (tradice, návaznost) –Redukovaný rozpočet na cca ¾: 7,0 mil. Kč –Pořízení investic (výpočetní stroje - budoucí výpočetní cluster) - cca 1,7 mil. Kč –Rozdělení studentů a prací mezi projekty –Žádosti o evropský projekt (několik)

, MFF UK10 Rok 2006 První ucelený rok práce –Dokončení projektu PDT 2.0 (UK, vyd. v USA) –Projekt „Rekonstrukce řeči“ (UK, specifikace) –Práce na slovnících (UK, MU) –Mluvená řeč – analýza, syntéza (hl. ZČU) –IR – CLEF testovací kolekce, mez. soutěž, 1. část –Digitalizace hist. zdrojů (ÚJČ) –Spol. mez. projekt EU (IP): UK, ZČU –Další zahr. spolupráce: EU, USA 40 výsledků v RIV

, MFF UK11 Rok 2007 Polovina projektu –Lexikální zdroje (UK, MU + ÚJČ) –Důraz na češtinu i angličtinu (noví pracovníci v týmu) Specifikace anotace, anotační software, anotace dat na všech rovinách (ZČU, UK) –Integrace mluvené řeči a zpracování jazyka (UK, ZČU) –Nástroje pro aut. analýzu a syntézu jazyka Mluvená řeč i psaný jazyk (UK, MU, ZČU) –Pokračování mez. spolupráce EU (3 projekty 6.RP: UK, UK+ZČU), USA (UK, UK+ZČU) –Organizace celosvět. konference ACL – 1000 úč. (UK) 66 výsledků v RIV –(16 čas., 39 sb., 5 SW/data atd.)

, MFF UK12 Rok 2008 Upravené cíle –Lexikální zdroje (MU, UK, ÚJČ) Softwarové lexikální nástroje –Sémantika (rozp. plagiátů: MU), analýza morf., synt., sém. (UK, MU), generování (UK) –Nové algoritmy rozpoznávání řeči Prozodie, jaz. modelování, rekonstrukce řeči –Získávání dalších jazykových dat, korpusové nástroje –Anotace dat a výzkum pro strojový překlad Platforma TectoMT pro strojový překlad –Teoretická formální lingvistika, užití jazyka Výsledky (RIV): 62, 13 čas. čl., 32 sb., 4 knihy, 10 SW aj.

, MFF UK13 Rok 2009 Cíle –Analýza jazyka, teoretické studie (MU, UK) –Lexikální zdroje (MU, ÚJČ, UK) –Algoritmy (anafora) (MU, UK) –Strojový překlad (UK) Zahájení projektu EuroMatrix+ –Adaptace ASR na řečníka (ZČU) –Vyhledávání v audionahrávkách (ZČU) –Tvorba jazykových dat pro další experimenty (UK, ZČU, MU) –Užití jazyka (ÚJČ) Výsledky (RIV): 117 výsledků –11 čl. čas., 86 čl. sb., 4 knihy, 8 software + prototypy, 8 ost.

, MFF UK14 Rok 2010 Cíle –Teoretická analýza jazyka (UK, MU) Diskurs, derivační morfologie –Algoritmy Analýza češtiny a angličtiny, anafora (UK, MU) Dialogové systémy (UK, ZČU) –Akustické modelování, dekódování (ZČU) –Segmentace řeči (ZČU) –Anotace jazykových dat (UK, ZČU) –Lexikální sémantika, tvorba el. slovníků (MU, ÚJČ, UK) –Strojový překlad (UK) –Software pro lexikální databáze (MU) Výsledky (RIV): 131 –18 čl. čas., 65 čl. sb., 4 kap. v knize, 33 software a prototypy, 11 ost.

, MFF UK15 Rok 2011 Cíle (objemově redukované) –Analýza češtiny a angličtiny (MU, UK) –Akustické modelování a dekódování (ZČU) –Jazyková data (UK, MU, ZČU) Dokončení PCEDT (česko-anglický korpus) (UK) Další data (web), anotovaná data (UK, MU) –Lexikální sémantika, tvorba slovníků (UK, MU, ÚJČ) –Teoretická formální lingvistika Nadvětné vztahy (UK) Derivační morfologie (MU, UK) –Strojový překlad (UK) –Softwarové nástroje (UK, MU, ZČU) Výsledky (RIV: 36 – zatím pouze MU), celkem ~65 –Obdobné rozdělení jako v předchozích letech, tj. nejvíce typ D

, MFF UK16 UK v Praze – MFF, ÚFAL Rozvoj PDT 2.0, paralelní korpus (PCEDT) –Formalizace obsahu sdělení (teoret. výzkum + anotace) –teoreticko-empirický výzkum (př.: diskurs) Anotace mluvených dat (rekonstrukce řeči) Nové metody morf. disambiguace, anotace ČNK Generování češtiny, angličtiny z formálního zápisu Dialogové systémy – integrace porozumění jazyku –Výsledky budou využity pro EU IP „Companions“ „Information retrieval“ – data a aut. Zpracování Strojový překlad - nástroje a data

, MFF UK17 ZČU Plzeň – FAV, Kat. kybernetiky Rozpoznávání řeči –Parametrizace signálu –Akustické a jazykové modely Syntéza řeči –Prozodické chrakteristiky (ARTIC) Data-driven (statistické) metody modelování IR (mluvená data) –Vývoj testovací kolekce Spolupráce s UK –(vč. projektů Companions, Malach)

, MFF UK18 MU Brno – FI, Laboratoř zpracování přirozeného jazyka Lexikální nástroje a zdroje (spol. s ÚJČ) –Platforma DEB II Lexikografická stanice Praled, s ÚJČ –Verbalex –WordNet – rozšíření (29 tis. položek) Analýza češtiny –Morfologie (derivace), desambiguace –SYNT (synt. analyzátor), anafora –Sémantické vztahy

, MFF UK19 ÚJČ AV ČR Lexikální zdroje –Vývoj lexikograf. stanice Praled (s MU Brno) –dokončeno 3,500 položek databáze Digitalizace archívu (s UK) –Skenování, „identifikace“ excerpt –cca 4,000,000 celkem (do konce projektu) –Nyní: 1,2 mil. identifikováno

, MFF UK20 Dosažené výsledky Souhrn RIV –306 unikátních (spolupráce – spol. publikace) –Cca 65 za rok 2011 Většina: články ve sbornících konferencí –Obvyklé schéma v oboru komputační lingvistiky workshop (specializované) / konference (obecnější) Některé časopisy (původní, ale spíše souhrnné výsledky) –LNCS, IEEE Transactions, LRE, PBML Software a data: důraz na „open source“

, MFF UK21 Nejcennější výsledky - publikace Články –Semi-supervised POS tagging (EACL 2009) Nejlepší dosud dosažené výsledky i pro angličtinu –Extension of HVS Semantic Parser by Allowing Left-Right Branching (ICASSP 2008) Nový výsledek navazující na práci S. Younga –Large-scale Semantic Networks: Annotation and Evaluation NAACL 2009; výsledek spolupráce s Google Research, švýc. Knihy –Valenční slovník českých sloves (Karolinum) Elektronická verze k dispozici –Knihy – významné disertace (vydáno ÚFAL)

, MFF UK22 Nejcennější výsledky - data Korpusy (jazykové databáze, vydané celosvětově) –Prague Dependency Treebank 2.0, Linguistic Data Consortium 2006 –Czech Wordnet 1.0 (ELRA, 2008) –Sign Language, Audiovisual (ELRA, 2008) –Prague Czech-English Dependency Treebank (LDC 2012) Testovací kolekce –CLEF 2006, 2007 Multilingual cross-langauge search competitions –Machine Translation Open Competition – EuroMatrix/ Czech-English, German, French, Italian, Hungarian, Spanish –CoNLL Shared Task 2007, 2009, koordinace v r Dependency parsing, semantic role labeling (čeština), LDC 2012

, MFF UK23 Nejcennější výsledky - software Software –Korpusový manažer Bonito/Manatee Celosvětové použití: ČNK, SNK; Hu, Hr, GB –Word Sketch Engine Komerční využití, spolupráce s Lexical Computing –ComPOST State-of-the-art POS tagger (Cz, Sk, En,...) –Syntaktický parser „MST“ (čeština) Ve spolupráci s Univ. of Pennsylvania (2005) –TectoMT / TreeX Platforma pro analýzu a syntézu přirozeného jazyka

, MFF UK24 Vliv vzniku Centra na spolupracující organizace Využití účelové podpory –> 3/4 nákladů: osobní náklady –Cestovné, technické zabezpečení –Investice (rok 1 až až 2007) Výpočetní technika, statistické výpočty –Malé doplňkové náklady (režie - do 12%) „nehmotný dopad“ - nejdůležitější: –Vytvoření perspektivních týmů Mgr./Ph.D. studenti

, MFF UK25 Plnění podmínek programu a smlouvy I Zaměstnávání a vedení doktorandů (škol. prac.) –Nyní na všech 4 pracovištích –Podmínka: min. 1 pracoviště → Splněno Účast studentů (Bc./Mgr./Ph.D.) –Celkem prošlo CKL 52 studentů → Splněno –6 národností Uplatnění v komerční sféře –Petr Němec (UK): TextKernel, Hol.; Kiril Ribarov (UK): ČEZ –Jan Romportl, Aleš Pražák: SpeechTech (spinoff, ZČU) –Vladimír Kadlec (MU Brno): Acision (GB) –Petr Pajas (UK): Google Curych, Švýcarsko –Václav Němec (UK): Captaworks, CZ –Býv. CKL (LN): M. Čmejrek, J. Cuřín (UK): IBM Research

, MFF UK26 Plnění podmínek programu a smlouvy II Podmínka: zapojení do evr. výzkumného prostoru 10 projektů EU v 6. a 7. RP –Všechny typy: IP, STREP, NoE; SSA, Dig. Libraries, ESFRI Companions (IP) - ZČU, UK; Khresmoi (IP) – UK; EuroMatrix, EuroMatrixPlus, Faust, META-NET (T4ME) (STREP) – UK Eudat (ESFRI) - UK Clarin (CA/SSA) - UK, MU, ÚJČ; KYOTO (Dig. Libraries) – MU Presemt (MU) USA –Malach (do 2007; UK, ZČU): USC, JHU, IBM, UMD –PIRE: rozpoznávání řeči a strojový překlad (UK, nepřímo ZČU): JHU, Brown Univ. –Treebanking: Univ. of Colorado → Splněno → Splněno

, MFF UK27 Pokračování Formálně – (téměř) žádné –Žádost o grant GAČR (Centra) neúspěšná (stejní partneři) –[Žádost(i) o grant(y) TAČR (CK) neúspěšné, s výj. ZČU – ale to je jiné Centrum, „pokračování“ aplik. Centra 1M „CAK“] –Úspěšná žádost o Centrum GAČR (UK jako partner ČVUT) Některé oblasti pokračují: –Financování RIV body (základní výzkum) –Pokračování přípravy dat – LINDAT-Clarin Všech 4 pracoviště zapojena (nejde o výzkum!) –EU projekty (Khresmoi do 2014, další 2013) Menší granty GAČR (např. PostDoc, GP) Aplikovaný výzkum –MK NAKI (UK + ZČU)

, MFF UK28 EU Project „Companions“ Cíl –Inteligentní společník pro konverzaci nad fotografiemi, „how was your day“ Technologie –Plná ASR, emocionální TTS –Porozumění přirozenému jazyku, generování –Přirozenost dialogu: „user studies“ / „evaluation“ CKL –UK/ZČU: ASR, TTS, NLU, NLG, částečně dialog

Ukázky projektů CKL

, MFF UK30 Významová anotace věty (UK) Některé kontury problému se však po oživení Havlovým projevem zdají být jasnější.

, MFF UK31 PDT 2.0: Anotační vrstvy Příklad: věta „Byl by šel do lesa“ Propojení mezi rovinami Stand-off anotace Schéma (Relax NG) z-layer

, MFF UK32 „Rekonstrukce” řeči (UK, ZČU) „Překlad“ ● „Překlad“ SEM NEMOH SEM TO JIM DÁT TEN VOBRAZ ‘m couldn’t ‘m that them give the paintin’ Ten obraz jsem jim nemohl dát. I could not give them the painting. ? Generation ● Nyní: anotace

, MFF UK33 “Rekonstrukce” řeči Spisovná varianta promluvy –„editované interview“ –Manuální anotace –Automatické nástroje, propojení se syntaxí (v budoucnu)

, MFF UK34 Akustické modelování mezislovního kontextu (ZČU) Využití: Automatické titulkování televizních pořadů (např. zápasů ledního hokeje) v reálném čase

, MFF UK35 Automatický překlad čeština -> znaková řeč: – Znakovaná čeština umělý jazykový systém umělý jazykový systém komunikace mezi slyšícími a neslyšícími komunikace mezi slyšícími a neslyšícími podobná češtině podobná češtině – Český znakový jazyk mateřský a přirozený jazyk neslyšících mateřský a přirozený jazyk neslyšících komunikace mezi neslyšícími navzájem komunikace mezi neslyšícími navzájem odlišná od češtiny: odlišná od češtiny: – simultánnost – např. jeden znak pro „člověk-běží“ – užití prostoru – do prostoru jsou umístěny objekty komunikace, na něž se mluvčí odkazuje – roli intonace zastupuje mimika obličeje – Člověk ovládající znakový jazyk nemusí umět česky (ani rozumět textu)