JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha
CÍLE ČINNOSTI trvalé a kontinuální mapování vývoje jazyka jako základu lidské komunikace a nositele naprosté většiny sdělovaných informací získávání a technické zpracování jazykových dat pro potřeby základního i aplikovaného výzkumu a vývoje v oblasti lingvistiky a dalších oborů zveřejňování zpracovaných jazykových dat pomocí strukturovaných souborů (korpusů) odrážejících co nejvěrněji jednotlivé stavy jazyka a umožňujících co nejvšestrannější přístup k informacím vývoj a zdokonalování nástrojů pro zpracování, analýzu a zpřístupňování korpusových dat
ZAPOJENÍ INFRASTRUKTURY zapojení do projektu CLARIN zaměřeného na budování celoevropské infrastruktury výzkumu a vývoje v oblasti jazykových technologií a zdrojů spolupráce s domácími specializovanými pracovišti (Ústav formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav teoretické a komputační lingvistiky FF UK aj.) spolupráce s obdobnými infrastrukturními pracovišti v zahraničí (zejména University of Birmingham; Jazykovedný ústav Ľ. Štúra SAV; Österreichische Akademie der Wissenschaften; Institut für Deutsche Sprache Mannheim; Filologická fakulta Státní univerzity St. Petěrburg; Matematický a komputační institut, Lotyšská univerzita Riga aj.)
VÝSLEDKY ČINNOSTI synchronní korpusy zachycující soudobou češtinu psanou i mluvenou diachronní korpusy zachycující češtinu psaných textů v historickém vývoji od konce 13. stol. paralelní korpusy v současné době zachycující češtinu v překladových paralelách s 19 jazyky
KONKRÉTNÍ VÝSTUPY (v rámci výzkumných záměrů MŠMT) synchronní korpusy psaného jazyka SYN2000, SYN2005, SYN2006pub (publicistické texty) zachycující češtinu po roce 1989 a poskytující uživatelům bezplatný přístup k datům o celkovém rozsahu přes 500 milionů slov. diachronní korpus (kontinuálně budovaný, zpřístupněna data o rozsahu slov) mluvený korpus (kontinuálně budovaný, zpřístupněna data o rozsahu slov) paralelní korpusy (kontinuálně budované, současný celkový rozsah slov) Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp
KONKRÉTNÍ VÝSTUPY (v rámci výzkumných záměrů MŠMT) Monografie a studie vzniklé na základě vybudovaných korpusů publikované mj. ve dvou edičních řadách Nakladatelství Lidové noviny (vydáno 7 svazků).
APLIKACE Frekvenční slovník češtiny (Nakladatelství Lidové noviny 2004) Frekvenční slovník mluvené češtiny (Karolinum, Univerzita Karlova 2007) Slovník Karla Čapka (Nakladatelství Lidové noviny 2007)
SOUČASNÉ VYUŽITÍ S korpusy jako základními výsledky činnosti infrastruktury v současné době pracuje přibližně 1700 registrovaných domácích uživatelů (lingvistů, literárních vědců a studentů filologických oborů, kulturologů, historiků, překladatelů, neurologů, redaktorů, právníků aj.) přibližně 300 registrovaných zahraničních bohemistů a lingvistů, včetně studentů slavistických oborů
PERSPEKTIVNÍ VYUŽITÍ vznik dvoudílné Mluvnice současné češtiny na korpusovém základě (Ústav Českého národního korpusu ve spolupráci s Ústavem formální a aplikované lingvistiky MFF UK; plánované vydání 2009) vznik nového slovníku a akademické mluvnice češtiny na korpusovém základě (plánováno v Ústavu pro jazyk český AV ČR) v delším časovém výhledu vznik překladových slovníků nového typu (na základě reálných překladových ekvivalentů identifikovaných v paralelních korpusech)
PLÁNOVANÉ APLIKACE Regulace jazyka a koncept minimální intervence (V. Cvrček, Nakladatelství Lidové noviny 2008) Statistiky češtiny (F. Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T. Bartoň, Nakladatelství Lidové noviny 2009) Valence abstraktních substantiv (A. Čermáková, Nakladatelství Lidové noviny 2009) Slovník Bohumila Hrabala (kolektiv ÚČNK, Nakladatelství Lidové noviny 2009) Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství Lidové noviny 2009) Paralelní korpusy. Parallel corpora (kolektiv ÚČNK, Nakladatelství Lidové noviny 2010) Slovník jazyka totality (kolektiv ÚČNK, Nakladatelství Lidové noviny 2010) Česká korpusová lingvistika: současný stav (kolektiv ÚČNK, Nakladatelství Lidové noviny 2011)