Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.

Podobné prezentace


Prezentace na téma: "JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha."— Transkript prezentace:

1 JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha

2 CÍLE ČINNOSTI  trvalé a kontinuální mapování vývoje jazyka jako základu lidské komunikace a nositele naprosté většiny sdělovaných informací  získávání a technické zpracování jazykových dat pro potřeby základního i aplikovaného výzkumu a vývoje v oblasti lingvistiky a dalších oborů  zveřejňování zpracovaných jazykových dat pomocí strukturovaných souborů (korpusů) odrážejících co nejvěrněji jednotlivé stavy jazyka a umožňujících co nejvšestrannější přístup k informacím  vývoj a zdokonalování nástrojů pro zpracování, analýzu a zpřístupňování korpusových dat

3 ZAPOJENÍ INFRASTRUKTURY  zapojení do projektu CLARIN zaměřeného na budování celoevropské infrastruktury výzkumu a vývoje v oblasti jazykových technologií a zdrojů  spolupráce s domácími specializovanými pracovišti (Ústav formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav teoretické a komputační lingvistiky FF UK aj.)  spolupráce s obdobnými infrastrukturními pracovišti v zahraničí (zejména University of Birmingham; Jazykovedný ústav Ľ. Štúra SAV; Österreichische Akademie der Wissenschaften; Institut für Deutsche Sprache Mannheim; Filologická fakulta Státní univerzity St. Petěrburg; Matematický a komputační institut, Lotyšská univerzita Riga aj.)

4 VÝSLEDKY ČINNOSTI  synchronní korpusy zachycující soudobou češtinu psanou i mluvenou  diachronní korpusy zachycující češtinu psaných textů v historickém vývoji od konce 13. stol.  paralelní korpusy v současné době zachycující češtinu v překladových paralelách s 19 jazyky

5 KONKRÉTNÍ VÝSTUPY (v rámci výzkumných záměrů MŠMT)  synchronní korpusy psaného jazyka SYN2000, SYN2005, SYN2006pub (publicistické texty) zachycující češtinu po roce 1989 a poskytující uživatelům bezplatný přístup k datům o celkovém rozsahu přes 500 milionů slov.  diachronní korpus (kontinuálně budovaný, zpřístupněna data o rozsahu 1 700 000 slov)  mluvený korpus (kontinuálně budovaný, zpřístupněna data o rozsahu 2 000 000 slov)  paralelní korpusy (kontinuálně budované, současný celkový rozsah 20 000 000 slov) Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp

6 KONKRÉTNÍ VÝSTUPY (v rámci výzkumných záměrů MŠMT)  Monografie a studie vzniklé na základě vybudovaných korpusů publikované mj. ve dvou edičních řadách Nakladatelství Lidové noviny (vydáno 7 svazků).

7 APLIKACE  Frekvenční slovník češtiny (Nakladatelství Lidové noviny 2004)  Frekvenční slovník mluvené češtiny (Karolinum, Univerzita Karlova 2007)  Slovník Karla Čapka (Nakladatelství Lidové noviny 2007)

8 SOUČASNÉ VYUŽITÍ S korpusy jako základními výsledky činnosti infrastruktury v současné době pracuje  přibližně 1700 registrovaných domácích uživatelů (lingvistů, literárních vědců a studentů filologických oborů, kulturologů, historiků, překladatelů, neurologů, redaktorů, právníků aj.)  přibližně 300 registrovaných zahraničních bohemistů a lingvistů, včetně studentů slavistických oborů

9 PERSPEKTIVNÍ VYUŽITÍ  vznik dvoudílné Mluvnice současné češtiny na korpusovém základě (Ústav Českého národního korpusu ve spolupráci s Ústavem formální a aplikované lingvistiky MFF UK; plánované vydání 2009)  vznik nového slovníku a akademické mluvnice češtiny na korpusovém základě (plánováno v Ústavu pro jazyk český AV ČR)  v delším časovém výhledu vznik překladových slovníků nového typu (na základě reálných překladových ekvivalentů identifikovaných v paralelních korpusech)

10 PLÁNOVANÉ APLIKACE  Regulace jazyka a koncept minimální intervence (V. Cvrček, Nakladatelství Lidové noviny 2008)  Statistiky češtiny (F. Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T. Bartoň, Nakladatelství Lidové noviny 2009)  Valence abstraktních substantiv (A. Čermáková, Nakladatelství Lidové noviny 2009)  Slovník Bohumila Hrabala (kolektiv ÚČNK, Nakladatelství Lidové noviny 2009)  Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství Lidové noviny 2009)  Paralelní korpusy. Parallel corpora (kolektiv ÚČNK, Nakladatelství Lidové noviny 2010)  Slovník jazyka totality (kolektiv ÚČNK, Nakladatelství Lidové noviny 2010)  Česká korpusová lingvistika: současný stav (kolektiv ÚČNK, Nakladatelství Lidové noviny 2011)


Stáhnout ppt "JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha."

Podobné prezentace


Reklamy Google