SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM! Mgr. Lucie Chlumská Univerzita Karlova v Praze 10. 10. 2012 Jihočeská univerzita Available corpora and current projects
Obsah přednášky O projektu Český národní korpus (ČNK) Dostupné korpusy Historie, současnost a plány do budoucna Národní výzkumná infrastruktura Dostupné korpusy Synchronní psané: řada SYN Synchronní mluvené: řada ORAL Diachronní korpus: DIAKORP Paralelní korpus: InterCorp Specializované korpusy & hostování korpusů Nové webové korpusové nástroje Praktická ukázka práce s korpusem
O (Ú)ČNK Ústav Českého národního korpusu, založen v roce 1994 prof. Františkem Čermákem jedna z kateder FF UK hlavním dlouhodobým projektem je ČNK obecné i specializované semináře a přednášky pro studenty i veřejnost (překladatele, učitele apod.) doktorské studium v oboru korpusová lingvistika
O ČNK Cílem ČNK je: http://www.korpus.cz/ dlouhodobě a podrobně mapovat vývoj češtiny, jak historické, tak současné sestavovat a spravovat korpusy a zajišťovat k nim přístup provádět výzkum vytvářet nové, uživatelsky zaměřené korpusové nástroje http://www.korpus.cz/ Informace o ČNK, manuály a přístup ke korpusům
O ČNK ČNK jako národní výzkumná infrastruktura (od roku 2012) bylo schváleno pouze 15 projektů velké infrastruktury ze všech oblastí, ČNK jako vzorový projekt financováno v rámci aktivity Projekty velkých infrastruktur pro VaVaI, MŠMT (LM2011023) cíle: budování korpusů a jejich anotace, hostování korpusů, zajišťování veřejného přístupu, jazykové zdroje (balíčky dat) aplikovaný výzkum však podporován není
Přístup ke korpusům ČNK Přístup ke korpusům je pro všechny uživatele ZDARMA nezbytná elektronická registrace více než 3 000 aktivních registrovaných uživatelů přibližně 1 200 dotazů/den Software: server: Manatee (autor: Pavel Rychlý z MU Brno) klient: Bonito/The Sketch Engine nebo Park v plánu nové rozhraní pro jednojazyčné i vícejazyčné korpusy
Dostupné korpusy ČNK Synchronní korpusy psané češtiny: řada SYN Synchronní korpusy mluvené češtiny: řada ORAL Diachronní korpus (14.–20. století): DIAKORP Paralelní korpus (22 evropských jazyků): InterCorp Malé specializované korpusy (Deaf, Dopisy a další)
Synchronní psané korpusy všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy název velikost popis SYN2000 100 mil. vyvážený korpus; většina textů z let 1990–1999 SYN2005 vyvážený korpus; většina textů z let 2000–2004 SYN2006PUB 300 mil. publicistické texty z let 1989–2004 SYN2009PUB 700 mil. publicistické texty z let 1995–2007 SYN2010 vyvážený korpus; většina textů z let 2005–2009 SYN 1 300 mil. nereferenční korpus, souhrn všech SYN korpusů A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Synchronní psané korpusy Kritérium reprezentativnosti: recepce vs. produkce korpusy řady SYN založeny na recepci (tj. co se čte) distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880) publicistika: současná (za každý rok stejný objem textu) odborná literatura: po roce1990 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Synchronní mluvené korpusy referenční korpusy – po zveřejnění se nemění neformální situace – konverzace v rodině nebo s přáteli není lemmatizace, ani značkování zatím nespolehlivé – dialektismy a hovorové výrazy plánovaný ORAL2013: data sbírána z celé republiky (nejen z Čech) transkripce zarovnána se zvukovou stopou plánovaný ORAL – protějšek SYNu, nereferenční, lemmatizovaný a značkovaný název velikost popis ORAL2006 1 mil. korpus neformální mluvené češtiny ORAL2008 sociolingvisticky vyvážený korpus neformální mluvené češtiny A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Diachronní korpus nereferenční korpus transkripce, nikoli transliterace plánovaná lemmatizace a značkování především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu název velikost popis DIAKORP 2 mil. korpus mapující sedm století vývoje češtiny (14.–20. století) A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Paralelní korpus ve spolupráci s dalšími ústavy a univerzitami stále roste korpusový manažer Park – ve výstavbě zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot název velikost popis InterCorp v současnosti 92 mil. paralelní korpus zahrnující 22 evropských jazyků A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Specializované korpusy hostování korpusu: služba nabízená v rámci ČNK dalším výzkumným institucím finální technické zpracování dat poskytování veřejného přístupu a související služby název velikost popis KSK-Dopisy 800 000 hostovaný; soukromá korespondence z let 1990–2004 SCHOLA2010 790 000 hostovaný; přepisy vyučovacích hodin PMK 675 000 hostovaný; Pražský mluvený korpus z let 1988–1996 BMK 490 000 hostovaný; Brněnský mluvený korpus z let 1994–1999 LINK 1.8 mil. korpus akademických textů (lingvistika) DOTKO 12 mil. hostovaný; korpus dolnolužické srbštiny z let 1848–1933 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Plánované specializované korpusy DIALEKT: přepis archivních dialektologických nahrávek představuje nejstarší systematicky zdokumentovaný stav českých nářečí DEAF: velmi specifický jazyk – doposud takřka nepopsán manuální zpracování včetně lemmatizace název velikost popis DIALEKT ? nářeční korpus DEAF korpus textů psaných českými neslyšícími A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
„Staré“ Bonito - SYN upozornit na frekvenci
„Staré“ Bonito - ORAL upozornit na anotaci! vek, pohlavi, vzdelani apod.
„Nové“ Bonito = No Sketch Engine upozornit na anotaci! vek, pohlavi, vzdelani apod.
„Nové“ Bonito = SYN upozornit na anotaci! vek, pohlavi, vzdelani apod.
„Nové“ Bonito = Oral upozornit na anotaci! vek, pohlavi, vzdelani apod.
„Nové“ Bonito = Oral2013 upozornit na anotaci! vek, pohlavi, vzdelani apod.
Park – ukázka konkordancí
Nové korpusové nástroje SyD: webový nástroj pro průzkum variant synchronní i diachronní perspektiva vytvořený na ÚČNK (Cvrček, Vondřička) využívá korpusů SYN2010, ORAL2008 a DIAKORP živé vizualizace a uživatelsky příjemné prostředí bez registrace na syd.korpus.cz! Morphopat (pracovní název, uvedení listopad 2012): nástroj pro studium slovotvorby v češtině vyhledává v korpusu podobně utvořená slova podle zadaného vzoru (sufixu či prefixu), umí porovnat Keywords (leden 2013): dokáže v textu najít klíčová slova a porovnat je s ref. textem A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
SyD upozornit na anotaci! vek, pohlavi, vzdelani apod.
SyD upozornit na anotaci! vek, pohlavi, vzdelani apod.
SyD upozornit na anotaci! vek, pohlavi, vzdelani apod.