Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM! Mgr. Lucie Chlumská Univerzita Karlova v Praze 10. 10. 2012 Jihočeská univerzita.

Podobné prezentace


Prezentace na téma: "SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM! Mgr. Lucie Chlumská Univerzita Karlova v Praze 10. 10. 2012 Jihočeská univerzita."— Transkript prezentace:

1 SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM! Mgr. Lucie Chlumská Univerzita Karlova v Praze 10. 10. 2012 Jihočeská univerzita

2 Obsah přednášky 1. O projektu Český národní korpus (ČNK)  Historie, současnost a plány do budoucna  Národní výzkumná infrastruktura 2. Dostupné korpusy  Synchronní psané: řada SYN  Synchronní mluvené: řada ORAL  Diachronní korpus: DIAKORP  Paralelní korpus: InterCorp  Specializované korpusy & hostování korpusů 3. Nové webové korpusové nástroje 4. Praktická ukázka práce s korpusem

3 O (Ú)ČNK  Ústav Českého národního korpusu, založen v roce 1994 prof. Františkem Čermákem  jedna z kateder FF UK  hlavním dlouhodobým projektem je ČNK  obecné i specializované semináře a přednášky pro studenty i veřejnost (překladatele, učitele apod.)  doktorské studium v oboru korpusová lingvistika

4 O ČNK  Cílem ČNK je:  dlouhodobě a podrobně mapovat vývoj češtiny, jak historické, tak současné  sestavovat a spravovat korpusy a zajišťovat k nim přístup  provádět výzkum  vytvářet nové, uživatelsky zaměřené korpusové nástroje  http://www.korpus.cz/  Informace o ČNK, manuály a přístup ke korpusům

5 O ČNK  ČNK jako národní výzkumná infrastruktura (od roku 2012)  bylo schváleno pouze 15 projektů velké infrastruktury ze všech oblastí, ČNK jako vzorový projekt  financováno v rámci aktivity Projekty velkých infrastruktur pro VaVaI, MŠMT (LM2011023)  cíle: budování korpusů a jejich anotace, hostování korpusů, zajišťování veřejného přístupu, jazykové zdroje (balíčky dat)  aplikovaný výzkum však podporován není

6 Přístup ke korpusům ČNK  Přístup ke korpusům je pro všechny uživatele ZDARMA  nezbytná elektronická registrace  více než 3 000 aktivních registrovaných uživatelů  přibližně 1 200 dotazů/den  Software:  server: Manatee (autor: Pavel Rychlý z MU Brno)  klient: Bonito/The Sketch Engine nebo Park  v plánu nové rozhraní pro jednojazyčné i vícejazyčné korpusy

7 Dostupné korpusy ČNK  Synchronní korpusy psané češtiny: řada SYN  Synchronní korpusy mluvené češtiny: řada ORAL  Diachronní korpus (14.–20. století): DIAKORP  Paralelní korpus (22 evropských jazyků): InterCorp  Malé specializované korpusy (Deaf, Dopisy a další)

8 Synchronní psané korpusy  všechny korpusy lemmatizovány a morfologicky označkovány  vyvážený korpus jednou za 5 let  referenční vs. nereferenční korpusy názevvelikostpopis SYN2000100 mil.vyvážený korpus; většina textů z let 1990–1999 SYN2005100 mil.vyvážený korpus; většina textů z let 2000–2004 SYN2006PUB300 mil.publicistické texty z let 1989–2004 SYN2009PUB700 mil.publicistické texty z let 1995–2007 SYN2010100 mil.vyvážený korpus; většina textů z let 2005–2009 SYN1 300 mil.nereferenční korpus, souhrn všech SYN korpusů

9 Synchronní psané korpusy  Kritérium reprezentativnosti:  recepce vs. produkce  korpusy řady SYN založeny na recepci (tj. co se čte)  distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba  Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu)  beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880)  publicistika: současná (za každý rok stejný objem textu)  odborná literatura: po roce1990

10 Synchronní mluvené korpusy  referenční korpusy – po zveřejnění se nemění  neformální situace – konverzace v rodině nebo s přáteli  není lemmatizace, ani značkování  zatím nespolehlivé – dialektismy a hovorové výrazy  plánovaný ORAL2013:  data sbírána z celé republiky (nejen z Čech)  transkripce zarovnána se zvukovou stopou  plánovaný ORAL – protějšek SYNu, nereferenční, lemmatizovaný a značkovaný názevvelikostpopis ORAL20061 mil.korpus neformální mluvené češtiny ORAL20081 mil.sociolingvisticky vyvážený korpus neformální mluvené češtiny

11 Diachronní korpus  nereferenční korpus  transkripce, nikoli transliterace  plánovaná lemmatizace a značkování  především 19. století  hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu názevvelikostpopis DIAKORP2 mil.korpus mapující sedm století vývoje češtiny (14.–20. století)

12 Paralelní korpus  ve spolupráci s dalšími ústavy a univerzitami  stále roste  korpusový manažer Park – ve výstavbě  zarovnání na úrovni vět  lemmatizace a značkování u těch jazyků, kde je k dispozici  čeština jako pivot názevvelikostpopis InterCorpv současnosti 92 mil.paralelní korpus zahrnující 22 evropských jazyků

13 Specializované korpusy  hostování korpusu:  služba nabízená v rámci ČNK dalším výzkumným institucím  finální technické zpracování dat  poskytování veřejného přístupu a související služby názevvelikostpopis KSK-Dopisy800 000hostovaný; soukromá korespondence z let 1990–2004 SCHOLA2010790 000hostovaný; přepisy vyučovacích hodin PMK675 000hostovaný; Pražský mluvený korpus z let 1988–1996 BMK490 000hostovaný; Brněnský mluvený korpus z let 1994–1999 LINK1.8 mil.korpus akademických textů (lingvistika) DOTKO12 mil.hostovaný; korpus dolnolužické srbštiny z let 1848–1933

14 Plánované specializované korpusy  DIALEKT:  přepis archivních dialektologických nahrávek  představuje nejstarší systematicky zdokumentovaný stav českých nářečí  DEAF:  velmi specifický jazyk – doposud takřka nepopsán  manuální zpracování včetně lemmatizace názevvelikostpopis DIALEKT?nářeční korpus DEAF?korpus textů psaných českými neslyšícími

15 „Staré“ Bonito - SYN

16 „Staré“ Bonito - ORAL

17 „Nové“ Bonito = No Sketch Engine

18 „Nové“ Bonito = SYN

19 „Nové“ Bonito = Oral

20 „Nové“ Bonito = Oral2013

21 Park – ukázka konkordancí

22 Nové korpusové nástroje  SyD:  webový nástroj pro průzkum variant  synchronní i diachronní perspektiva  vytvořený na ÚČNK (Cvrček, Vondřička)  využívá korpusů SYN2010, ORAL2008 a DIAKORP  živé vizualizace a uživatelsky příjemné prostředí  bez registrace na syd.korpus.cz!  Morphopat (pracovní název, uvedení listopad 2012):  nástroj pro studium slovotvorby v češtině  vyhledává v korpusu podobně utvořená slova podle zadaného vzoru (sufixu či prefixu), umí porovnat  Keywords (leden 2013):  dokáže v textu najít klíčová slova a porovnat je s ref. textem

23 SyD

24 SyD

25 SyD


Stáhnout ppt "SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM! Mgr. Lucie Chlumská Univerzita Karlova v Praze 10. 10. 2012 Jihočeská univerzita."

Podobné prezentace


Reklamy Google