SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM!

Slides:



Advertisements
Podobné prezentace
Činnost AKVŠ v roce 2012 Marta Machytková Bibliotheca academica 2012
Advertisements

EZB – nástroj pro přístup k elektronickým časopisům PhDr. Petra Šťastná Národní knihovna ČR Seminář Dostupnost elektronických informačních zdrojů v knihovnách.
Specializovaná databáze pro výzkum astronomie a astrofyziky Mgr. Radka Svaškova, Astronomický ústav AVČR, v. v.i.
Spisová služba a její vazba na datové schránky
 Poskytujeme všeobecné studium, některé studijní obory jsou zaměřeny na rozšířenou výuku angličtiny.  Patříme mezi gymnázia v Brně s nejdelší historií.
Obecná východiska, zdroje ►Mezinárodní soustavy kvalifikací ►Národní soustava kvalifikací pro terciární sféru ►Projekt Q-RAM/ Národní kvalifikační rámec.
OBOROVÁ BRÁNA PRÁVO Právnická fakulta UK Květa Hartmanová České oborové brány – současný stav a výhled, , NTK.
Pohled do historie vydávání odborné literatury v Českých zemích
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Český národní korpus. Spolupracující instituce Filozofická fakulta UK Matematicko-fyzikální fakulta UK Fakulta informatiky MU Filozofická fakulta MU Ústav.
Univerzita J. E. Purkyně v Ústí nad Labem - Aplikovaný výzkum prof. Jiřina Jílková Biomedicínský výzkum Ústí nad Labem, 23. května
Velké infrastruktury pro výzkum, vývoj a inovace
1 Projekty 7. RP Petra Martináková, MSc RP – chystané výzvy Představení – Petra Martináková, MSc –Finanční manažerka projektu OP VK „Právo do praxe,
Zapojení Pedagogické fakulty MU do činnosti Evropské agentury pro podporu speciálního vzdělávání Transformační a rozvojové programy na rok 2005.
Digitální publikace a e-knihy v Ústavu pro českou literaturu AV ČR Pavel Janáček, Michal Kosák, Praha,
ASOCIACE INOVAČNÍHO PODNIKÁNÍ ČR Jan Kofroň Seminář Galerie inovací FOR INDUSTRY,
Korpus nejsou jenom dorty
PhDr. Marie HANZLÍKOVÁ FF UK v Praze MŠMT 9/2010 CercleS - CASAJC.
Moravská zemská knihovna a zpřístupňování starých map.
Pedagogika volného času (VČ)
Priorita č. 3 Aktivní zapojení výzkumné a vývojové základny do rozvoje podnikání.
Projekt Infogram aneb P.I.V.O. žije. Eva Svobodová, IVIG 2008, Česká zemědělská univerzita v Praze Praha,
MŠMT - Odbor 32 Financování výzkumu a vysokých škol Ing. Petr Valášek
Aktivity Asociace knihoven vysokých škol ČR v oblasti OA Mgr. Pavla Rygelová Ústřední knihovna VŠB-TUO 1 5. setkání českých uživatelů systému DSpace
Elektronické služby v znalostnej spoločnosti, , Zvolen Koordinace a spolupráce – úloha Asociace knihoven vysokých škol ČR Barbora Ramajzlová.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
OECD a finanční vzdělávání Stálá mise České republiky při OECD v Paříži Prof. Ing. Karel Dyba, CSc., velvyslanec Třetí mezinárodní konference k finanční.
Budování Digitální knihovny Vysokého učení technického v Brně Barbara Šímová /
Mechanismy evaluace kulturních služeb
OBLAST 1: KOOPERACE VE VÝZKUMU A VÝVOJI Marek Junek Filozofická fakulta Univerzity Karlovy v Praze EVROPSKÁ KULTURNÍ STEZKA SV. CYRILA A METODĚJE.
CzechInvest Agentura pro podporu podnikání a investic NÁRODNÍ DIALOG KE KLASTROVÝM KONCEPCÍM Martina Froňková Praha,
Důsledky zákona o svobodném přístupu k informacím pro veřejné knihovny Bakalářská práce FF MU V Brně, Ústav české literatury a knihovnictví, kabinet knihovnictví,
Technologické platformy a dopravní výzkum
1 Prioritní osa 2 Oblast podpory 2.2 Vysokoškolské vzdělávání 30. října 2008 Karolína Gondková Odbor vysokých škol Odbor vysokých škol.
Úvod do korpusové lingvistiky 8
Projekty PHARE v gesci odboru informatizace veřejné správy Ministerstva vnitra ČR PHARE 97 informační a komunikační systémy VS přednáší Ing. Tomáš Holenda.
MIDAS MetaPortál Seminář INSPIRE a metainformace, Praha, 2007 Horáková, Růžička, Ožana.
Třetí role vysokých škol - spolupráce s průmyslem a soukromým sektorem 10. zasedání předsednictva Rady VŠ 22. března 2007 V. Kebo, B. Tremlová.
Ústřední knihovna FSS MU Bibliotheca Academica, Brno Irena Šléglová Masarykova univerzita a její knihovny.
Úvod do korpusové lingvistiky 6
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Národní konference eTwinning 28. – 30. dubna 2011 Praha Petr Chaluš.
Setkání účastníků neformálního konsorcia Praha
AKTION Česká republika – Rakousko, spolupráce ve vědě a vzdělávání Helena Hanžlová.
Národní strategie finančního vzdělávání (inspirovaná Koncepcí informačního vzdělávání na vysokých školách v ČR)
Petr Korviny SCO 2007 Brno Usnadnění tvorby elektronických studijních textů pro distanční vzdělávání Petr Korviny
Evropská směrnice INSPIRE Ing. Pavla Tryhubová Katedra mapování a kartografie ČVUT v Praze, Fakulta stavební.
Jak efektivně využívat korpusy v translatologii?
Reforma systému výzkumu, vývoje a inovací v ČR  změny v pravidlech pro podporu VaV v právu ES  reforma VaVaI v ČR Inovační potenciál ČR Praha,
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
Projekt MedGate – integrace informačních zdrojů pro výzkum a vývoj v medicíně Eva Lesenková, Helena Bouzková, Jarmila Potomková, Eva Chárová MEDSOFT 2004,
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
Databáze Bibliografie dějin českých zemí jako cesta k plným textům v domácích i zahraničních knihovnách Václava Horčáková Elektronické služby knihoven.
Technická univerzita v Liberci LIBEREC I Studentská 2 Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/ ) podpořeného z.
1 Podpora inovací v českém a slovenském průmyslu, role AIP ČR K. Šperlink Brno, září 2008.
Zápatí prezentace1 Evropské projekty a jejich podpora na ESF MU v roce 2009 Porada vedení fakulty+ vedoucí kateder předkládá: proděkan pro SaR.
CJBB105 Úvod do korpusové lingvistiky
Úvod do korpusové lingvistiky seminář pro magisterské studium
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
CJBB75 Základy využití korpusu pro praxi st G13.
Klinická hodnocení a farmakologie pro 3.tisíciletí – multimodální edukační platforma CZ.1.07/2.4.00/
Univerzita Karlova v Praze, Přírodovědecká fakulta.
Manuscriptorium Evropská digitální knihovna historických fondů.
Klára Osolsobě, Hana Žižková
Základy práce s korpusem seminář pro bakalářské studium
Inovační potenciál České republiky Ing. Martin Štícha Sekce VaVaI
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Pedagogická knihovna J. A. Komenského
Krajský akční plán rozvoje vzdělávání v JčK
Transkript prezentace:

SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM! Mgr. Lucie Chlumská Univerzita Karlova v Praze 10. 10. 2012 Jihočeská univerzita Available corpora and current projects

Obsah přednášky O projektu Český národní korpus (ČNK) Dostupné korpusy Historie, současnost a plány do budoucna Národní výzkumná infrastruktura Dostupné korpusy Synchronní psané: řada SYN Synchronní mluvené: řada ORAL Diachronní korpus: DIAKORP Paralelní korpus: InterCorp Specializované korpusy & hostování korpusů Nové webové korpusové nástroje Praktická ukázka práce s korpusem

O (Ú)ČNK Ústav Českého národního korpusu, založen v roce 1994 prof. Františkem Čermákem jedna z kateder FF UK hlavním dlouhodobým projektem je ČNK obecné i specializované semináře a přednášky pro studenty i veřejnost (překladatele, učitele apod.) doktorské studium v oboru korpusová lingvistika

O ČNK Cílem ČNK je: http://www.korpus.cz/ dlouhodobě a podrobně mapovat vývoj češtiny, jak historické, tak současné sestavovat a spravovat korpusy a zajišťovat k nim přístup provádět výzkum vytvářet nové, uživatelsky zaměřené korpusové nástroje http://www.korpus.cz/ Informace o ČNK, manuály a přístup ke korpusům

O ČNK ČNK jako národní výzkumná infrastruktura (od roku 2012) bylo schváleno pouze 15 projektů velké infrastruktury ze všech oblastí, ČNK jako vzorový projekt financováno v rámci aktivity Projekty velkých infrastruktur pro VaVaI, MŠMT (LM2011023) cíle: budování korpusů a jejich anotace, hostování korpusů, zajišťování veřejného přístupu, jazykové zdroje (balíčky dat) aplikovaný výzkum však podporován není

Přístup ke korpusům ČNK Přístup ke korpusům je pro všechny uživatele ZDARMA nezbytná elektronická registrace více než 3 000 aktivních registrovaných uživatelů přibližně 1 200 dotazů/den Software: server: Manatee (autor: Pavel Rychlý z MU Brno) klient: Bonito/The Sketch Engine nebo Park v plánu nové rozhraní pro jednojazyčné i vícejazyčné korpusy

Dostupné korpusy ČNK Synchronní korpusy psané češtiny: řada SYN Synchronní korpusy mluvené češtiny: řada ORAL Diachronní korpus (14.–20. století): DIAKORP Paralelní korpus (22 evropských jazyků): InterCorp Malé specializované korpusy (Deaf, Dopisy a další)

Synchronní psané korpusy všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy název velikost popis SYN2000 100 mil. vyvážený korpus; většina textů z let 1990–1999 SYN2005 vyvážený korpus; většina textů z let 2000–2004 SYN2006PUB 300 mil. publicistické texty z let 1989–2004 SYN2009PUB 700 mil. publicistické texty z let 1995–2007 SYN2010 vyvážený korpus; většina textů z let 2005–2009 SYN 1 300 mil. nereferenční korpus, souhrn všech SYN korpusů A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Synchronní psané korpusy Kritérium reprezentativnosti: recepce vs. produkce korpusy řady SYN založeny na recepci (tj. co se čte) distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880) publicistika: současná (za každý rok stejný objem textu) odborná literatura: po roce1990 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Synchronní mluvené korpusy referenční korpusy – po zveřejnění se nemění neformální situace – konverzace v rodině nebo s přáteli není lemmatizace, ani značkování zatím nespolehlivé – dialektismy a hovorové výrazy plánovaný ORAL2013: data sbírána z celé republiky (nejen z Čech) transkripce zarovnána se zvukovou stopou plánovaný ORAL – protějšek SYNu, nereferenční, lemmatizovaný a značkovaný název velikost popis ORAL2006 1 mil. korpus neformální mluvené češtiny ORAL2008 sociolingvisticky vyvážený korpus neformální mluvené češtiny A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Diachronní korpus nereferenční korpus transkripce, nikoli transliterace plánovaná lemmatizace a značkování především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu název velikost popis DIAKORP 2 mil. korpus mapující sedm století vývoje češtiny (14.–20. století) A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Paralelní korpus ve spolupráci s dalšími ústavy a univerzitami stále roste korpusový manažer Park – ve výstavbě zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot název velikost popis InterCorp v současnosti 92 mil. paralelní korpus zahrnující 22 evropských jazyků A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Specializované korpusy hostování korpusu: služba nabízená v rámci ČNK dalším výzkumným institucím finální technické zpracování dat poskytování veřejného přístupu a související služby název velikost popis KSK-Dopisy 800 000 hostovaný; soukromá korespondence z let 1990–2004 SCHOLA2010 790 000 hostovaný; přepisy vyučovacích hodin PMK 675 000 hostovaný; Pražský mluvený korpus z let 1988–1996 BMK 490 000 hostovaný; Brněnský mluvený korpus z let 1994–1999 LINK 1.8 mil. korpus akademických textů (lingvistika) DOTKO 12 mil. hostovaný; korpus dolnolužické srbštiny z let 1848–1933 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Plánované specializované korpusy DIALEKT: přepis archivních dialektologických nahrávek představuje nejstarší systematicky zdokumentovaný stav českých nářečí DEAF: velmi specifický jazyk – doposud takřka nepopsán manuální zpracování včetně lemmatizace název velikost popis DIALEKT ? nářeční korpus DEAF korpus textů psaných českými neslyšícími A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

„Staré“ Bonito - SYN upozornit na frekvenci

„Staré“ Bonito - ORAL upozornit na anotaci! vek, pohlavi, vzdelani apod.

„Nové“ Bonito = No Sketch Engine upozornit na anotaci! vek, pohlavi, vzdelani apod.

„Nové“ Bonito = SYN upozornit na anotaci! vek, pohlavi, vzdelani apod.

„Nové“ Bonito = Oral upozornit na anotaci! vek, pohlavi, vzdelani apod.

„Nové“ Bonito = Oral2013 upozornit na anotaci! vek, pohlavi, vzdelani apod.

Park – ukázka konkordancí

Nové korpusové nástroje SyD: webový nástroj pro průzkum variant synchronní i diachronní perspektiva vytvořený na ÚČNK (Cvrček, Vondřička) využívá korpusů SYN2010, ORAL2008 a DIAKORP živé vizualizace a uživatelsky příjemné prostředí bez registrace na syd.korpus.cz! Morphopat (pracovní název, uvedení listopad 2012): nástroj pro studium slovotvorby v češtině vyhledává v korpusu podobně utvořená slova podle zadaného vzoru (sufixu či prefixu), umí porovnat Keywords (leden 2013): dokáže v textu najít klíčová slova a porovnat je s ref. textem A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

SyD upozornit na anotaci! vek, pohlavi, vzdelani apod.

SyD upozornit na anotaci! vek, pohlavi, vzdelani apod.

SyD upozornit na anotaci! vek, pohlavi, vzdelani apod.