Český národní korpus. Spolupracující instituce Filozofická fakulta UK Matematicko-fyzikální fakulta UK Fakulta informatiky MU Filozofická fakulta MU Ústav.

Slides:



Advertisements
Podobné prezentace
Textový procesor Open Office, Writer ÚPRAVA ZÁHLAVÍ A ZÁPATÍ
Advertisements

Olomouc, únor 2012.
DIGITÁLNÍ MAPOVÝ ARCHIV -moderní přístup k informacím (archiv ČGS) Alena Čejchanová Klára Jančová Archiv České geologické služby.
Přechody a animace Tomáš Prejzek
<. DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4
HyperText Markup Language
Nové modulové výukové a inovativní programy - zvýšení kvality ve vzdělávání Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem.
Základy html pro úplné začátečníky.
Logo oborové brány Oborová brána MUS Václav Kapsa (NK ČR) České oborové brány – současný stav a výhled Národní technická knihovna,
SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM!
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
ISAD Cíl: • sjednotit archeologická data vytvořená v projektech výzkumu a vývoje na ústředním pracovišti NPÚ • vytvořit aplikaci na internetu pro komplexní.
Korpus nejsou jenom dorty
Jak psát seminární práci
2. Národní konference o doporučených postupech , Olomouc Katalog klinických doporučených postupů – současný stav a možnosti využití Miroslav.
BIBLIOGRAFICKÉ FORMÁTY MARC 21 – UNIMARC-úvod
Na internetu: Karel Šimek říjen 2006.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Textový procesor Open Office, Writer OKRAJE STRÁNKY
Hodnocení přístupnosti soutěžních webů aneb proč se vyplatí myslet na přístupnost webů veřejné správy RNDr. Hana Bubeníčková, Mgr. Radek Pavlíček, duben.
Skladba HTML dokumentu
Získávání a zpracování informací
Textový editor opakování Výpočetní technika. jméno autoraMgr. Petr Jonáš název projektu Modernizace výuky na ZŠ Česká Lípa, Pátova ulice číslo projektuCZ.1.07/1.4.00/
Úvod do korpusové lingvistiky 4
Úvod do korpusové lingvistiky 6
Označení materiálu: VY_32_INOVACE_HLAVE_CESKYJAZYK1_14 Název materiálu:Knihovny a jejich služby Tematická oblast:Český jazyk 1. ročník Anotace:Prezentace.
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Seriály v Souborném katalogu ČR Ústí nad Orlicí, 6. října 2006 Danuše Vyorálková.
Je to program (aplikace), který slouží k úpravám prostého textu.  Na rozdíl od textových procesorů, se kterými se často pletou, postrádají textové editory.
CSS styly Kaskádové styly (CSS – Cascading Style Sheets) jsou prostředkem, který zajišťuje jednotný vzhled publikovaných stránek. Technologii CSS podporují.
Význam odvolacích údajů
Seriály v Souborném katalogu ČR Opava, 21. června 2006 Danuše Vyorálková.
Grafická podoba ŠVP Platí pro: MS WORD OpenOffice.org v jakékoli verzi.
Národní registr vysokoškolských kvalifikačních prací.
Jak psát a editovat text
Anotace Žák dokáže zarovnat text v aplikaci MS Word Autor Petr Samec Jazyk Čeština Očekávaný výstup Dokáže zarovnat text dle potřeb dokumentu v aplikaci.
OpenAIRE Open Access Infrastructure for Research in Europe. Nástupce projektu DRIVER. Portál umožňuje.
Brána k poznání Dokončení první fáze – základní značky HTML.
Nové modulové výukové a inovativní programy - zvýšení kvality ve vzdělávání Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem.
Slovník Nevíte jak pracovat se slovníkem na internetu?Nevadí,přečtět e si můj návod: Návod Jméno:Karolína Průšová Datum: Škola:Nám.Bří.Jandusů.
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
B ORIS L EHEČKA, ODDĚLENÍ VÝVOJE JAZYKA ÚJČ AV ČR, V. V. I. DALIBORIS. CZ P RAŽSKÉ JARO V O STRAVĚ, 24. BŘEZNA 2015 Nástroje pro badatele (nejen)
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Téma: Audience – V. Havel
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
Základní škola a mateřská škola Bzenec Číslo projektu: CZ.1.07/1.4.00/ Číslo a název šablony klíčové aktivity: III/2: využívání ICT – inovace Vypracoval/a:
Typografie a zpracování textů
HYPERTEXT PREPROCESSOR. JAZYK PHP. VYUŽITÍ JAZYKA Programování dynamických internetových stránek a webových aplikací vytvoření šablony webu kniha návštěv.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Dana Mazancová Databáze Anopress a ČTK ÚK FSS MU, Ústřední knihovna FSS MU.
CJBB75 Základy využití korpusu pro praxi st G13.
Distribuce umění a kulturního dědictví. Faktory ovlivňující distribuci Místo, budova, sídlo organizace Odvětví nebo hlavní předmět činnosti organizace.
Tvorba www stránek – (01) úvod Autor: Mgr. Josef Motl Datum: , ročník: 7. ročník ZŠ Vzdělávací oblast: Informační technologie Anotace: Prezentace.
Tvorba WEBOVÝCH stránek – kostra dokumentu Šablona 32 VY_32_INOVACE_12_10_Tvorba webových stránek-kostra dokumentu.
Škola Katolické gymnázium Třebíč, Otmarova 22, Třebíč Název projektu
Zpracování textů efektivně
Národní registr vysokoškolských kvalifikačních prací.
Word – textový editor.
FORMÁTOVÁNÍ DOKUMENTU
SOUHRNNÉ POUČENÍ O SLOHU
Číslo projektu školy CZ.1.07/1.5.00/
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Vzor individuální prezentace
Funkční styl odborný.
KURZY ČESKÉHO JAZYKA pro tzv. STÁŽISTY a POSTGRADUANTY
Úvod do korpusové lingvistiky 3
(ústavní bibliografie ASEP – systém ARL, zkušební provoz)
Transkript prezentace:

Český národní korpus

Spolupracující instituce Filozofická fakulta UK Matematicko-fyzikální fakulta UK Fakulta informatiky MU Filozofická fakulta MU Ústav pro jazyk český Akademie věd ČR Ústav pro českou literaturu AV ČR

Co je to korpus? Soubor dat (textů) rozsáhlý počítačově uložený i zpracovávaný reprezentativní vzhledem k vytčenému cíli slouží jako bohatý zdroj jazykového materiálu především lingvistům

Typy korpusů synchronní – diachronní – historický psaný – mluvený (případně nářeční)

Český národní korpus

Velikosti a složení korpusů

Struktura textů v SYN milionů textových slov reprezentativní z hlediska recepce synchronní (současný) jazyk psané texty Publicistika33 % Odborné texty27 % Beletrie 40 %

Časové vymezení textů v korpusu SYN2005 Publicistika – z let Odborná literatura – po roce 1990 Beletrie – po roce 1990 (významná poválečná díla a překlady od autorů narozených po roce 1880 )

Odborná a specializovaná literatura (milióny slov)

Imaginativní literatura

Zpracování textů získávání textů: z redakcí, z Internetu, skenováním, přepisem konverze do jednotného formátu bibliografická anotace převod do SGML lemmatizace a morfologické značkování desambiguace (zjednoznačnění)

Ukázka hlavičky dokumentu # identifikace dokumantu # začátek hlavičky dokumentu S# druh korpusu (synchronní) NOV# typ textu (román) BIO# žánr (biografie) B# médium (kniha) F# pohlaví autora (žena) 1991# rok vydání 1991# rok prvního vydání Kriseová Eda# jméno autora havel # jednoznačná identifikace souboru 001# pořadové číslo dokumentu v rámci souboru # konec hlavičky dokumentu

Zpracování textů získávání textů: z redakcí, z Internetu, skenováním, přepisem konverze do jednotného formátu bibliografická anotace převod do SGML lemmatizace a morfologické značkování desambiguace (zjednoznačnění)

Ukázka textu v SGML formátu se strukturními a morfologickými značkami # začátek textu # první odstavec # začátek věty s její jednoznačnou # identifikací v celém korpusu Eda Eda NNMS1-----A---- Kriseová Kriseová NNFS1-----A---- # začátek další věty i# typografická značka - italika Vaškovi Vašek NNMS3-----A---- /i # typografická značka – konec italiky # druhý odstavec # začátek další věty Motto motto NNNS1-----A---- # následující znak nebyl oddělen mezerou : : Z: # interpunkce # třetí odstavec # začátek další věty Jednou jeden`1 ClFS navštívil navštívit_:W VpYS---XR-AA---

Ukázka morfologické značky: NNIS3-----A----- substantivum obecné maskulinum singulár dativ afirmativ inanimatum veškerý pozemský a sublunární korpus/NNIS1-----A----- vyhladovělých a žíznivých na podlahu. Hodil jsem do korpusu/NNIS2-----A----- závaží čistítka a elegantně slunce se třpytilo v jejím korpusu/NNIS6-----A-----, nad vlasatýma hlavama se přitáhl orchestr. Zlaté korpusy/NNIP1-----A----- saxofonové baterie malovaly individuální podmínky přístupu ke korpusu/NNIS3-----A----- v mnohem sofistikovanější

Mluvené korpusy ORAL2006 – slov (celé Čechy) PMK – slov, BMK – slov čtyři sociolingvistické proměnné: pohlaví mluvčího - muž x žena věk - mladší (20-35 let) x starší (od 35 let) vzdělání - základní a střední x vysokoškolské typ promluvy - formální x neformální

čaje potom, co von tam votevře v těch, jak se to menuje zatěžuje a většinou tak votravuje ---, že si myslim, tak si myslim, že ta votázka emancipace ženy, tak.. to je hrozně těžká votázka, na to se hrozně těžko je to trochu divná votázka, protože už sem dlouho budoucna, co když vona votěhotní? a taky je strašně ponižující spolu byli. vo tyhlety votázce sem si vždycky myslel dotyčnýho, protože votevře cizí kufr, zjistí prostě.. no, to je zatím votřesný, no v Polsku už to čem, no, to je ta votázka, v čem. těžko říct pomocí nebo výpomocí. votázka je hlavně bych no, to je potom taky votázka sexu anebo tý lásky lépe než muži. to je votázka teda taková zajímavá podmínky. no vlasně to je votázka na tebe, cha cha, Ukázka mluveného korpusu Sociolingvistické kategorie: pohlaví muž (M) žena (Z) věk mladší (I) starší (V) vzdělání základní a střední (B) vysokoškolské (A) charakter rozhovoru formální (F) neformální (N)

Korpusový manažer Bonito výběr korpusu dotazový řádek vyhledaný výraz (KWIC) bibliografická informace rozšíření kontextu

Grafická tvorba dotazu zadání lemmatu nastavení intervalu – mezi 1. a 2. slovem mohou být až 4 jiná slova zadání morfologické značky vyjadřující infinitiv ([lemma="vidět"] []{0,4} [tag="Vf.*"])

[lemma="olomoucký"] Frekvenční distribuce radnice139 ulice121 trenér94 univerzita72 biskup69 primátor69 kauza64 arcibiskup59 nakladatelství46 firma44 policie42 okres40 pobočka40 radní38 arcibiskupství36 Sigma35 divadlo33 výstaviště32 fotbalista29 městský27 okresní27 ?

Možnosti přístupu k ČNK

Co na našich stránkách najdete: veřejný přístup ke korpusu SYN2000 podmínky získání přístupu ke korpusům ČNK korpusový manažer Bonito návod na práci s korpusovým manažerem

Využití korpusů ve škole zdroj jazykového materiálu pro tvorbu cvičení ověřování jazykových jevů – samostatná práce žáků nový způsob získávání informací netradiční pohled na jazykovou realitu

Děkuji za pozornost!