Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.

Slides:



Advertisements
Podobné prezentace
Analýza staročeské morfologie v Excelu
Advertisements

CJBB75 1 ZPK CJBB CJBB75 2 Je to, co je skryto ve značce „stupeň“, jediné, co je možné se z korpusu dozvědět o stupňování v češtině ? Pozice.
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Korpusová lingvistika
CJBB75 1 ZPK CJBB75 čtvrtek G
Tvorba stránek  komu jsou stránky určeny  grafická úprava stránek  obsah  motivy vzhledu stránky
Využití korpusů v překladatelské praxi II
Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.
Korpusová lingvistika (2)
Obor S - Informační systémy ve stavebnictví
SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM!
CJBB84 1 ZPK CJBB75 čtvrtek G
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Číslo šablony: III/2 VY_32_INOVACE_P4_3.10 Tematická oblast: Aplikační software pro práci s informacemi II. HTML - tagy Typ: DUM - kombinovaný Předmět:
Český národní korpus. Spolupracující instituce Filozofická fakulta UK Matematicko-fyzikální fakulta UK Fakulta informatiky MU Filozofická fakulta MU Ústav.
Tvorba WWW stránek HTML - XHTML Každá Internetová stránka (WWW stránka) je vytvořena pomocí programovacího jazyka HTML (Hypertext Markup Language). Každá.
Úvod do korpusové lingvistiky 8
2005 Šablona eVŠKP - titulní list ÚVOD  Definice doporučené šablony  Soubor s přednastavenými styly, strukturou, designem  NEREÁLNÉ problémy.
IT Session Two Lessons Three and Four. Outline  IT Test 1  International Phonetic Alphabet  IPA – Interactive chart  Exercise 1  Český národní korpus.
Projekt OP RLZ 0207 „Pracujeme chytřeji“ – chytré praktiky firem a jejich filmování Petr Dostál - UTB ve Zlíně.
Úvod do korpusové lingvistiky 4
Korpusová lingvistika (4) Základy korpusové statistiky
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
CSS styly Kaskádové styly (CSS – Cascading Style Sheets) jsou prostředkem, který zajišťuje jednotný vzhled publikovaných stránek. Technologii CSS podporují.
Jak efektivně využívat korpusy v translatologii?
MATICE ODPOVĚDNOSTI Matice odpovědnosti představuje jasné a konkrétní vymezení kompetencí osob z týmu za konkrétní projektové činnosti (úkoly), např. koordinaci.
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
Gymnázium, Žamberk, Nádražní 48 Projekt: CZ.1.07/1.5.00/ Inovace ve vzdělávání na naší škole Název: Grafické formáty Autor: Mgr. Petr Vanický.
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
 U řady jmen s kmenem zakončeným skupinou dvou nebo více souhlásek, např. hra, kresba, látka, astra, ondatra, se v G. pl. do skupiny vkládá e: her, kreseb,...“(Cvrček.
CJBB84 1 GAK – CJBB84 st
Korpusová lingvistika (5) Korpus CORTE Jan Radimský FF JU České Budějovice.
B ORIS L EHEČKA, ODDĚLENÍ VÝVOJE JAZYKA ÚJČ AV ČR, V. V. I. DALIBORIS. CZ P RAŽSKÉ JARO V O STRAVĚ, 24. BŘEZNA 2015 Nástroje pro badatele (nejen)
CJBB84 1 GAK – CJBB84 st
CJBB CJBB75.
CJBB75 1 ZPK CJBB75 středa G
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Kaskádové styly Cascading Style Sheets. Využití CSS jde o jazyk pro popis způsobu zobrazení stránek napsaných v jazycích HTML, XHTML nebo XML umožňuje.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
MorČe morfologické značkování češtiny
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
Jazykový projev Profil a plán předmětu. Cíl předmětu Naučit se využívat mluveného a psaného jazykového projevu  k odpovídající prezentaci sebe sama 
Tvorba metainformačního systému pro prostorová data s využitím Internetových technologií Zpracovatel: Tomáš Duchoslav Vedoucí: Dr. Ing. Bronislava Horáková.
CHYBOVÁ ANOTACE ŽÁKOVSKÉHO KORPUSU CZESL
HYPERTEXT PREPROCESSOR. JAZYK PHP. VYUŽITÍ JAZYKA Programování dynamických internetových stránek a webových aplikací vytvoření šablony webu kniha návštěv.
CJBB105 Úvod do korpusové lingvistiky
Úvod do korpusové lingvistiky seminář pro magisterské studium
PLIN033_3 Přegenerovávání a podgenerovávání – dva problémy automatické analýzy přirozeného jazyka, konkrétně slovotvorby.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
CJBB75 Základy využití korpusu pro praxi st G13.
Jan Luprich / EBSCO Information Services Integrace SKC & EBSCO eBooks 2015.
Tvorba značky. Značka Hodnota Investice Přínosy Systém hodnot.
Algoritmizace a programování Algoritmy 5 – Myšlenkové mapy.
Inf Webová stránka, princip HTML a CSS. Výukový materiál Číslo projektu: CZ.1.07/1.5.00/ Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím.
VARIANTNÍ PROSTŘEDKY PŘI ÚPRAVĚ PUBLICISTICKÝCH TEXTŮ NA MATERIÁLU MF DNES Mgr. Barbora Albrechtová Ústav pro jazyk český AV ČR, v. v. i.
Korpusový výzkum morfologických alternací v češtině
Klára Osolsobě, Hana Žižková
Ing. Veronika Dostálková MBA
Základy práce s korpusem seminář pro bakalářské studium
Značkovací jazyk HTML Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jitka Vlčková. Dostupné z Metodického portálu ISSN.
Programovací jazyk C Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jitka Vlčková. Dostupné z Metodického portálu ISSN.
CJBB CJBB84.
ÚKL CJBB CJBB84.
VIKMA05 Organizace znalostí
pracoviště, časopisy, software
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
STYL PROJEVŮ MLUVENÝCH A PSANÝCH
Úvod do korpusové lingvistiky 3
Transkript prezentace:

Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice

Český národní korpus  Správce a tvůrce: Ústav ČNK, FF UK Praha  Ne jeden korpus, ale celý soubor korpusů!  Rozmanité korpusy z hlediska velikosti, datace textů, témat, stylů (zdrojů)...

ČNK – rozsah korpusů  Vývoj velikosti korpusů (cf. Leech: The State of Art in Corpus Linguistics, 1991): 1. generace (70. léta): 1 M slov (Brown corpus) 2. generace (80. léta) řádově 10 M (Birmingham collection of English – 18M) 3. generace (od 90. let): 100 M (Syn2000) Dnešní korpusy běžně až M slov (Itwac)  Leech: více neznamená lépe reprezentativita korpusu (co reprezentuje?) vyváženost korpusu (v jakém poměru jsou složky?)

ČNK – složení korpusů a jeho vývoj  Lze sledovat v mnoha ohledech velikost mluvené – psané styl: publicistika – odborná – beletrie (vyvíjejí se poměry, u publicistiky poměr titulů) témata rok vzniku textu  Podrobněji viz Studie z korpusové lingvistiky

Práce s korpusem  Informace obsažené v korpusu Surový text Metadata (informace o textu) Značkování: lematizace, tagování, parsing  Problémy značkování Značkování závisí na lingvistické teorii V ČNK relativně neutrální, v řadě korpusů nikoli Pokročilou anotaci (vč. parsingu) má tzv. Prague dependency treebank – viz zdeviz zde Závažný problém: homonymie, homografie, polysémie (např. čes. se) – chyby ! Víceslovná pojmenování (cestovní kancelář, pomme de terre, ferro da stiro)  Rozhraní pro práci s korpusem: korpusový manažer Data (korpus) oddělená od prohlížeče Online/offline přístup

Práce s korpusem  Korpusový manažer Bonito  Zobrazení KWIC  Vyhledávání tvaru, lemmatu, tagu Popis morfologických značek „tužka“ (jako lemma, tvar) substantivum (v akuzativu sg.)  Velká a malá písmena (case sensitive): Hrad/hrad  Pravopisné a stylové dublety (brýle/brejle, optimiz/smus, filoz/sofie, -uální/-uelní).  Další krok: souvýskyt dvou grafických slov

Souvýskyt dvou slov  Souvýskyt: těžký úkol bezprostřední blízkost, instrumentál  instrumentál s předložkou / bez předložky bezprostřední blízkost, jakýkoli pád ne-bezprostřední blízkost  Vzdálenější souvýskyt (V+N)  Kombinace lemma/tag A+úkol, V+past... v jaké vzdálenosti a v jakém tvaru se dají očekávat?

Kombinace kritérií  Konkrétní N v zadaném pádě  Testy lemmatizace kolem, během, náhodou, se