Úvod do korpusové lingvistiky 3

Slides:



Advertisements
Podobné prezentace
Úvod do korpusové lingvistiky 4
Advertisements

CJBB75 Základy využití korpusu pro praxi st G13.
Analýza fungování institutu dohod o výkonu pěstounské péče v ČR SocioFactor s.r.o.
Manažerské kvantitativní metody I Literatura Gros I.: Matematické modely pro manažerské rozhodování. Vydavatelství VŠCHT Praha ISBN
Univerzitní informační systém IV., Svojanov 2005 Financování studií Ing. Tomáš Klein
Redukce lůžek Existuje prostor pro redukci lůžek akutní péče?
Střednědobé plány krajů, sítě sociálních služeb a přechod financování sociálních služeb na kraje Konference Financování sociálních služeb pro města a obce.
Oborová brána Musica (MUS) Nový nástroj (nejen) pro české muzikology Václav Kapsa Národní knihovna České republiky Výroční konference ČSHV Nové výsledky.
Vypracování národních norem kódování pro český systém DRG číslo projektu CZ2005/017/ Program Evropské Unie Transition Facility pro Českou.
Insolvenční řízení v ČR Zmar nebo nová šance?. Uspokojení věřitelů: World Bank65 % (údaj z dotazníkové akce) Reálná data ,4 % Co víme o insolvenčních.
Systém správy dokumentace akreditované zkušební laboratoře Bc. Jan Randl, 4912.
Seminář na MZ Bezpečnost zdravotních služeb - současná priorita MZ MUDr. Markéta Hellerová Ministerstvo zdravotnictví.
Předškolní vzdělávání.  Rámcový vzdělávací program vymezuje hlavní požadavky, podmínky a pravidla.  Školní vzdělávací program vytváří každá mateřská.
Krizové štáby. Zákon č. 240/2000 Sb., § 14 (1) Hejtman zajišťuje připravenost kraje na řešení krizových situací; ostatní orgány kraje se na této připravenosti.
Principy Základních registrů Ing. Ondřej Felix, CSc.
Univerzitní informační systém III., Lednice 2004 Vývoj a koncepce nového univerzitního webu Ondřej Kudlík
Mnohočleny Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblast Matematika – výrazy s proměnnými Datum vytvoření
Obsah prezentace Obsah prezentace : DRG a úhrady Úhrady v roce 2012 – úhradová vyhláška Obavy a očekávání poskytovatelů zdravotní péče Obavy a očekávání.
VY_32_INOVACE_10_4_11.
Senzory pro EZS.
Oxford WordSmith Tools 4.0
Komunikační strategie ČIŽP
Internet.
Slovní úlohy o společné práci
STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.
Paragrafované znění I 9. listopadu 2016 doc. JUDr. Radim Boháč, Ph.D.
EVALUACE v OP RLZ PaedDr. Jaromír Krejčí Mgr. Jana Ostrýtová MŠMT.
Průběžná informační povinnost emitenta kotovaných cenných papírů
Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina
Evaluace předmětů studenty (Anketky)
Zpráva o uplatňování ÚP
ČÍSLO PROJEKTU CZ.1.07/1.5.00/ ČÍSLO MATERIÁLU 1 – Množiny – teorie
Marketingový výzkum. Marketingový výzkum Organizace marketingového výzkumu Cíl výzkumu Typ výzkumu Příprava výzkumného projektu Sběr dat Analýza výsledků.
Téma 11: Finanční plánování
Obchodní akademie a Střední odborná škola, gen. F. Fajtla, Louny, p.o.
Ministerstvo obrany Inspekce ministra obrany
Úvod do tvorby srozumitelného textu
Střednědobý plán rozvoje sociálních služeb v Olomouckém kraji pro roky
NÁZEV ŠKOLY: ZŠ J. E. Purkyně Libochovice
Sémantické aspekty katalogizace VI
Název školy: Základní škola Pomezí, okres Svitavy
Znakový jazyk Znakovaná čeština
Veřejná správa, Regionální rozvoj Litoměřice Jan Jůna 2012
Workshop projektu systémová podpora sociální práce v obcích na téma:
Dlouhodobý záměr vzdělávací a vědecké, výzkumné, vývojové a inovační, umělecké a další tvůrčí činnosti pro oblast vysokých škol na období Petr.
Slovní úlohy o společné práci stejný čas
kpt. Ing. Tomáš Hoffmann HZS Karlovarského kraje
Významné normy Bibliografické citace - obsah, forma, struktura ČSN ISO 690 Úprava písemností psaných strojem nebo zpracovávaných textovými editory ČSN.
BIBS Informatika pro ekonomy přednáška 2
Číslicové měřící přístroje
GDPR: ochrana osobních údajů
Anotace Žák se seznámí s problematikou národa, národnostních menšin a vztahu majority a minorit Autor Mgr. Petr Stonawski Jazyk Čeština Očekávaný výstup.
Změny právní úpravy ochrany přírody a krajiny
Pravidla a doporučené postupy pro vytváření studijních programů
Paragrafované znění I 8. listopadu 2017 doc. JUDr. Radim Boháč, Ph.D.
Microsoft Office Access
Programovatelné automaty (Programmable logic controllers – PLC)
Materiál byl vytvořen v rámci projektu
Slovní úlohy o společné práci
Word Okraje WordArt Pozadí Vodoznak. Word Okraje WordArt Pozadí Vodoznak.
Algebraické výrazy: lomené výrazy
EBSCO PhDr. Ivana Reznerová
DIGITÁLNÍ UČEBNÍ MATERIÁL
Lomené výrazy (2) Podmínky řešitelnost
Výstupy z projektu PROGRESS
Průvodní list Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT   Vzdělávací materiál: Prezentace – zápis pro žáky Určen pro: 2. ročník oboru.
Rovnice HRA.
Grafy kvadratických funkcí
Slovní úlohy o společné práci − 3
Diagnostika dítěte předškolního věku
Transkript prezentace:

Úvod do korpusové lingvistiky 3 Dostupné korpusy a jejich stručná charakteristika

ÚČNK http://ucnk.ff.cuni.cz/ Dostupné korpusy psaného jazyka Hledisko rozsahu a obsahu Hledisko anotací

Korpusy psané češtiny Korpusy řady SYN Synchronní, psané, reprezentativní, obecné (žánrové zastoupení) Synchronní, psané, reprezentativní, specializované (PUB)

Referenční – nereferenční korpus Nereferenční korpus: Většina korpusů ČNK jsou referenční entity, které zůstávají po celou dobu od svého zveřejnění neměnné, takže všechny dotazy, statistiky apod. jsou opakovatelné a dávají stále stejné výsledky. Některé korpusy však mají naopak nereferenční povahu, což znamená, že jsou průběžně vylepšovány a rozšiřovány. Všechny tyto změny jsou vždy po nějaké době promítnuty do již zveřejněného korpusu. K aktualizaci nereferenčního korpusu dochází nepravidelně, přibližně jednou ročně, většinou bez předchozího upozornění.

Synchronnost Hledisko produkce Hledisko recepce

Reprezentativnost Žánrové zastoupení v obecných korpusech řady SYN Zastoupení dle periodik v korpusech SYN_PUB

SYN2000 (100 milionů textových slov (tokens)) Zastoupení žánrů

SYN2005 (100 milionů textových slov (tokens)) Zastoupení žánrů

SYN2010 (100 milionů textových slov (tokens)) Zastoupení žánrů

SYN2006PUB (300 milionů textových slov (tokens))

SYN2009PUB (700 milionů textových slov (tokens))

SYN2013PUB (935 milionů textových slov (tokens))

Standardní anotace Vnětextová – kódy, možnost úplného zobrazení anotací Tokenizace Značkování odstavců Značkování vět Lemmatizace a morfologické značkování

Informace o rozsahu a obsahu korpusu při práci s korpusovým manažerem

SYN2000

KonText

SYN2005

SYN2010

KonText

Definice word (tokenizace http://wiki.korpus.cz/doku.php/pojmy:token) Řetězec znaků mezi oddělovači Problémy tokenizace Když jedné jednotce na úrovni systému odpovídá více jednotek na úrovni textu a naopak

Lemma(http://wiki.korpus.cz/doku.php/pojmy:lemma) Textové slovo – systémové slovo Reprezentativní tvar Lemmatizace prováděná pomocí automatických nástrojů Lemma = tvar sám

Tag Tagset Poziční systém Atribut/hodnota Klasické gramatické kategorie a morfologické tagy

http://wiki.korpus.cz/doku.php/seznamy:tagy

Morfologické značky (tagy) Morfologické značky (tagy) jsou součástí výsledku (výstupem) morfologické analýzy, která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Druhou částí výsledku je tzv. lemma, které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi dochází k desambiguaci (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější.

Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze psané češtiny), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie).

Large web corpora

czTenTen12 (5,5 miliard tokenů)