Úvod do korpusové lingvistiky 3

Slides:

Advertisements

Podobné prezentace

Úvod do korpusové lingvistiky 4

Advertisements

CJBB75 Základy využití korpusu pro praxi st G13.

Analýza fungování institutu dohod o výkonu pěstounské péče v ČR SocioFactor s.r.o.

Manažerské kvantitativní metody I Literatura Gros I.: Matematické modely pro manažerské rozhodování. Vydavatelství VŠCHT Praha ISBN

Univerzitní informační systém IV., Svojanov 2005 Financování studií Ing. Tomáš Klein

Redukce lůžek Existuje prostor pro redukci lůžek akutní péče?

Střednědobé plány krajů, sítě sociálních služeb a přechod financování sociálních služeb na kraje Konference Financování sociálních služeb pro města a obce.

Oborová brána Musica (MUS) Nový nástroj (nejen) pro české muzikology Václav Kapsa Národní knihovna České republiky Výroční konference ČSHV Nové výsledky.

Vypracování národních norem kódování pro český systém DRG číslo projektu CZ2005/017/ Program Evropské Unie Transition Facility pro Českou.

Insolvenční řízení v ČR Zmar nebo nová šance?. Uspokojení věřitelů: World Bank65 % (údaj z dotazníkové akce) Reálná data ,4 % Co víme o insolvenčních.

Systém správy dokumentace akreditované zkušební laboratoře Bc. Jan Randl, 4912.

Seminář na MZ Bezpečnost zdravotních služeb - současná priorita MZ MUDr. Markéta Hellerová Ministerstvo zdravotnictví.

Předškolní vzdělávání.  Rámcový vzdělávací program vymezuje hlavní požadavky, podmínky a pravidla.  Školní vzdělávací program vytváří každá mateřská.

Krizové štáby. Zákon č. 240/2000 Sb., § 14 (1) Hejtman zajišťuje připravenost kraje na řešení krizových situací; ostatní orgány kraje se na této připravenosti.

Principy Základních registrů Ing. Ondřej Felix, CSc.

Univerzitní informační systém III., Lednice 2004 Vývoj a koncepce nového univerzitního webu Ondřej Kudlík

Mnohočleny Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblast Matematika – výrazy s proměnnými Datum vytvoření

Obsah prezentace Obsah prezentace : DRG a úhrady Úhrady v roce 2012 – úhradová vyhláška Obavy a očekávání poskytovatelů zdravotní péče Obavy a očekávání.

VY_32_INOVACE_10_4_11.

Senzory pro EZS.

Oxford WordSmith Tools 4.0

Komunikační strategie ČIŽP

Slovní úlohy o společné práci

STATISTIKA Starší bratr snědl svůj oběd i oběd mladšího bratra. Oba snědli v průměru jeden oběd.

Paragrafované znění I 9. listopadu 2016 doc. JUDr. Radim Boháč, Ph.D.

EVALUACE v OP RLZ PaedDr. Jaromír Krejčí Mgr. Jana Ostrýtová MŠMT.

Průběžná informační povinnost emitenta kotovaných cenných papírů

Matematika 3 – Statistika Kapitola 4: Diskrétní náhodná veličina

Evaluace předmětů studenty (Anketky)

Zpráva o uplatňování ÚP

ČÍSLO PROJEKTU CZ.1.07/1.5.00/ ČÍSLO MATERIÁLU 1 – Množiny – teorie

Marketingový výzkum. Marketingový výzkum Organizace marketingového výzkumu Cíl výzkumu Typ výzkumu Příprava výzkumného projektu Sběr dat Analýza výsledků.

Téma 11: Finanční plánování

Obchodní akademie a Střední odborná škola, gen. F. Fajtla, Louny, p.o.

Ministerstvo obrany Inspekce ministra obrany

Úvod do tvorby srozumitelného textu

Střednědobý plán rozvoje sociálních služeb v Olomouckém kraji pro roky

NÁZEV ŠKOLY: ZŠ J. E. Purkyně Libochovice

Sémantické aspekty katalogizace VI

Název školy: Základní škola Pomezí, okres Svitavy

Znakový jazyk Znakovaná čeština

Veřejná správa, Regionální rozvoj Litoměřice Jan Jůna 2012

Workshop projektu systémová podpora sociální práce v obcích na téma:

Dlouhodobý záměr vzdělávací a vědecké, výzkumné, vývojové a inovační, umělecké a další tvůrčí činnosti pro oblast vysokých škol na období Petr.

Slovní úlohy o společné práci stejný čas

kpt. Ing. Tomáš Hoffmann HZS Karlovarského kraje

Významné normy Bibliografické citace - obsah, forma, struktura ČSN ISO 690 Úprava písemností psaných strojem nebo zpracovávaných textovými editory ČSN.

BIBS Informatika pro ekonomy přednáška 2

Číslicové měřící přístroje

GDPR: ochrana osobních údajů

Anotace Žák se seznámí s problematikou národa, národnostních menšin a vztahu majority a minorit Autor Mgr. Petr Stonawski Jazyk Čeština Očekávaný výstup.

Změny právní úpravy ochrany přírody a krajiny

Pravidla a doporučené postupy pro vytváření studijních programů

Paragrafované znění I 8. listopadu 2017 doc. JUDr. Radim Boháč, Ph.D.

Microsoft Office Access

Programovatelné automaty (Programmable logic controllers – PLC)

Materiál byl vytvořen v rámci projektu

Slovní úlohy o společné práci

Word Okraje WordArt Pozadí Vodoznak. Word Okraje WordArt Pozadí Vodoznak.

Algebraické výrazy: lomené výrazy

EBSCO PhDr. Ivana Reznerová

DIGITÁLNÍ UČEBNÍ MATERIÁL

Lomené výrazy (2) Podmínky řešitelnost

Výstupy z projektu PROGRESS

Průvodní list Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Vzdělávací materiál: Prezentace – zápis pro žáky Určen pro: 2. ročník oboru.

Grafy kvadratických funkcí

Slovní úlohy o společné práci − 3

Diagnostika dítěte předškolního věku

Transkript prezentace:

Úvod do korpusové lingvistiky 3 Dostupné korpusy a jejich stručná charakteristika

ÚČNK http://ucnk.ff.cuni.cz/ Dostupné korpusy psaného jazyka Hledisko rozsahu a obsahu Hledisko anotací

Korpusy psané češtiny Korpusy řady SYN Synchronní, psané, reprezentativní, obecné (žánrové zastoupení) Synchronní, psané, reprezentativní, specializované (PUB)

Referenční – nereferenční korpus Nereferenční korpus: Většina korpusů ČNK jsou referenční entity, které zůstávají po celou dobu od svého zveřejnění neměnné, takže všechny dotazy, statistiky apod. jsou opakovatelné a dávají stále stejné výsledky. Některé korpusy však mají naopak nereferenční povahu, což znamená, že jsou průběžně vylepšovány a rozšiřovány. Všechny tyto změny jsou vždy po nějaké době promítnuty do již zveřejněného korpusu. K aktualizaci nereferenčního korpusu dochází nepravidelně, přibližně jednou ročně, většinou bez předchozího upozornění.

Synchronnost Hledisko produkce Hledisko recepce

Reprezentativnost Žánrové zastoupení v obecných korpusech řady SYN Zastoupení dle periodik v korpusech SYN_PUB

SYN2000 (100 milionů textových slov (tokens)) Zastoupení žánrů

SYN2005 (100 milionů textových slov (tokens)) Zastoupení žánrů

SYN2010 (100 milionů textových slov (tokens)) Zastoupení žánrů

SYN2006PUB (300 milionů textových slov (tokens))

SYN2009PUB (700 milionů textových slov (tokens))

SYN2013PUB (935 milionů textových slov (tokens))

Standardní anotace Vnětextová – kódy, možnost úplného zobrazení anotací Tokenizace Značkování odstavců Značkování vět Lemmatizace a morfologické značkování

Informace o rozsahu a obsahu korpusu při práci s korpusovým manažerem

SYN2000

KonText

SYN2005

SYN2010

KonText

Definice word (tokenizace http://wiki.korpus.cz/doku.php/pojmy:token) Řetězec znaků mezi oddělovači Problémy tokenizace Když jedné jednotce na úrovni systému odpovídá více jednotek na úrovni textu a naopak

Lemma(http://wiki.korpus.cz/doku.php/pojmy:lemma) Textové slovo – systémové slovo Reprezentativní tvar Lemmatizace prováděná pomocí automatických nástrojů Lemma = tvar sám

Tag Tagset Poziční systém Atribut/hodnota Klasické gramatické kategorie a morfologické tagy

http://wiki.korpus.cz/doku.php/seznamy:tagy

Morfologické značky (tagy) Morfologické značky (tagy) jsou součástí výsledku (výstupem) morfologické analýzy, která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Druhou částí výsledku je tzv. lemma, které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi dochází k desambiguaci (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější.

Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze psané češtiny), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie).

Large web corpora

czTenTen12 (5,5 miliard tokenů)