KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.

Slides:



Advertisements
Podobné prezentace
Redukce textů, obsahová analýza, anotace
Advertisements

Sémantická anotace dat z webovských zdrojů
Řeč, jazyk, mluva.
Modernizace studijních opor Představení LMS Moodle
Historie a princip INTERNET.
Název: Než začneme s prezentací VY_inovace_32_VT6789_10 Oblast: Výpočetní technika Stručná anotace: Soubor základních pravidel, které by si každý měl uvědomit.
Zpracování seminárních a kvalifikačních prací
TEORETICKÉ OTÁZKY BEZPEČNOSTI
Elektronická pošta Elektronická pošta ( ) je obdobou běžné pošty a umožňuje přijímat a distribuovat dokumenty v textové podobě na jednu nebo více.
E-PK aktuální stav služeb DDS Markéta Hlasivcová Zuzana Švastová ÚIV - NPKK.
STŘEDOŠKOLSKÁ ODBORNÁ ČINNOST STRUKTURA PRÁCE. Práce mohou být vyhotoveny v následujících formách: teoretické řešení problému nebo úkolu, jež je zpracováno.
Analýza informačního systému
Zpráva auditora Zpráva auditora představuje vysoce koncentrovanou informaci pro uživatele účetních závěrek.
ZÁSADY PREZENTACE Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je MGR. MILOŠ NYGRÝN.
Vlastní hodnocení školy ► evaluace = lat. valere – přeneseno do angličtiny= self-evaluation ► Scrivena, 1991 = „proces určování podstaty, hodnoty a ceny.
1IT D OTAZOVACÍ JAZYKY V RELAČNÍCH DATABÁZÍCH Ing. Jiří Šilhán.
Úvod do korpusové lingvistiky 4
Název školy: Střední průmyslová škola, Ostrava - Vítkovice, příspěvková organizace Autor: Mgr. Dana Vicherková Datum: Název: VY_32_INOVACE_2.1.8.
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost Číslo projektu: CZ.1.07/1.5.00/ Číslo materiálu: VY_32_INOVACE_PSK-4-20.
Chyby v psaní seminárních prací
Úvod do studia.
2. seminární úkol - projekt PSY117. Týmový projekt  Záměrem tohoto úkolu je vyzkoušet si realizaci jednoduchého výběrového šetření.  Pětičlenné týmy.
1 Dopad rozhodovací praxe ESD Důchodové pojištění.
Analýza infromačního systému. Matice afinity ISUD matice – Insert (vkládání dat) – Select (výběr dat) – Update (aktualizace dat) – Delete (vymazání dat)
MS PowerPoint Prezentační manažer Kapitola 10.0 (Záhlaví a zápatí)
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Novela zákona č. 106/1999 Sb., o svobodném přístupu k informacím Mgr. David Kotris ISSS 2005 Hradec Králové
Sdílení dat ve veřejné správě Hradec Současný stav  V právním řádu neexistuje předpis, kterým by byla upravena jednotná pravidla pro sdílení.
Digitalizace historických knižních fondů ve správě NPÚ.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
Nové standardy v českém archivnictví
Tento studijní materil byl vytvořen jako výstup z projektu č. CZ.1.07/2.2.00/ Správní proces Úvodní přednáška JUDr. Petra Foltasová.
Základy pedagogické metodologie
Úvod do studia Strategie vyhledávání zdrojů Robert Zbíral.
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
INFORMATIKA 7 Jak má vypadat textový dokument III2 - I7- 16.
Úvodní informace Informatika pro ekonomy II LS 2007/2008.
Sociální zabezpečení v EU Základní zásady, osobní a věcný rozsah.
E-learningový kurz e-learningu OP Vzdělávání pro konkurenceschopnost Další vzdělávání pracovníků škol GP – oblast podpory 1.3 CZ1.07/1.3.05/ Vysoká.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Postup při empirickém kvantitativním výzkumu
Základní problémy realizace eLearningového systému Roman Malo Ústav informatiky PEF MZLU v Brně.
Mgr. Karla Hrbáčková Metodologie pedagogického výzkumu
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Výzkumné techniky Neintervenující výzkumné techniky Sekundární analýza
Základy pracovního práva a sociálního zabezpečení v ES Sociální ochrana zaměstnanců Přednáška č. 6.
CJBB75 Základy využití korpusu pro praxi st G13.
Jak pracovat s multimediálními prezentacemi Přednáší Mgr. Jaromír Kozel
ŠkolaStřední průmyslová škola Zlín Název projektu, reg. č.Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávací.
Transpozice směrnice 2003/98 o opakovaném použití informací veřejného sektoru Mgr. David Kotris konference - Pět let činnosti Nemofora
Úvod do databází zkrácená verze.
Systémová podpora procesů transformace systému péče o ohrožené děti a rodiny Klíčové aktivity realizované v Pardubickém kraji Pardubice, dne
Návrh nařízení Evropského parlamentu a Rady o elektronické identifikaci a důvěryhodných službách pro elektronické transakce na vnitřním trhu (eIDAS) Lucie.
Zahradnická fakulta v Lednici S4U – Seminář o Univerzitním informačním systému 23. – 25. dubna 2008 S 4 U – Seminář o Univerzitním informačním systému.
Odbor veřejné správy, dozoru a kontroly Transpoziční novela zákona o svobodném přístupu k informacím Mgr. et Mgr. Tomáš Jirovec odbor veřejné.
Klára Osolsobě, Hana Žižková
Škola Katolické gymnázium Třebíč, Otmarova 22, Třebíč Název projektu
e-PK aktuální stav služeb DDS
Zpracování textů efektivně
Algoritmizace – základní pojmy
Koordinace důchodových dávek
Operační program Vzdělávání pro konkurenceschopnost, č.OP CZ.1.07
KVALITATIVNÍ VÝZKUM - ÚVOD
ZÁSADY PREZENTACE Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je MGR. MILOŠ NYGRÝN.
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
METODOLOGIE PROJEKTOVÁNÍ
Číslo projektu OP VK Název projektu Moderní škola Název školy
Ekonomický základ veřejné správy MP313K Úvod do studia veřejné správy 9. přednáška doc. JUDr. Petr Havlan, CSc. Definujte zápatí - název.
Úvod do korpusové lingvistiky 3
Analýza informačního systému
Transkript prezentace:

KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2

Korpus 2 V širším slova smyslu soubor textů Sbírka textů Korpus v moderním slova smyslu

Definice korpusu v moderním slova smyslu 3 vzorky (sampling) a reprezentativnost konečná velikost (omezený a vymezený rozsah) strojově čitelná forma (MRF) standardní reference

Reprezentativnost korpusu 4 Texty mají reprezentovat jazyk, a to buď obecně v jeho různých podobách (psané/mluvené), nebo speciálně (např. žánrově vymezené korpusy, autorské korpusy, žákovské korpusy). Vzorky – z textů, z nichž se skládá korpus, se vybírá vzorek (reprezentativní část textu), nebo je text zařazen do korpusu jako celek.

Velikost korpusu 5 Vymezený obsah i rozsah Rozsah psaných a mluvených korpusů s ohledem na žánr Rozsah a obsah autorských korpusů Rozsah a obsah specializovaných korpusů

Strojově čitelná a přístupná podoba 6 Konverze textů existujících ve strojově čitelné podobě do jednotného formátu Převedení textů, které neexistují ve strojově čitelné podobě OCR metody Ruční přepis Budování pravidel pro ruční přepis jako metodologie

Standardní reference 7 Vnětextové značkování Vnitrotextové značkování Tokenizace Tagging Tree bank Sémantické anotace Fonetický přepis

Budování korpusu 8 Určit typ a účel Sběr dat Zajištění právní ochrany poskytnutých dat Zajištění automatických nástrojů pro budování korpusu Zajištění kvalifikovaných anotátorů Zajištění nástrojů pro přístup ke korpusům

Hlavní zásady anotační praxe 9 Anotační schéma by mělo vycházet z teoretických východisek, která by měla být jasně formulovaná a přístupná každému konečnému uživateli korpusu. Mnohé korpusy byly anotovány ručně (existence subjektivních interpretací zaviněných osobou anotátora ve sporných případech). Značkování by pak mělo být doplněno komentáři, z nichž by byl důvod příslušné volby patrný.

Co má uživatel korpusu vědět o anotaci, chce-li ji použít 10 Mělo by být jasné JAK a KDO anotaci provedl (JAK – ručně x automaticky x poloautomaticky, s postkorekcí x bez korekce) (KDO – počítačový program, anotátor - člověk) Uživatel korpusu by si měl být vědom toho, že anotace nejsou nějakou nedotknutelnou neomylnou instancí. Anotace je pouze více či méně užitečným nástrojem. INTERPRETACE. Anotační schéma by mělo být založeno na široce schvalovaných a teoreticky nezatížených principech. Není na škodu i zjednodušující přístup. Žádné anotační schéma nemá právo být pokládáno za standardní. Je-li nějaké řešení uznávanější, děje se tak pouze z praktických důvodů.