Jak efektivně využívat korpusy v translatologii?

Slides:



Advertisements
Podobné prezentace
EZB – nástroj pro přístup k elektronickým časopisům PhDr. Petra Šťastná Národní knihovna ČR Seminář Dostupnost elektronických informačních zdrojů v knihovnách.
Advertisements

ON-LINE TESTY PRO DOKTORANDY NA UK FF PRAHA
MS ACCESS - DOTAZY DATABÁZOVÉ SYSTÉMY.
Analýza staročeské morfologie v Excelu
Překlad Bath profilu 2.0 Martin Vojnar
ZÁKLADY HTML Číslo DUM: VY_32_INOVACE_04_11 Autor: Mgr. Ivana Matyášková Datum vytvoření: duben 2013 Ročník: tercie Vzdělávací obor: informační technologie.
Organisation for Economic Cooperation and Development OECD iLibrary.
CJBB75 1 ZPK CJBB75 čtvrtek G
Využití korpusů v překladatelské praxi II
New Catholic Encyklopedia Gale Virtual Reference Library (producent Thomson Gale)
ANL+ Karolína Košťálová Komise pro služby
Korpusová lingvistika (2)
Příprava odborného textu pro výuku PAVEL KURFÜRST Ústav cizích jazyků LF UP Konference Cizí jazyky na Univerzitě Palackého Olomouc, 20. dubna 2006.
SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM!
Albertina a Report Mgr. Libuše Simandlová
CJBB84 1 ZPK CJBB75 čtvrtek G
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Výpočetní technika Akademický rok 2008/2009 Letní semestr Mgr. Petr Novák Katedra informatiky a geoinformatiky FŽP UJEP
53. Šrámkova Sobotka Sobotka 9. července 2009
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
Český národní korpus. Spolupracující instituce Filozofická fakulta UK Matematicko-fyzikální fakulta UK Fakulta informatiky MU Filozofická fakulta MU Ústav.
Zpracování seminárních a kvalifikačních prací
Informační centrum a Ústřední knihovna MENDELU
Digitální publikace a e-knihy v Ústavu pro českou literaturu AV ČR Pavel Janáček, Michal Kosák, Praha,
Korpus nejsou jenom dorty
Workshop o paralelním korpusu InterCorp
2. Národní konference o doporučených postupech , Olomouc Katalog klinických doporučených postupů – současný stav a možnosti využití Miroslav.
Informace – vyhledávání informací
Soustava lineárních nerovnic
Rektor Zdroj:
1 Martin Vojnar Indexy a uživatelé paměťových institucí IKI, 17. ledna
Tutoriál DynaMed ~ Jednoduché prohledávání
Základy práce na PC Ing. Jan Roubíček. Vyhledávání souborů VY_32_INOVACE_10_1_11_AP.
Úvod do korpusové lingvistiky 8
Tutoriál Vlastní složka My EBSCOhost
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
FOTOARCHIV ČGS Pavel Bokr Tamara Sidorinová geology
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
IT Session Two Lessons Three and Four. Outline  IT Test 1  International Phonetic Alphabet  IPA – Interactive chart  Exercise 1  Český národní korpus.
E-knihovna pro knihovníky Seminář E-knihy III, NTK,
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
KIV/ZIS cvičení 6 Tomáš Potužák. Pokračování SQL Klauzule GROUP BY a dotazy nad více tabulkami Stáhnout soubor studenti_dotazy_sql.mdb.
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
WWW – hypertextový informační systém
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
KORPUSOVÁ LINGVISTIKA. ÚKOL Prozkoumejte gradační vlastnosti adjektiv v konstrukci "nicht nur ADJ (...) sondern", např. nicht nur hübsch, sondern auch.
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
B ORIS L EHEČKA, ODDĚLENÍ VÝVOJE JAZYKA ÚJČ AV ČR, V. V. I. DALIBORIS. CZ P RAŽSKÉ JARO V O STRAVĚ, 24. BŘEZNA 2015 Nástroje pro badatele (nejen)
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Jak vyhledávat informace na Internetu?
CJBB CJBB75.
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Anopress: nová grafika, nové možnosti Mgr. Daniela Uhrová září 2010.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
Informační zdroje pro volbu povolání Technika a technické vzdělávání 2.
Jana Holá Tvorba rešerše Jana Holá
CJBB75 Základy využití korpusu pro praxi st G13.
Využití sestavy Zobrazení a typy Části sestavy Vytvoření sestavy Ovládací prvky.
Tabulkové editory © Tabulkové editory slouží k: vytváření a úpravě tabulek na rozdíl od textových editorů jsou tabulky v těchto editorech aktivní,
Vypracováno kolektivem autorů České společnosti pro technickou normalizaci Úřad pro technickou normalizaci, metrologii a státní zkušebnictví
JAK SPRÁVNĚ GŮGLIT. PŘESNÁ SLOVA A FRÁZE nejzákladnější a nejvíce známý vyhledávací trik uvozovky k vyhledání přesné fráze. například provedete následující.
Jana Holá Tvorba rešerše Jana Holá
Soustava lineárních nerovnic
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Úvod do korpusové lingvistiky 3
OECD iLibrary Centrum informačních a knihovnických služeb
Transkript prezentace:

Jak efektivně využívat korpusy v translatologii? ÚTRL, 28. 11. 2013 Olga Richterová s využitím prezentací L. Chlumské a A. Rosena a práce všech kolegů ÚČNK, FF UK

JAK SE OVĚŘITELNĚ NĚCO DOZVĚDĚT O JAZYCE?

A JAK SI UMĚT PŘEDSTAVIT VÝSLEDKY? www.syd.korpus.cz http://syd.korpus.cz/GUDraitO.syn

PŘEHLED PREZENTACE O korpusové lingvistice – co je to korpus O korpusech ČNK a korpusu InterCorp zvlášť DOSTUPNÉ KORPUSY: www.korpus.cz/kontext INTERCORP: jazyky a zarovnání texty a jejich anotace lemmatizace a tagování Možnosti vyhledávání volba korpusů typy dotazu, vč. CQL další funkce (frekvenční distribuce, kolokace atd.) subkorpusy a podmínky Proti: že to je drahý

CO JE TO TEXTOVÝ KORPUS

Minulost a současnost Jak zkoumat jazyk? Jako vzájemně kombinovatelná slova v reálném textu Zásadní význam kontextu a syntagmatiky Projekt Český národní korpus (ČNK) Od r. 1994 zdarma umožňuje přístup tisícům uživatelů vzorem: British National Corpus Dostupné a plánované korpusy ČNK zpřístupňují: jazyk současný i minulý (synchronie i diachronie) čeština i cizí jazyky texty jednojazyčné i paralelně zarovnané překladové jazyk mluvený i psaný jazyk dospělých i žáků jazyk soukromý i veřejný

Charakteristika korpusu Leech: “The difference between an archive and a corpus must be that the latter is designed or required for a particular ‘representative’ function“. Korpus bývá většinou: anotovaný (přidaná informace o názvu a typu textu, autorovi, roku vydání, žánru apod.) lemmatizovaný (každé slovo opatřeno svým slovníkovým tvarem – lemmatem: např. infinitiv sloves) označkovaný (každé slovo má svou morf. značku) Kilgariff (2001): “The corpus of the new millennium is the Web”.

Aspekty korpusového výzkumu význam frekvence jazykového jevu centrum a periferie jazyka to, co není v korpusu, neexistuje? Pozor! hapax legomenon (jednovýskytová slova) syntagmatika v. paradigmatika jazyka kolokace, koligace, lexical bundles atp. jazyk a jeho zákonitosti Zipfovy zákony (neplatí jen na jazyk) přístupy corpus-based a corpus-driven

K čemu všemu korpus slouží? Komu: jazykovědcům: hl. jednojazyčné referenční korpusy překladatelům: kolokace, paralelní korpusy (pro překladové ekvivalenty – hl. neterminologické) redaktorům, novinářům: SyD – průzkum variant Pro: výzkum jazyka srovnávání variant (mluveného i psaného jazyka) ověřování překladatelských řešení zdůvodňování překladatelských řešení vyhledání vhodného výrazu (podle koncovky, sl. druhu apod.)

CO NABÍZÍ (Ú)ČNK reklamní vsuvka pro studenty FF UK SPECIALIZOVANÉ SEMINÁŘE se zaměřením na: Český / anglický / německý jazyk a korpus Frazeologii či lexikologii Mluvený jazyk Základy programování či statistiky doktorské studium v oboru korpusová lingvistika

Kde se přihlásit po registraci?

Kde se přihlásit po registraci?

Současné rozhraní: NoSketch Engine

Současné rozhraní: NoSketch Engine

Naše nové rozhraní: KonText

Naše nové rozhraní: KonText

Popis rozhraní Odkazy na další programy Menu Anotace (defaultně název díla, lze nastavit v Možn. zobrazení) Konkordanční řádky: KWIC (key word in context)

www.korpus.cz/kontext Nové rozhraní a jeho popis: https://trnka.ff.cuni.cz/dokuwiki/doku.php www.korpus.cz/kontext

Jak začít Jaký jazyk nás zajímá? Jaký jev chceme hledat? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický? výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci/složitější strukturu informace z tagů (slovní druh, pád, čas, …) výběr typu dotazu

Dostupné korpusy ČNK Synchronní korpusy psané češtiny: řada SYN Synchronní korpusy mluvené češtiny: řada ORAL Diachronní korpus (14.–20. století): DIAKORP Paralelní korpus (31 evropských jazyků): InterCorp Webové korpusy (4 cizojazyčné) Malé specializované korpusy (Deaf, Dopisy a další)

Synchronní psané korpusy všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy název velikost popis SYN2000 100 mil. vyvážený korpus; většina textů z let 1990–1999 SYN2005 vyvážený korpus; většina textů z let 2000–2004 SYN2006PUB 300 mil. publicistické texty z let 1989–2004 SYN2009PUB 700 mil. publicistické texty z let 1995–2007 SYN2010 vyvážený korpus; většina textů z let 2005–2009 SYN 1 300 mil. nereferenční korpus, souhrn všech SYN korpusů A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Složení SYN2010 textové typy (beletrie, publicistika a odborná) a žánry seznam zkratek žánrů: http://korpus.cz/bonito/n_genre2.html

Synchronní psané korpusy Kritérium reprezentativnosti: recepce vs. produkce korpusy řady SYN založeny na recepci (tj. co se čte) distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880) publicistika: současná (za každý rok stejný objem textu) odborná literatura: po roce1990 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Synchronní mluvené korpusy referenční (nemění se) neformální situace – konverzace v rodině nebo s přáteli není lemmatizace, ani značkování plánovaný ORAL2013: z celé republiky (nejen z Čech!) se zvukovou stopou pro každou promluvu název velikost popis ORAL2006 1 mil. korpus neformální mluvené češtiny ORAL2008 sociolingvisticky vyvážený korpus neformální mluvené češtiny A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Oral2013 kliknutím na závorku (označení promluvy) lze přehrát audio! upozornit na anotaci! vek, pohlavi, vzdelani apod. kliknutím na závorku (označení promluvy) lze přehrát audio!

Oral2013 anotace v mluveném korpusu: - pohlaví, věk, vzdělání - region upozornit na anotaci! vek, pohlavi, vzdelani apod. anotace v mluveném korpusu: - pohlaví, věk, vzdělání - region - typ události

Diachronní korpus nereferenční korpus transkripce, nikoli transliterace plánovaná lemmatizace a značkování především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu název velikost popis DIAKORP 2 mil. korpus mapující sedm století vývoje češtiny (14.–20. století) A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Paralelní korpus ve spolupráci s dalšími ústavy a univerzitami stále roste korpusový manažer Park, nyní v rozhraní KonText zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot užitečný ne tolik pro terminologii (převaha beletrie), ale pro překladové ekvivalenty (lingvistický výzkum, překlad atd.) název velikost popis InterCorp ca 140 mil. paralelní korpus zahrnující momentálně 27 evropských jazyků A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Park – starší rozhraní pro paralelní korpus

Specializované korpusy hostování korpusu: služba nabízená v rámci ČNK dalším výzkumným institucím finální technické zpracování dat poskytování veřejného přístupu a související služby název velikost popis KSK-Dopisy 800 000 hostovaný; soukromá korespondence z let 1990–2004 SCHOLA2010 790 000 hostovaný; přepisy vyučovacích hodin PMK BMK 675 000 490 000 hostovaný; Pražský mluvený korpus z let 1988–1996 hostovaný; Brněnský mluvený korpus z let 1994–1999 CzeSL 2.5 mil. Czech as Second Language; slohové práce romských žáků, eseje cizinců, odborné kvalifikační práce LINK 1.8 mil. korpus akademických textů (lingvistika) DOTKO 12 mil. hostovaný; korpus dolnolužické srbštiny z let 1848–1933 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

Možné referenční korpusy Angličtina: BNC (British National Corpus) COCA (Corpus of Contemporary American English) http://corpus.byu.edu/bnc/ http://corpus.byu.edu/ Němčina: DeReKo (Deutsches Referenzkorpus) http://corpora.ids-mannheim.de/ccdb/ http://www.ids-mannheim.de/ - Cosmas II

O KORPUSU INTERCORP aktuální informace použity z prezentace Alexandra Rosena dostupné zde: http://utkl.ff.cuni.cz/~rosen/public/2013_IC_workshop_show.pdf

SROVNATELNÝ (comparable) Vícejazyčné korpusy PARALELNÍ (parallel) zpravidla označuje korpus složený z originálů a jejich překladů v jednom či více cizích jazycích lze v něm dohledat zdrojové texty (=originály) bývá zarovnán na úrovni vět/segmentů InterCorp SROVNATELNÝ (comparable) většinou obsahuje srovnatelné texty podobného typu, žánru a délky ve více jazycích nejedná se o překlady, nelze dohledat zdrojové texty může být i jednojazyčný (například srovnatelný korpus překladové a nepřekladové češtiny)

Výhody a nevýhody paralelního korpusu Umožňuje zkoumat jazyk v kontrastivním pohledu dohledávat překladové ekvivalenty analyzovat rysy překladu Nedostatky reprezentativnost – zdaleka ne všechny žánry lze získat paralelně automatické zarovnání (alignment) nemusí být 100% spolehlivé a ruční je časově i finančně náročné

Základní údaje o InterCorpu vícejazyčný paralelní korpus zaměřený na češtinu součást projektu Český národní korpus www.korpus.cz/intercorp dostupný pro všechny registrované uživatele zdarma přibližně každý rok nové, aktualizované vydání s novými texty (i jazyky) poslední verze 6 - duben 2013 přibyla katalánština, arabština, hindština a ukrajinština hojně využíván i mimo fakultu (překladatelé, studenti)

Základní údaje o InterCorpu čeština jako pivot každý text musí být k dispozici v češtině a alespoň jednom dalším jazyce zarovnání po větách mezi texty v jiných jazycích je zarovnání přes českou verzi vyhledávací rozhraní: Park (původní rozhraní pouze pro paralelní korpus, nevyvíjí se) NoSketch Engine (přístup i k jednojazyčným korpusům) KonText (nové, vylepšené rozhraní, nový vzhled i funkce)

InterCorp – verze 6 celková velikost: 867/100 mil. slov (cizí/české) počet jazyků: 31 jazyky se liší objemem textů a ne všechny jsou lemmatizovány a tagovány! celková velikost: 867/100 mil. slov (cizí/české) složení: jádro a kolekce beletristické texty, manuální zarovnání: 139/62 mil. slov žurnalistika: 33/4 Project Syndicate: http://www.project-syndicate.org/ PressEurop: http://www.presseurop.eu právnické texty: 430/20 Acquis Communautaire: http://langtech.jrc.ec.europa.eu/JRC-Acquis.html EP: 265/13 Europarl: http://www.statmt.org/europarl/ (nejvíce má němčina, španělština, polština)

InterCorp – jádro (BEL)

InterCorp – kolekce (PUB, LEGAL…)

InterCorp – počty textů

Texty s největším množstvím verzí 26 J. K. Rowling Harry Potter a kámen mudrců 24 A. de Saint-Exupéry Malý princ 21 Lewis Carroll Alenka v říši divů 20 Milan Kundera Nesnesitelná lehkost bytí 20 J. K. Rowling Harry Potter a tajemná komnata 19 Douglas Adams Stopařův průvodce po galaxii 19 Milan Kundera Žert 18 Dan Brown Šifra Mistra Leonarda 18 Michail Bulgakov Mistr a Markétka 18 Jaroslav Hašek Osudy dobrého vojáka Švejka 18 A. A. Milne Medvídek Pú 18 J. K. Rowling Harry Potter a vězeň z Azkabanu 18 J. R. R. Tolkien Pán prstenů I–III 17 Paolo Coelho Alchymista 17 J. R. R. Tolkien Hobit

Texty s největším množstvím verzí II 16 Umberto Eco Jméno růže 16 Franz Kafka Proces 16 George Orwell 1984 16 J. K. Rowling Harry Potter a ohnivý pohár 15 Anna Franková Deník 14 Rudyard Kipling Kniha džunglí 14 Milan Kundera Nesmrtelnost 14 Nikolaj Ostrovskij Jak se kalila ocel 13 Bohumil Hrabal Příliš hlučná samota 13 Milan Kundera Směšné lásky 13 J. K. Rowling Harry Potter a Fénixův řád 12 F. S. Fitzgerald Velký Gatsby 12 Bohumil Hrabal Obsluhoval jsem anglického krále 12 Franz Kafka Zámek 12 Franz Kafka Proměna 12 Milan Kundera Valčík na rozloučenou

MOŽNOSTI VYHLEDÁVÁNÍ

Co nabízí rozhraní NoSke/KonText všechny funkce jako v rozhraní Park umožňuje hledat v jednotlivých jazycích jako v samostatných korpusech (bez zobrazení paralelní verze) v paralelním zobrazení vždy jeden korpus základní a ostatní zarovnané více funkcí pro základní korpus: kolokace, frekvenční distribuce, třídění… umožňuje zobrazit výsledky i v případě, že v některém z jazyků daný text chybí (prázdné řádky) www.korpus.cz/corpora www.korpus.cz/kontext

Příklad výběru korpusů

Paralelní korpusy v rozhraní KonText

Pokládání dotazu v obou korpusech typ dotazu podřetězec (najde všechna slova, která obsahují zadaný řetězec znaků)

Pokládání dotazu v obou korpusech

Typy dotazů u různých korpusů úplná nabídka typů dotazu u lemmatizovaného a tagovaného korpusu EN základní lemma fráze slovní tvar podřetězec CQL

Typy dotazů u různých korpusů omezená nabídka (chybí typ lemma) u nelemmatizovaného korpusu NL

Tagování se v různých jazycích liší!

Kde najdu, jak vypadají různé tagy? http://www.korpus.cz/intercorp/?req=page:info

POJĎME VYHLEDÁVAT! základní korpus EN > Harry Potter zarovnané CS, SK, IT, DE dotaz (slovní tvar): Dumbledore jak se překládá do jiných jazyků?

Dumbledore v různých překladech

POKROČILÉ DOTAZY: ochutnávka možností, jež korpusy nabízejí

Regulární výrazy: zástupné symboly a možnosti opakování Mohou se užívat ve všech typech dotazů kromě základního tečka (.) – představuje jeden libovolný znak, interval ({n, k}) – n až k opakování předchozího znaku nebo většího celku hvězdička (*) – libovolný počet (0 a více) opakování předchozího znaku nebo celku, tj. {0,} plus (+) – 1 nebo více opakování předchozího znaku nebo celku, tj. {1,}

Regulární výrazy: možnosti opakování a logické operátory otazník (?) – žádný nebo jeden výskyt předchozího znaku nebo celku, tj. {0,1} seznam ([]) – alternativa, výběr jednoho libovolného znaku z těch, které jsou uvedeny uvnitř závorek svislá čára (|) – také alternativa, ne ovšem mezi jednotlivými znaky, ale celými řetězci tvořícími jednotku kulaté závorky – libovolnou část výrazu je možné seskupit do kulatých závorek, vytvořit tak jistý celek a ovlivnit tím prioritu jeho vyhodnocování

[lemma="love" & tag= ="V.*"] Corpus Query Language úplná podoba dotazu [atribut="hodnota"] atributy: word (slovní tvar), lemma (slovníkový tvar), tag (morfologická značka), příp. pos (part of speech) hodnoty: konkrétní hledání, ať už jde o slovo, název tagu nebo řetězec znaků s regulárními výrazy (např. ".*ing", "bysme", "VVG") lze spojit více atributů dohromady a specifikovat dotaz: [lemma="love" & tag= ="V.*"] Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

Dotazovací jazyk (CQL) a prázdná pozice [lemma="have"][][lemma="get"] Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

Operátor rozsahu {} Tento dotaz: [lemma="have"][][lemma="get"] se rovná tomuto: [lemma="have"][]{1}[lemma="get"] Jak najít čtyři anglická adjektiva za sebou? [tag="JJ.*"]{4} Zkusme to v paralelním korpusu EN - CS Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

Hledáme v rámci jedné věty [lemma="have"][]{1,2}[lemma="get"][]+[word="\?"] within <s/>

Hledáme na začátku a na konci věty Chceme najít anglické „there“ na začátku věty a podívat se na jeho překlady do češtiny: <s> [tag="EX"] Stejně tak můžeme vyhledávat např. podstatná jména předcházející konci věty: [tag="N.*"] [] </s> prázdná pozice pro interpunkci

SUBKORPUSY aneb jak hledat pouze v datech splňujících konkrétní podmínky (autor, doba vydání, zdrojový jazyk…)

Vytváření subkorpusů Lze v rámci jednoho dotazu i trvale (výhodnější) Podle seznamu atributů výhoda: jednoduše zaškrtneme nevýhoda: ne všechny atributy a metainformace se zobrazí Vlastní within podmínkou výhoda: možnost specifikovat si parametry podle sebe lze například vytvořit subkorpus ženských autorek: div authsex="F" subkorpus textů vydaných po roce 2000: div pubyear="20.."

Metadata pro tvorbu subkorpusů v InterCorpu http://korpus.cz/intercorp/?req=page:metadata&lang=cs

Rozdíly v anotaci: SYN a InterCorp SYN: není-li u atributu „srclang“, uvedena žádná hodnota, jedná se o češtinu! SYN(…): within <srclang=""/> InterCorp: within <srclang="cs"/> strukturní atributy: doc – opus – div (část dokumentu) autor – author rokvyd - pubyear ENG – en ...

SYN, InterCorp a jazyk překladu SYN: po vytvoření subkorpusu s podmínkou zdrojového jazyka češtiny: [tag="I.*"] within <opus srclang="" /> můžeme porovnat např. s citoslovci v jazyce překladu: [tag="I.*"] within <opus srclang!="" /> Podobně v InterCorpu musíme dbát na směr překladu: u řady textů však neznáme zdrojový jazyk!

Máte jakékoli dotazy? Sem s nimi!

Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro VaVaI

olga.richterova@ff.cuni.cz [word="thank"] [] []? []? "[word="attention"]