Jak efektivně využívat korpusy v translatologii? ÚTRL, 28. 11. 2013 Olga Richterová s využitím prezentací L. Chlumské a A. Rosena a práce všech kolegů ÚČNK, FF UK
JAK SE OVĚŘITELNĚ NĚCO DOZVĚDĚT O JAZYCE?
A JAK SI UMĚT PŘEDSTAVIT VÝSLEDKY? www.syd.korpus.cz http://syd.korpus.cz/GUDraitO.syn
PŘEHLED PREZENTACE O korpusové lingvistice – co je to korpus O korpusech ČNK a korpusu InterCorp zvlášť DOSTUPNÉ KORPUSY: www.korpus.cz/kontext INTERCORP: jazyky a zarovnání texty a jejich anotace lemmatizace a tagování Možnosti vyhledávání volba korpusů typy dotazu, vč. CQL další funkce (frekvenční distribuce, kolokace atd.) subkorpusy a podmínky Proti: že to je drahý
CO JE TO TEXTOVÝ KORPUS
Minulost a současnost Jak zkoumat jazyk? Jako vzájemně kombinovatelná slova v reálném textu Zásadní význam kontextu a syntagmatiky Projekt Český národní korpus (ČNK) Od r. 1994 zdarma umožňuje přístup tisícům uživatelů vzorem: British National Corpus Dostupné a plánované korpusy ČNK zpřístupňují: jazyk současný i minulý (synchronie i diachronie) čeština i cizí jazyky texty jednojazyčné i paralelně zarovnané překladové jazyk mluvený i psaný jazyk dospělých i žáků jazyk soukromý i veřejný
Charakteristika korpusu Leech: “The difference between an archive and a corpus must be that the latter is designed or required for a particular ‘representative’ function“. Korpus bývá většinou: anotovaný (přidaná informace o názvu a typu textu, autorovi, roku vydání, žánru apod.) lemmatizovaný (každé slovo opatřeno svým slovníkovým tvarem – lemmatem: např. infinitiv sloves) označkovaný (každé slovo má svou morf. značku) Kilgariff (2001): “The corpus of the new millennium is the Web”.
Aspekty korpusového výzkumu význam frekvence jazykového jevu centrum a periferie jazyka to, co není v korpusu, neexistuje? Pozor! hapax legomenon (jednovýskytová slova) syntagmatika v. paradigmatika jazyka kolokace, koligace, lexical bundles atp. jazyk a jeho zákonitosti Zipfovy zákony (neplatí jen na jazyk) přístupy corpus-based a corpus-driven
K čemu všemu korpus slouží? Komu: jazykovědcům: hl. jednojazyčné referenční korpusy překladatelům: kolokace, paralelní korpusy (pro překladové ekvivalenty – hl. neterminologické) redaktorům, novinářům: SyD – průzkum variant Pro: výzkum jazyka srovnávání variant (mluveného i psaného jazyka) ověřování překladatelských řešení zdůvodňování překladatelských řešení vyhledání vhodného výrazu (podle koncovky, sl. druhu apod.)
CO NABÍZÍ (Ú)ČNK reklamní vsuvka pro studenty FF UK SPECIALIZOVANÉ SEMINÁŘE se zaměřením na: Český / anglický / německý jazyk a korpus Frazeologii či lexikologii Mluvený jazyk Základy programování či statistiky doktorské studium v oboru korpusová lingvistika
Kde se přihlásit po registraci?
Kde se přihlásit po registraci?
Současné rozhraní: NoSketch Engine
Současné rozhraní: NoSketch Engine
Naše nové rozhraní: KonText
Naše nové rozhraní: KonText
Popis rozhraní Odkazy na další programy Menu Anotace (defaultně název díla, lze nastavit v Možn. zobrazení) Konkordanční řádky: KWIC (key word in context)
www.korpus.cz/kontext Nové rozhraní a jeho popis: https://trnka.ff.cuni.cz/dokuwiki/doku.php www.korpus.cz/kontext
Jak začít Jaký jazyk nás zajímá? Jaký jev chceme hledat? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický? výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci/složitější strukturu informace z tagů (slovní druh, pád, čas, …) výběr typu dotazu
Dostupné korpusy ČNK Synchronní korpusy psané češtiny: řada SYN Synchronní korpusy mluvené češtiny: řada ORAL Diachronní korpus (14.–20. století): DIAKORP Paralelní korpus (31 evropských jazyků): InterCorp Webové korpusy (4 cizojazyčné) Malé specializované korpusy (Deaf, Dopisy a další)
Synchronní psané korpusy všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy název velikost popis SYN2000 100 mil. vyvážený korpus; většina textů z let 1990–1999 SYN2005 vyvážený korpus; většina textů z let 2000–2004 SYN2006PUB 300 mil. publicistické texty z let 1989–2004 SYN2009PUB 700 mil. publicistické texty z let 1995–2007 SYN2010 vyvážený korpus; většina textů z let 2005–2009 SYN 1 300 mil. nereferenční korpus, souhrn všech SYN korpusů A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Složení SYN2010 textové typy (beletrie, publicistika a odborná) a žánry seznam zkratek žánrů: http://korpus.cz/bonito/n_genre2.html
Synchronní psané korpusy Kritérium reprezentativnosti: recepce vs. produkce korpusy řady SYN založeny na recepci (tj. co se čte) distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880) publicistika: současná (za každý rok stejný objem textu) odborná literatura: po roce1990 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Synchronní mluvené korpusy referenční (nemění se) neformální situace – konverzace v rodině nebo s přáteli není lemmatizace, ani značkování plánovaný ORAL2013: z celé republiky (nejen z Čech!) se zvukovou stopou pro každou promluvu název velikost popis ORAL2006 1 mil. korpus neformální mluvené češtiny ORAL2008 sociolingvisticky vyvážený korpus neformální mluvené češtiny A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Oral2013 kliknutím na závorku (označení promluvy) lze přehrát audio! upozornit na anotaci! vek, pohlavi, vzdelani apod. kliknutím na závorku (označení promluvy) lze přehrát audio!
Oral2013 anotace v mluveném korpusu: - pohlaví, věk, vzdělání - region upozornit na anotaci! vek, pohlavi, vzdelani apod. anotace v mluveném korpusu: - pohlaví, věk, vzdělání - region - typ události
Diachronní korpus nereferenční korpus transkripce, nikoli transliterace plánovaná lemmatizace a značkování především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu název velikost popis DIAKORP 2 mil. korpus mapující sedm století vývoje češtiny (14.–20. století) A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Paralelní korpus ve spolupráci s dalšími ústavy a univerzitami stále roste korpusový manažer Park, nyní v rozhraní KonText zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot užitečný ne tolik pro terminologii (převaha beletrie), ale pro překladové ekvivalenty (lingvistický výzkum, překlad atd.) název velikost popis InterCorp ca 140 mil. paralelní korpus zahrnující momentálně 27 evropských jazyků A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Park – starší rozhraní pro paralelní korpus
Specializované korpusy hostování korpusu: služba nabízená v rámci ČNK dalším výzkumným institucím finální technické zpracování dat poskytování veřejného přístupu a související služby název velikost popis KSK-Dopisy 800 000 hostovaný; soukromá korespondence z let 1990–2004 SCHOLA2010 790 000 hostovaný; přepisy vyučovacích hodin PMK BMK 675 000 490 000 hostovaný; Pražský mluvený korpus z let 1988–1996 hostovaný; Brněnský mluvený korpus z let 1994–1999 CzeSL 2.5 mil. Czech as Second Language; slohové práce romských žáků, eseje cizinců, odborné kvalifikační práce LINK 1.8 mil. korpus akademických textů (lingvistika) DOTKO 12 mil. hostovaný; korpus dolnolužické srbštiny z let 1848–1933 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.
Možné referenční korpusy Angličtina: BNC (British National Corpus) COCA (Corpus of Contemporary American English) http://corpus.byu.edu/bnc/ http://corpus.byu.edu/ Němčina: DeReKo (Deutsches Referenzkorpus) http://corpora.ids-mannheim.de/ccdb/ http://www.ids-mannheim.de/ - Cosmas II
O KORPUSU INTERCORP aktuální informace použity z prezentace Alexandra Rosena dostupné zde: http://utkl.ff.cuni.cz/~rosen/public/2013_IC_workshop_show.pdf
SROVNATELNÝ (comparable) Vícejazyčné korpusy PARALELNÍ (parallel) zpravidla označuje korpus složený z originálů a jejich překladů v jednom či více cizích jazycích lze v něm dohledat zdrojové texty (=originály) bývá zarovnán na úrovni vět/segmentů InterCorp SROVNATELNÝ (comparable) většinou obsahuje srovnatelné texty podobného typu, žánru a délky ve více jazycích nejedná se o překlady, nelze dohledat zdrojové texty může být i jednojazyčný (například srovnatelný korpus překladové a nepřekladové češtiny)
Výhody a nevýhody paralelního korpusu Umožňuje zkoumat jazyk v kontrastivním pohledu dohledávat překladové ekvivalenty analyzovat rysy překladu Nedostatky reprezentativnost – zdaleka ne všechny žánry lze získat paralelně automatické zarovnání (alignment) nemusí být 100% spolehlivé a ruční je časově i finančně náročné
Základní údaje o InterCorpu vícejazyčný paralelní korpus zaměřený na češtinu součást projektu Český národní korpus www.korpus.cz/intercorp dostupný pro všechny registrované uživatele zdarma přibližně každý rok nové, aktualizované vydání s novými texty (i jazyky) poslední verze 6 - duben 2013 přibyla katalánština, arabština, hindština a ukrajinština hojně využíván i mimo fakultu (překladatelé, studenti)
Základní údaje o InterCorpu čeština jako pivot každý text musí být k dispozici v češtině a alespoň jednom dalším jazyce zarovnání po větách mezi texty v jiných jazycích je zarovnání přes českou verzi vyhledávací rozhraní: Park (původní rozhraní pouze pro paralelní korpus, nevyvíjí se) NoSketch Engine (přístup i k jednojazyčným korpusům) KonText (nové, vylepšené rozhraní, nový vzhled i funkce)
InterCorp – verze 6 celková velikost: 867/100 mil. slov (cizí/české) počet jazyků: 31 jazyky se liší objemem textů a ne všechny jsou lemmatizovány a tagovány! celková velikost: 867/100 mil. slov (cizí/české) složení: jádro a kolekce beletristické texty, manuální zarovnání: 139/62 mil. slov žurnalistika: 33/4 Project Syndicate: http://www.project-syndicate.org/ PressEurop: http://www.presseurop.eu právnické texty: 430/20 Acquis Communautaire: http://langtech.jrc.ec.europa.eu/JRC-Acquis.html EP: 265/13 Europarl: http://www.statmt.org/europarl/ (nejvíce má němčina, španělština, polština)
InterCorp – jádro (BEL)
InterCorp – kolekce (PUB, LEGAL…)
InterCorp – počty textů
Texty s největším množstvím verzí 26 J. K. Rowling Harry Potter a kámen mudrců 24 A. de Saint-Exupéry Malý princ 21 Lewis Carroll Alenka v říši divů 20 Milan Kundera Nesnesitelná lehkost bytí 20 J. K. Rowling Harry Potter a tajemná komnata 19 Douglas Adams Stopařův průvodce po galaxii 19 Milan Kundera Žert 18 Dan Brown Šifra Mistra Leonarda 18 Michail Bulgakov Mistr a Markétka 18 Jaroslav Hašek Osudy dobrého vojáka Švejka 18 A. A. Milne Medvídek Pú 18 J. K. Rowling Harry Potter a vězeň z Azkabanu 18 J. R. R. Tolkien Pán prstenů I–III 17 Paolo Coelho Alchymista 17 J. R. R. Tolkien Hobit
Texty s největším množstvím verzí II 16 Umberto Eco Jméno růže 16 Franz Kafka Proces 16 George Orwell 1984 16 J. K. Rowling Harry Potter a ohnivý pohár 15 Anna Franková Deník 14 Rudyard Kipling Kniha džunglí 14 Milan Kundera Nesmrtelnost 14 Nikolaj Ostrovskij Jak se kalila ocel 13 Bohumil Hrabal Příliš hlučná samota 13 Milan Kundera Směšné lásky 13 J. K. Rowling Harry Potter a Fénixův řád 12 F. S. Fitzgerald Velký Gatsby 12 Bohumil Hrabal Obsluhoval jsem anglického krále 12 Franz Kafka Zámek 12 Franz Kafka Proměna 12 Milan Kundera Valčík na rozloučenou
MOŽNOSTI VYHLEDÁVÁNÍ
Co nabízí rozhraní NoSke/KonText všechny funkce jako v rozhraní Park umožňuje hledat v jednotlivých jazycích jako v samostatných korpusech (bez zobrazení paralelní verze) v paralelním zobrazení vždy jeden korpus základní a ostatní zarovnané více funkcí pro základní korpus: kolokace, frekvenční distribuce, třídění… umožňuje zobrazit výsledky i v případě, že v některém z jazyků daný text chybí (prázdné řádky) www.korpus.cz/corpora www.korpus.cz/kontext
Příklad výběru korpusů
Paralelní korpusy v rozhraní KonText
Pokládání dotazu v obou korpusech typ dotazu podřetězec (najde všechna slova, která obsahují zadaný řetězec znaků)
Pokládání dotazu v obou korpusech
Typy dotazů u různých korpusů úplná nabídka typů dotazu u lemmatizovaného a tagovaného korpusu EN základní lemma fráze slovní tvar podřetězec CQL
Typy dotazů u různých korpusů omezená nabídka (chybí typ lemma) u nelemmatizovaného korpusu NL
Tagování se v různých jazycích liší!
Kde najdu, jak vypadají různé tagy? http://www.korpus.cz/intercorp/?req=page:info
POJĎME VYHLEDÁVAT! základní korpus EN > Harry Potter zarovnané CS, SK, IT, DE dotaz (slovní tvar): Dumbledore jak se překládá do jiných jazyků?
Dumbledore v různých překladech
POKROČILÉ DOTAZY: ochutnávka možností, jež korpusy nabízejí
Regulární výrazy: zástupné symboly a možnosti opakování Mohou se užívat ve všech typech dotazů kromě základního tečka (.) – představuje jeden libovolný znak, interval ({n, k}) – n až k opakování předchozího znaku nebo většího celku hvězdička (*) – libovolný počet (0 a více) opakování předchozího znaku nebo celku, tj. {0,} plus (+) – 1 nebo více opakování předchozího znaku nebo celku, tj. {1,}
Regulární výrazy: možnosti opakování a logické operátory otazník (?) – žádný nebo jeden výskyt předchozího znaku nebo celku, tj. {0,1} seznam ([]) – alternativa, výběr jednoho libovolného znaku z těch, které jsou uvedeny uvnitř závorek svislá čára (|) – také alternativa, ne ovšem mezi jednotlivými znaky, ale celými řetězci tvořícími jednotku kulaté závorky – libovolnou část výrazu je možné seskupit do kulatých závorek, vytvořit tak jistý celek a ovlivnit tím prioritu jeho vyhodnocování
[lemma="love" & tag= ="V.*"] Corpus Query Language úplná podoba dotazu [atribut="hodnota"] atributy: word (slovní tvar), lemma (slovníkový tvar), tag (morfologická značka), příp. pos (part of speech) hodnoty: konkrétní hledání, ať už jde o slovo, název tagu nebo řetězec znaků s regulárními výrazy (např. ".*ing", "bysme", "VVG") lze spojit více atributů dohromady a specifikovat dotaz: [lemma="love" & tag= ="V.*"] Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]
Dotazovací jazyk (CQL) a prázdná pozice [lemma="have"][][lemma="get"] Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]
Operátor rozsahu {} Tento dotaz: [lemma="have"][][lemma="get"] se rovná tomuto: [lemma="have"][]{1}[lemma="get"] Jak najít čtyři anglická adjektiva za sebou? [tag="JJ.*"]{4} Zkusme to v paralelním korpusu EN - CS Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]
Hledáme v rámci jedné věty [lemma="have"][]{1,2}[lemma="get"][]+[word="\?"] within <s/>
Hledáme na začátku a na konci věty Chceme najít anglické „there“ na začátku věty a podívat se na jeho překlady do češtiny: <s> [tag="EX"] Stejně tak můžeme vyhledávat např. podstatná jména předcházející konci věty: [tag="N.*"] [] </s> prázdná pozice pro interpunkci
SUBKORPUSY aneb jak hledat pouze v datech splňujících konkrétní podmínky (autor, doba vydání, zdrojový jazyk…)
Vytváření subkorpusů Lze v rámci jednoho dotazu i trvale (výhodnější) Podle seznamu atributů výhoda: jednoduše zaškrtneme nevýhoda: ne všechny atributy a metainformace se zobrazí Vlastní within podmínkou výhoda: možnost specifikovat si parametry podle sebe lze například vytvořit subkorpus ženských autorek: div authsex="F" subkorpus textů vydaných po roce 2000: div pubyear="20.."
Metadata pro tvorbu subkorpusů v InterCorpu http://korpus.cz/intercorp/?req=page:metadata&lang=cs
Rozdíly v anotaci: SYN a InterCorp SYN: není-li u atributu „srclang“, uvedena žádná hodnota, jedná se o češtinu! SYN(…): within <srclang=""/> InterCorp: within <srclang="cs"/> strukturní atributy: doc – opus – div (část dokumentu) autor – author rokvyd - pubyear ENG – en ...
SYN, InterCorp a jazyk překladu SYN: po vytvoření subkorpusu s podmínkou zdrojového jazyka češtiny: [tag="I.*"] within <opus srclang="" /> můžeme porovnat např. s citoslovci v jazyce překladu: [tag="I.*"] within <opus srclang!="" /> Podobně v InterCorpu musíme dbát na směr překladu: u řady textů však neznáme zdrojový jazyk!
Máte jakékoli dotazy? Sem s nimi!
Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro VaVaI
olga.richterova@ff.cuni.cz [word="thank"] [] []? []? "[word="attention"]