Využití korpusů v překladatelské praxi II Lucie Chlumská, Olga Richterová ÚČNK FF UK JTP, 19. 3. 2011
Obsah dnešní přednášky a workshopu Jazykový korpus a jeho výhody (15 min) Český národní korpus, nově dostupné korpusy (15 min) Korpusový manažer Bonito: Zopakování základních funkcí (25 min) Regulární výrazy a složitější dotazy (25 min) Přestávka (20 min) Kolokace (20 min) Vytváření subkorpusů podle zadání uživatele (15 min) InterCorp a jeho možnosti (30 min) Ostatní jazykové korpusy (BNC, COCA atd.) (10 min) Diskuse
Korpusové otazníky Co je jazykový korpus? Rozsáhlý soubor počítačově uložených (elektronických) textů anotovaný, lemmatizovaný, označkovaný Korpusová lingvistika: Samostatná vědní disciplína s vypracovanou teorií i metodologií, nebo metoda/metodologie ve službách lingvistických teorií? Východisko pro tvorbu korpusů - otázka preskriptivnosti a deskriptivnosti v jazyce: Je třeba vydávat knihy, které předepisují, jak psát a mluvit, nebo knihy, které stav jazyka popisují? dichotomie správně – špatně x škála centrum – periferie (viz Cvrček V.: Mluvnice současné češtiny. Jak se píše a jak se mluví. Karolinum 2010 nebo http://blog.aktualne.centrum.cz/blogy/vaclav-cvrcek.php?itemid=9513)
Korpusové nástrahy Problém reprezentativnosti (co je v korpusu uloženo) Každý korpus je vytvářený trochu jinak Koncepce reprezentativnosti ČNK založena na recepci Opatrnosti je třeba i při používání ČNK: SYN2010 (http://korpus.cz/syn2010.php) a životní styl náležející do odborné literatury (téměř 6 mil. slov, přírodní vědy cca 4 mil.) SYN2000 - vzestupný počet zastoupené publicistiky (1991 - 2 mil., 1999 - 11 mil.) X SYN2010 - za každý rok stejný počet slov Problém odlišných regulárních výrazů a značek (tagů) Základní rozdělení word – lemma – tag
Korpusové výhody Nový pohled Nové možnosti – korpus versus internet: Nový pohled na jazyk díky statistickému zpracování a obrovskému množství dostupných textů Větší zaměření na syntagmatiku (oproti tradičnímu důrazu na paradigmata) Nové možnosti – korpus versus internet: Dohledatelné zdroje Citovatelný (pozor na nereferenční korpusy!) Český národní korpus - SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>. Český národní korpus - SYN. Ústav Českého národního korpusu FF UK, Praha. Cit. 17.03.2011, dostupný z WWW: <http://www.korpus.cz>. Textový formát Většinou lingvisticky označkovaný (umožňuje složitější dotazy)
Korpusy ve světě a u nás 1. korpus – 60. léta v USA Brown Corpus, Henry Kučera a W. N. Francis, 1 mil. slov korpusová velmoc – Velká Británie Bank of English, nyní 650 mil. slov, nakl. Cobuild BNC – 90. léta, 100 mil. slov, 10% mluvený jazyk USA – monitorovací korpus COCA, COHA, prostřednictvím rozhraní i přístup k BNC ostatní jazyky – Německo (DeReKo), Holandsko atd. ČNK (celkem ve všech korpusech asi 1,5 miliardy slov!)
Český národní korpus Ústav Českého národního korpusu FF UK založen v roce 1994 kontinuální akademický projekt, jehož produkty (tj. jednotlivé korpusy) mapují a monitorují různé podoby českého jazyka, příp. i jazyků jiných (InterCorp) korpusy ČNK jsou přístupné široké veřejnosti jedinou podmínkou je registrace a prohlášení uživatele co se myslí „komerčními účely“ v prohlášení
Dostupné korpusy ČNK korpusy současné psané češtiny: SYN korpusy současné mluvené češtiny: ORAL diachronní korpus (14.–20. století): DIAKORP paralelní korpus (nyní 22 evropských jazyků): InterCorp ostatní, specializované korpusy
SYN2010: synchronní, psaný, 100 mil. slov NOVÝ! SYN2006PUB, SYN2009PUB: pouze publicistika, 300 mil. slov a 700 mil. slov SYN: souhrn všech doposud zveřejněných synchronních korpusů, 1,3 miliardy slov, nereferenční! NOVÝ! ORAL ORAL2006, ORAL2008: každý 1 mil. slov nepřipravené neformální dialogické promluvy nelemmatizované a neoznačkované! InterCorp paralelní korpus: základním jazykem je čeština (pivot), 72 mil. slov složení: beletrie, Syndicate (problém směru překladu) přibyla norština, nové texty (slovenština, němčina atd.) KSK-Dopisy, PMK, BMK, LINK, SCHOLA2010, DOTKO
Korpusový manažer Bonito korpus: texty seřazeny za sebou (BEL, ODB, PUB) korpusový manažer: vyhledává v korpusu Co dokáže korpusový manažer Bonito? vyhledání slova či slovního spojení, zobrazení kontextu a frekvence funkce frekvenční distribuce vyhledávání kolokací (souvýskyt dvou lexémů častější než náhodný) třídění pomocí negativního a pozitivního filtru vytváření subkorpusů (např. podle zdroj. jazyka textu)
Začínáme s Bonitem instalace Bonita z http://korpus.cz/bonito/instalace.php podrobný manuál také k nalezení na www.korpus.cz přihlašovací údaje (pouze pro potřeby workshopu!): Uživatel: seminar Heslo: cent
Umění klást dotazy CQL (Corpus Query Language) Formát dotazu: [atribut=“hodnota”] hranaté závorky zde označují jednu pozici (tedy slovo oddělené mezerami nebo interpunkci) atributem může být word, lemma, tag, pos atd. hodnota (v uvozovkách) je to, co hledáme První dotaz a první kroky s Bonitem: [word=“čupr”] výběr korpusu, zobrazení frekvence vyhledaného slova zobrazení anotace pravým klikem zobrazení a rozšíření kontextu (dvojklikem a šipkami nahoru a dolů nebo kolečkem myši) náhodný vzorek (Menu > Zobrazení > Rozsah > Náhodných)
Implicitní atribut Implicitní atribut (Menu > Korpus > Implicitní atribut) Hledáme více slov naráz: zmoklá slepice, kamenný obchod Není nula jako nula! Pozor na nastavení implicitního atributu! Není všechno zlato, co se v korpusu najde! vyhledejme k lemmatu „pes“ v SYN2005 i genitiv [lemma=“pes”] –17328 výskytů [word=“Psa”] – 95 výskytů [word=“PSA”] –195 výskytů > divné > manuální kontrola (professional service automation, továrna Peugeot, ...)
Příklady jednoduchých dotazů z překladatelské praxe zjištění frekventovanějších variant Shylock x Šajlok Anna Karenina x Anna Kareninová Salzkammergut x Solná komora zjištění častějšího typu skloňování (bez) Heineho x Heina Goetheho x Goethovo (dílo) frekvence nesklonné varianty (studuje na) Yale x Yaleu
Tagy – značky - metainformace Pozice 1 - Slovní druh A adjektivum (přídavné jméno) C numerál (číslovka, nebo číselný výraz s číslicemi) D adverbium (příslovce) I interjekce (citoslovce) J konjunkce (spojka) N substantivum (podstatné jméno) P pronomen (zájmeno) R prepozice (předložka) T partikule (částice) V verbum (sloveso) X neznámý, neurčený, neurčitelný slovní druh Z interpunkce, hranice věty Pozice 4 - Číslo D duál (pouze 7. pád feminin) P plurál (množné číslo) S singulár (jednotné číslo) W pouze v kombinaci s jmenným rodem 'Q' (singulár pro feminina, plurál pro neutra)* X libovolné číslo (P/S/D) Pozice 5 - Pád 1 nominativ (1. pád) 2 genitiv (2. pád) 3 dativ (3. pád) 4 akuzativ (4. pád) 5 vokativ (5. pád) 6 lokativ (6. pád) 7 instrumentál (7. pád) Klikátko: http://utkl.ff.cuni.cz/~skoumal/morfo/
Hledání pomocí tagů femininum sg. 1. p. [tag="NNFS1.*"] adjektiva odvozená od slovesného tvaru minulého přechodníku [tag="AM.*"] v SYN2010 1157 výskytů adverbia předcházející výrazu červený [tag="D.*"][lemma="červený"] Co s nimi? Jak je setřídit?
Frekvenční distribuce (Ctrl+F) Dotaz zněl: [tag="D.*"][lemma="červený"] v SYN2010 Výsledek chceme setřídit podle lemmat Konkordance > Statistiky > Frekvenční distribuce > Atribut: lemma jasně, sytě, cihlově, vínově… Další dotazy už s pomocí regulárních výrazů
Regulární výrazy Pozor, u různých korpusů se mohou lišit Seznam výrazů pro Bonito je zde: http://korpus.cz/bonito/regular.php . = libovolný znak (p.s = pes, pás, pas, .... = všechna čtyřpísmenná slova) * = libovolný počet opakování předchozího znaku (ps*t = pt, pst, psst, pssst atd.) + = libovolný počet opakování předchozího znaku > 0 (ps+t = pst, & = a zároveň (např. [word=".*ina" & tag="N.*"] = vina, krajina, úžina, čeština, ale i Stalina atd.) [] = výběr ze seznamu (např. [Pp]řeklad, disku[sz]e) | = výběr z možností (např. diskuse|diskuze) ? = žádný nebo jeden výskyt předchozího znaku/výrazu ^ = s vyloučením znaků v dané závorce
Příklady využití regulárních výrazů všechny konkordance začínající na les- les.* (najde les, lesklý, lest atd.) lemma les Bože s malým nebo velkým počátečním písmenem): [bB]ože Slova končící na –ink nebo –ing .+in[kg] (najde brífing, leasing, mítink atd.) infinitivy předponových sloves od nést .+nést Zde opět využijeme frekvenční distribuci
H/rozinka? Briefing, nebo brífink? 1.) V jakém kontextu se využívá hrozinka a v jakém rozinka? (h?rozin(k|c).*) > Který pád je frekventovaný? > V jakých žánrech se výraz vyskytuje? Hledáme nejen v textových typech: Frekvenční distribuce > genre: http://www.korpus.cz/bonito/anotace.php#genre GEO - geologie GGR - geografie HIS - historie HOU - domácí hospodářství HUM - jiný z oblasti sociálních věd 2.) Je častější briefing, nebo brífink a v jakých textových typech se užívá? Mění se užívání v čase? [lemma = "brífink“] > jaká četnost v SYN2005 a SYN2010? Výrazy brífink.*, brífing.* a briefing.* Vyhledejte br(ie|í)fin.* --> najde všechny tvary txtype: pub 38, nov 7 PUB - publicistika (noviny a neodborné časopisy)
slovesa následovaná VV bez chuti a bez zápachu 3.) Jak najít všechna slovesa, po nichž může bezprostředně následovat předmětná věta s že? [tag="V.*"][word=","][word="že"] 4.) Jak se zeptat na slovní spojení typu bez chuti a bez zápachu – tedy „ bez + substantivum + libovolný výraz (i třeba čárka) + bez + substantivum“? Na určitý slovní druh se lze v tomto případě ptát pomocí [pos="N"]. [word="bez"][pos="N"][][word="bez"][pos="N"]
Pozitivní a negativní filtr na korpusu ORAL2008 Vyřazení dokladů: negativní filtr Vyhledání vybraných: pozitivní filtr tento nový překlad Martina Hilského -2 -1 0 1 2 dotaz: .*zej.* Nový dotaz: negativní filtr: zejtra Deixe: takov.* Chceme najít takovejchhle – pozitivní filtr Kolikrát se vyskytuje? A ještě expresivní výrazy: .*krk.* negativní filtr postupně: krkem, krku, krk
Kolokace (Ctrl+L) souvýskyt dvou a více slov vyšší než náhodný termín úzce spojený s korpusovou lingvistikou volná kombinovatelnost v jazyce prakticky neexistuje vyhledávání pomocí statistických měr MI-score: měří sílu asociace mezi dvěma slovy (podíl pravděpodobnosti výskytu dvou slov spolu a výskytu každého zvlášť), vhodné pro objevení řidších (netypičtějších) kolokací t-score: míra kontrastu, vhodné pro frekventovaná a přehlížená slova, funkční slova apod. výhodné bývá setřídit nejprve podle absolutní a pak podle relativní frekvence či MI-score
Jaká slovesa se spojují s výrazem dotaz? odpovědět, vznést, reagovat na, posílat, zaslat, vyřizovat, zadávat, bombardovat… Jaká slovesa se spojují s výrazem dveře? zabouchnout, přibouchnout, rozrazit, zaklepat, prásknout, zabušit, rozlétnout, pootevřít, vypáčit, zamknout, klepat… adjektiva vyskytující se s výrazem ženská bláznivá, zatracená, báječná, pěkná, hloupá, tlustá, divná, slušná, obyčejná, hezká, zlá… kolokace slovesa vznést námitka, obžaloba, obvinění, helikoptéra, oblak, dotaz, požadavek, pírko, apel, protest, balon…
Vytváření subkorpusů výhoda subkorpusu: vyhledávám jen v textech, které splňují požadavky, které si sám zvolím podle typu textu, roku vydání, žánru, překladatele… Jak vytvořit subkorpus textů přeložených z cizího jazyka a subkorpus textů původně českých? Menu > Korpus > Vytvoření subkorpusu Musím mít zvolen korpus, v rámci nějž jej chci vytvořit (SYN2010)! Jméno subkorpusu bez mezer Značka pro korpus SYN2000 je doc, pro novější opus Podmínka: srclang="ENG" > dostanu jen texty přeložené z AJ pro texty nepřeložené: srclang="" > najde jen původně české texty
Jak vytvořit subkorpus typu textu básně? Podmínka: txtype="VER" Subkorpus textů z oblasti lékařství, fyziky, sportu? http://www.korpus.cz/n_genre2.html Podmínka: genre="MED", genre="PHY", genre="SPO" Podmínky lze negovat pomocí ! Subkorpus všech textů kromě publicistiky? Podmínka: txtype!="PUB" Podmínky lze kombinovat pomocí & Subkorpus všech prozaických textů z 90. let? Podmínka: (txtype="NOV" | txtype="COL") & rokvyd="199."
InterCorp překladové texty z/do češtiny rozhraní Park (ne Bonito), stejné přístupové heslo jako pro ostatní korpusy ČNK volba jazyka/jazyků i textu/textů možnost vyhledávat v jednom jazyce i ve více současně (např. překlady slova či tvaru či kontexty výskytu) hledání podle slovního tvaru, posloupnosti tvarů (fráze), pomocí jazyka CQL, u některých jazyků i podle tagu a lemmatu zobrazení paralelních konkordancí (zarovnáno po větách) NOVĚ možnost filtrovat dotaz (v rámci věty i podle pozic)
Složení korpusu InterCorp
Možnosti a meze InterCorpu + některé jazyky jsou lemmatizovány a označkovány (možnost vyhledávat podle tagů a lemmat) - nepříliš velký rozsah, ale stále přibývají nové texty + Project Syndicate: výběr publ. článků z let 2000-2008 - bohužel nelze určit zdrojový text a překlad - rozhraní Park zatím neumožňuje automatické vyhledávání kolokací, funkci frekvenční distribuce atd. + tyto funkce lze využívat v jednojazyčných verzích v rámci webové verze (Bonito 2): http://www.korpus.cz/hledat_v_cnk.php
Příklady využití hledáme české ekvivalenty anglického pathetic dojemný, k pláči, ubohé, k politování, smutné, trapný, směšný… co všechno lze (?) přeložit českým (ty) vole man, Jesus Chick, you idiot, you ass, you fucking bastard, dude, you swine… kontext a překlady slova utterly (sémantická prozodie) u. insignificant = naprosto zanedbatelné u. alone = zoufale osamělý u. different = zcela jiný u. fascinated = doslova fascinován u. unknown = úplně neznámý u. hopeless = nekonečně beznadějné u. unwanted = vysloveně nechtěný
Čas na rozhodnutí Diskuse, nebo BNC a COCA?
British National Corpus 100 milionů slov, 4 žánry, i mluvený jazyk Dobré rozhraní: http://corpus.byu.edu/bnc/ Stejné rozhraní – COCA (Corpus of Contemporary American English) http://corpus.byu.edu/coca/ 400 milionů slov
Využití BNC či COCy kontext (KWIC) deregister* - Tokens/hits = doklady barevné vyznačení slov. druhů, vlevo: zdroje (žánry) stylové zařazení get* - Zaškrtněte „Chart“ – viz Spoken pozor na srovnání - jen údaje „per mil“! odvozená slova get* - Zaškrtněte „List“ – např. Getaway srovnání small OR little? (následováné podst. jménem) Zaškrtněte „Compare“, zadejte obě slova do „Words“ a v „POS“, part of speech, vyberte noun.ALL > v kolonce „Collocates“ se objaví tag podst. jmen [nn*] Zaškrtněte „Sort by relevance“ a minimum „Mutual info“ 3 a 5. Přidejte do „Collocates“ např. print Zaškrtněte v "POS" noun.SG a omezte kontext na dvě pozice zprava a 0 zleva
Regulární výrazy a BNC [break] the [nn*] Zobrazení KWIC je nepřehledný souhrn náhodných dokladů List – seznam kolokací jako v Bonitu Pozor na aktivované kolonky „Collocates“ a „POS“ – je třeba deaktivovat