Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jak efektivně využívat korpusy v translatologii?

Podobné prezentace


Prezentace na téma: "Jak efektivně využívat korpusy v translatologii?"— Transkript prezentace:

1

2 Jak efektivně využívat korpusy v translatologii?
ÚTRL, Olga Richterová s využitím prezentací L. Chlumské a A. Rosena a práce všech kolegů ÚČNK, FF UK

3 JAK SE OVĚŘITELNĚ NĚCO DOZVĚDĚT O JAZYCE?

4 A JAK SI UMĚT PŘEDSTAVIT VÝSLEDKY? www.syd.korpus.cz

5

6 PŘEHLED PREZENTACE O korpusové lingvistice – co je to korpus
O korpusech ČNK a korpusu InterCorp zvlášť DOSTUPNÉ KORPUSY: INTERCORP: jazyky a zarovnání texty a jejich anotace lemmatizace a tagování Možnosti vyhledávání volba korpusů typy dotazu, vč. CQL další funkce (frekvenční distribuce, kolokace atd.) subkorpusy a podmínky Proti: že to je drahý

7 CO JE TO TEXTOVÝ KORPUS

8 Minulost a současnost Jak zkoumat jazyk?
Jako vzájemně kombinovatelná slova v reálném textu Zásadní význam kontextu a syntagmatiky Projekt Český národní korpus (ČNK) Od r zdarma umožňuje přístup tisícům uživatelů vzorem: British National Corpus Dostupné a plánované korpusy ČNK zpřístupňují: jazyk současný i minulý (synchronie i diachronie) čeština i cizí jazyky texty jednojazyčné i paralelně zarovnané překladové jazyk mluvený i psaný jazyk dospělých i žáků jazyk soukromý i veřejný

9 Charakteristika korpusu
Leech: “The difference between an archive and a corpus must be that the latter is designed or required for a particular ‘representative’ function“. Korpus bývá většinou: anotovaný (přidaná informace o názvu a typu textu, autorovi, roku vydání, žánru apod.) lemmatizovaný (každé slovo opatřeno svým slovníkovým tvarem – lemmatem: např. infinitiv sloves) označkovaný (každé slovo má svou morf. značku) Kilgariff (2001): “The corpus of the new millennium is the Web”.

10 Aspekty korpusového výzkumu
význam frekvence jazykového jevu centrum a periferie jazyka to, co není v korpusu, neexistuje? Pozor! hapax legomenon (jednovýskytová slova) syntagmatika v. paradigmatika jazyka kolokace, koligace, lexical bundles atp. jazyk a jeho zákonitosti Zipfovy zákony (neplatí jen na jazyk) přístupy corpus-based a corpus-driven

11 K čemu všemu korpus slouží?
Komu: jazykovědcům: hl. jednojazyčné referenční korpusy překladatelům: kolokace, paralelní korpusy (pro překladové ekvivalenty – hl. neterminologické) redaktorům, novinářům: SyD – průzkum variant Pro: výzkum jazyka srovnávání variant (mluveného i psaného jazyka) ověřování překladatelských řešení zdůvodňování překladatelských řešení vyhledání vhodného výrazu (podle koncovky, sl. druhu apod.)

12 CO NABÍZÍ (Ú)ČNK reklamní vsuvka pro studenty FF UK
SPECIALIZOVANÉ SEMINÁŘE se zaměřením na: Český / anglický / německý jazyk a korpus Frazeologii či lexikologii Mluvený jazyk Základy programování či statistiky doktorské studium v oboru korpusová lingvistika

13 Kde se přihlásit po registraci?

14 Kde se přihlásit po registraci?

15 Současné rozhraní: NoSketch Engine

16 Současné rozhraní: NoSketch Engine

17 Naše nové rozhraní: KonText

18 Naše nové rozhraní: KonText

19 Popis rozhraní Odkazy na další programy Menu Anotace
(defaultně název díla, lze nastavit v Možn. zobrazení) Konkordanční řádky: KWIC (key word in context)

20 www.korpus.cz/kontext Nové rozhraní a jeho popis:

21 Jak začít Jaký jazyk nás zajímá? Jaký jev chceme hledat?
mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický? výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci/složitější strukturu informace z tagů (slovní druh, pád, čas, …) výběr typu dotazu

22 Dostupné korpusy ČNK Synchronní korpusy psané češtiny: řada SYN
Synchronní korpusy mluvené češtiny: řada ORAL Diachronní korpus (14.–20. století): DIAKORP Paralelní korpus (31 evropských jazyků): InterCorp Webové korpusy (4 cizojazyčné) Malé specializované korpusy (Deaf, Dopisy a další)

23 Synchronní psané korpusy
všechny korpusy lemmatizovány a morfologicky označkovány vyvážený korpus jednou za 5 let referenční vs. nereferenční korpusy název velikost popis SYN2000 100 mil. vyvážený korpus; většina textů z let 1990–1999 SYN2005 vyvážený korpus; většina textů z let 2000–2004 SYN2006PUB 300 mil. publicistické texty z let 1989–2004 SYN2009PUB 700 mil. publicistické texty z let 1995–2007 SYN2010 vyvážený korpus; většina textů z let 2005–2009 SYN 1 300 mil. nereferenční korpus, souhrn všech SYN korpusů A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

24 Složení SYN2010 textové typy (beletrie, publicistika a odborná) a žánry
seznam zkratek žánrů:

25 Synchronní psané korpusy
Kritérium reprezentativnosti: recepce vs. produkce korpusy řady SYN založeny na recepci (tj. co se čte) distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) beletrie: především novější, ale limitem je rok vydání (autoři narození po 1880) publicistika: současná (za každý rok stejný objem textu) odborná literatura: po roce1990 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

26 Synchronní mluvené korpusy
referenční (nemění se) neformální situace – konverzace v rodině nebo s přáteli není lemmatizace, ani značkování plánovaný ORAL2013: z celé republiky (nejen z Čech!) se zvukovou stopou pro každou promluvu název velikost popis ORAL2006 1 mil. korpus neformální mluvené češtiny ORAL2008 sociolingvisticky vyvážený korpus neformální mluvené češtiny A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

27 Oral2013 kliknutím na závorku (označení promluvy) lze přehrát audio!
upozornit na anotaci! vek, pohlavi, vzdelani apod. kliknutím na závorku (označení promluvy) lze přehrát audio!

28 Oral2013 anotace v mluveném korpusu: - pohlaví, věk, vzdělání - region
upozornit na anotaci! vek, pohlavi, vzdelani apod. anotace v mluveném korpusu: - pohlaví, věk, vzdělání - region - typ události

29 Diachronní korpus nereferenční korpus
transkripce, nikoli transliterace plánovaná lemmatizace a značkování především 19. století hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu název velikost popis DIAKORP 2 mil. korpus mapující sedm století vývoje češtiny (14.–20. století) A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

30 Paralelní korpus ve spolupráci s dalšími ústavy a univerzitami
stále roste korpusový manažer Park, nyní v rozhraní KonText zarovnání na úrovni vět lemmatizace a značkování u těch jazyků, kde je k dispozici čeština jako pivot užitečný ne tolik pro terminologii (převaha beletrie), ale pro překladové ekvivalenty (lingvistický výzkum, překlad atd.) název velikost popis InterCorp ca 140 mil. paralelní korpus zahrnující momentálně 27 evropských jazyků A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

31 Park – starší rozhraní pro paralelní korpus

32 Specializované korpusy
hostování korpusu: služba nabízená v rámci ČNK dalším výzkumným institucím finální technické zpracování dat poskytování veřejného přístupu a související služby název velikost popis KSK-Dopisy hostovaný; soukromá korespondence z let 1990–2004 SCHOLA2010 hostovaný; přepisy vyučovacích hodin PMK BMK hostovaný; Pražský mluvený korpus z let 1988–1996 hostovaný; Brněnský mluvený korpus z let 1994–1999 CzeSL 2.5 mil. Czech as Second Language; slohové práce romských žáků, eseje cizinců, odborné kvalifikační práce LINK 1.8 mil. korpus akademických textů (lingvistika) DOTKO 12 mil. hostovaný; korpus dolnolužické srbštiny z let 1848–1933 A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research. Sinclair O reprezentativnosti později.

33 Možné referenční korpusy
Angličtina: BNC (British National Corpus) COCA (Corpus of Contemporary American English) Němčina: DeReKo (Deutsches Referenzkorpus) - Cosmas II

34 O KORPUSU INTERCORP aktuální informace použity z prezentace Alexandra Rosena dostupné zde:

35 SROVNATELNÝ (comparable)
Vícejazyčné korpusy PARALELNÍ (parallel) zpravidla označuje korpus složený z originálů a jejich překladů v jednom či více cizích jazycích lze v něm dohledat zdrojové texty (=originály) bývá zarovnán na úrovni vět/segmentů InterCorp SROVNATELNÝ (comparable) většinou obsahuje srovnatelné texty podobného typu, žánru a délky ve více jazycích nejedná se o překlady, nelze dohledat zdrojové texty může být i jednojazyčný (například srovnatelný korpus překladové a nepřekladové češtiny)

36 Výhody a nevýhody paralelního korpusu
Umožňuje zkoumat jazyk v kontrastivním pohledu dohledávat překladové ekvivalenty analyzovat rysy překladu Nedostatky reprezentativnost – zdaleka ne všechny žánry lze získat paralelně automatické zarovnání (alignment) nemusí být 100% spolehlivé a ruční je časově i finančně náročné

37 Základní údaje o InterCorpu
vícejazyčný paralelní korpus zaměřený na češtinu součást projektu Český národní korpus dostupný pro všechny registrované uživatele zdarma přibližně každý rok nové, aktualizované vydání s novými texty (i jazyky) poslední verze 6 - duben 2013 přibyla katalánština, arabština, hindština a ukrajinština hojně využíván i mimo fakultu (překladatelé, studenti)

38 Základní údaje o InterCorpu
čeština jako pivot každý text musí být k dispozici v češtině a alespoň jednom dalším jazyce zarovnání po větách mezi texty v jiných jazycích je zarovnání přes českou verzi vyhledávací rozhraní: Park (původní rozhraní pouze pro paralelní korpus, nevyvíjí se) NoSketch Engine (přístup i k jednojazyčným korpusům) KonText (nové, vylepšené rozhraní, nový vzhled i funkce)

39 InterCorp – verze 6 celková velikost: 867/100 mil. slov (cizí/české)
počet jazyků: 31 jazyky se liší objemem textů a ne všechny jsou lemmatizovány a tagovány! celková velikost: 867/100 mil. slov (cizí/české) složení: jádro a kolekce beletristické texty, manuální zarovnání: 139/62 mil. slov žurnalistika: 33/4 Project Syndicate: PressEurop: právnické texty: 430/20 Acquis Communautaire: EP: 265/13 Europarl: (nejvíce má němčina, španělština, polština)

40 InterCorp – jádro (BEL)

41 InterCorp – kolekce (PUB, LEGAL…)

42 InterCorp – počty textů

43 Texty s největším množstvím verzí
26 J. K. Rowling Harry Potter a kámen mudrců 24 A. de Saint-Exupéry Malý princ 21 Lewis Carroll Alenka v říši divů 20 Milan Kundera Nesnesitelná lehkost bytí 20 J. K. Rowling Harry Potter a tajemná komnata 19 Douglas Adams Stopařův průvodce po galaxii 19 Milan Kundera Žert 18 Dan Brown Šifra Mistra Leonarda 18 Michail Bulgakov Mistr a Markétka 18 Jaroslav Hašek Osudy dobrého vojáka Švejka 18 A. A. Milne Medvídek Pú 18 J. K. Rowling Harry Potter a vězeň z Azkabanu 18 J. R. R. Tolkien Pán prstenů I–III 17 Paolo Coelho Alchymista 17 J. R. R. Tolkien Hobit

44 Texty s největším množstvím verzí II
16 Umberto Eco Jméno růže 16 Franz Kafka Proces 16 George Orwell J. K. Rowling Harry Potter a ohnivý pohár 15 Anna Franková Deník 14 Rudyard Kipling Kniha džunglí 14 Milan Kundera Nesmrtelnost 14 Nikolaj Ostrovskij Jak se kalila ocel 13 Bohumil Hrabal Příliš hlučná samota 13 Milan Kundera Směšné lásky 13 J. K. Rowling Harry Potter a Fénixův řád 12 F. S. Fitzgerald Velký Gatsby 12 Bohumil Hrabal Obsluhoval jsem anglického krále 12 Franz Kafka Zámek 12 Franz Kafka Proměna 12 Milan Kundera Valčík na rozloučenou

45 MOŽNOSTI VYHLEDÁVÁNÍ

46 Co nabízí rozhraní NoSke/KonText
všechny funkce jako v rozhraní Park umožňuje hledat v jednotlivých jazycích jako v samostatných korpusech (bez zobrazení paralelní verze) v paralelním zobrazení vždy jeden korpus základní a ostatní zarovnané více funkcí pro základní korpus: kolokace, frekvenční distribuce, třídění… umožňuje zobrazit výsledky i v případě, že v některém z jazyků daný text chybí (prázdné řádky)

47 Příklad výběru korpusů

48 Paralelní korpusy v rozhraní KonText

49 Pokládání dotazu v obou korpusech
typ dotazu podřetězec (najde všechna slova, která obsahují zadaný řetězec znaků)

50 Pokládání dotazu v obou korpusech

51 Typy dotazů u různých korpusů
úplná nabídka typů dotazu u lemmatizovaného a tagovaného korpusu EN základní lemma fráze slovní tvar podřetězec CQL

52 Typy dotazů u různých korpusů
omezená nabídka (chybí typ lemma) u nelemmatizovaného korpusu NL

53 Tagování se v různých jazycích liší!

54 Kde najdu, jak vypadají různé tagy?

55 POJĎME VYHLEDÁVAT! základní korpus EN > Harry Potter
zarovnané CS, SK, IT, DE dotaz (slovní tvar): Dumbledore jak se překládá do jiných jazyků?

56 Dumbledore v různých překladech

57 POKROČILÉ DOTAZY: ochutnávka možností, jež korpusy nabízejí

58 Regulární výrazy: zástupné symboly a možnosti opakování
Mohou se užívat ve všech typech dotazů kromě základního tečka (.) – představuje jeden libovolný znak, interval ({n, k}) – n až k opakování předchozího znaku nebo většího celku hvězdička (*) – libovolný počet (0 a více) opakování předchozího znaku nebo celku, tj. {0,} plus (+) – 1 nebo více opakování předchozího znaku nebo celku, tj. {1,}

59 Regulární výrazy: možnosti opakování a logické operátory
otazník (?) – žádný nebo jeden výskyt předchozího znaku nebo celku, tj. {0,1} seznam ([]) – alternativa, výběr jednoho libovolného znaku z těch, které jsou uvedeny uvnitř závorek svislá čára (|) – také alternativa, ne ovšem mezi jednotlivými znaky, ale celými řetězci tvořícími jednotku kulaté závorky – libovolnou část výrazu je možné seskupit do kulatých závorek, vytvořit tak jistý celek a ovlivnit tím prioritu jeho vyhodnocování

60 [lemma="love" & tag= ="V.*"]
Corpus Query Language úplná podoba dotazu [atribut="hodnota"] atributy: word (slovní tvar), lemma (slovníkový tvar), tag (morfologická značka), příp. pos (part of speech) hodnoty: konkrétní hledání, ať už jde o slovo, název tagu nebo řetězec znaků s regulárními výrazy (např. ".*ing", "bysme", "VVG") lze spojit více atributů dohromady a specifikovat dotaz: [lemma="love" & tag= ="V.*"] Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

61 Dotazovací jazyk (CQL) a prázdná pozice
[lemma="have"][][lemma="get"] Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

62 Operátor rozsahu {} Tento dotaz: [lemma="have"][][lemma="get"]
se rovná tomuto: [lemma="have"][]{1}[lemma="get"] Jak najít čtyři anglická adjektiva za sebou? [tag="JJ.*"]{4} Zkusme to v paralelním korpusu EN - CS Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

63 Hledáme v rámci jedné věty
[lemma="have"][]{1,2}[lemma="get"][]+[word="\?"] within <s/>

64 Hledáme na začátku a na konci věty
Chceme najít anglické „there“ na začátku věty a podívat se na jeho překlady do češtiny: <s> [tag="EX"] Stejně tak můžeme vyhledávat např. podstatná jména předcházející konci věty: [tag="N.*"] [] </s> prázdná pozice pro interpunkci

65 SUBKORPUSY aneb jak hledat pouze v datech splňujících konkrétní podmínky (autor, doba vydání, zdrojový jazyk…)

66 Vytváření subkorpusů Lze v rámci jednoho dotazu i trvale (výhodnější)
Podle seznamu atributů výhoda: jednoduše zaškrtneme nevýhoda: ne všechny atributy a metainformace se zobrazí Vlastní within podmínkou výhoda: možnost specifikovat si parametry podle sebe lze například vytvořit subkorpus ženských autorek: div authsex="F" subkorpus textů vydaných po roce 2000: div pubyear="20.."

67 Metadata pro tvorbu subkorpusů v InterCorpu

68 Rozdíly v anotaci: SYN a InterCorp
SYN: není-li u atributu „srclang“, uvedena žádná hodnota, jedná se o češtinu! SYN(…): within <srclang=""/> InterCorp: within <srclang="cs"/> strukturní atributy: doc – opus – div (část dokumentu) autor – author rokvyd - pubyear ENG – en ...

69 SYN, InterCorp a jazyk překladu
SYN: po vytvoření subkorpusu s podmínkou zdrojového jazyka češtiny: [tag="I.*"] within <opus srclang="" /> můžeme porovnat např. s citoslovci v jazyce překladu: [tag="I.*"] within <opus srclang!="" /> Podobně v InterCorpu musíme dbát na směr překladu: u řady textů však neznáme zdrojový jazyk!

70 Máte jakékoli dotazy? Sem s nimi!

71 Český národní korpus (LM2011023; 2012-2016)
Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro VaVaI

72 [word="thank"] [] []? []? "[word="attention"]


Stáhnout ppt "Jak efektivně využívat korpusy v translatologii?"

Podobné prezentace


Reklamy Google