Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Jak efektivně využívat korpusy v translatologii? ÚTRL, 28. 11. 2013 Olga Richterová s využitím prezentací L. Chlumské a A. Rosena a práce všech kolegů.

Podobné prezentace


Prezentace na téma: "Jak efektivně využívat korpusy v translatologii? ÚTRL, 28. 11. 2013 Olga Richterová s využitím prezentací L. Chlumské a A. Rosena a práce všech kolegů."— Transkript prezentace:

1

2 Jak efektivně využívat korpusy v translatologii? ÚTRL, Olga Richterová s využitím prezentací L. Chlumské a A. Rosena a práce všech kolegů ÚČNK, FF UK

3 JAK SE OVĚŘITELNĚ NĚCO DOZVĚDĚT O JAZYCE?

4 A JAK SI UMĚT PŘEDSTAVIT VÝSLEDKY?

5

6 PŘEHLED PREZENTACE 1.O korpusové lingvistice – co je to korpus 2.O korpusech ČNK a korpusu InterCorp zvlášť DOSTUPNÉ KORPUSY: INTERCORP: jazyky a zarovnání texty a jejich anotace lemmatizace a tagování 3.Možnosti vyhledávání volba korpusů typy dotazu, vč. CQL další funkce (frekvenční distribuce, kolokace atd.) subkorpusy a podmínky

7 CO JE TO TEXTOVÝ KORPUS

8 Minulost a současnost 1. Jak zkoumat jazyk?  Jako vzájemně kombinovatelná slova v reálném textu  Zásadní význam kontextu a syntagmatiky 2. Projekt Český národní korpus (ČNK)  Od r zdarma umožňuje přístup tisícům uživatelů  vzorem: British National Corpus 3. Dostupné a plánované korpusy ČNK zpřístupňují:  jazyk současný i minulý (synchronie i diachronie)  čeština i cizí jazyky  texty jednojazyčné i paralelně zarovnané překladové  jazyk mluvený i psaný  jazyk dospělých i žáků  jazyk soukromý i veřejný

9 Charakteristika korpusu  Leech: “The difference between an archive and a corpus must be that the latter is designed or required for a particular ‘representative’ function“.  Korpus bývá většinou: – anotovaný (přidaná informace o názvu a typu textu, autorovi, roku vydání, žánru apod.) – lemmatizovaný (každé slovo opatřeno svým slovníkovým tvarem – lemmatem: např. infinitiv sloves) – označkovaný (každé slovo má svou morf. značku)  Kilgariff (2001): “The corpus of the new millennium is the Web”.

10 Aspekty korpusového výzkumu  význam frekvence jazykového jevu – centrum a periferie jazyka – to, co není v korpusu, neexistuje? Pozor! hapax legomenon (jednovýskytová slova)  syntagmatika v. paradigmatika jazyka – kolokace, koligace, lexical bundles atp.  jazyk a jeho zákonitosti – Zipfovy zákony (neplatí jen na jazyk)  přístupy corpus-based a corpus-driven

11 K čemu všemu korpus slouží? Komu: – jazykovědcům: hl. jednojazyčné referenční korpusy – překladatelům: kolokace, paralelní korpusy (pro překladové ekvivalenty – hl. neterminologické) – redaktorům, novinářům: SyD – průzkum variant Pro: výzkum jazyka srovnávání variant (mluveného i psaného jazyka) ověřování překladatelských řešení zdůvodňování překladatelských řešení vyhledání vhodného výrazu (podle koncovky, sl. druhu apod.)

12 CO NABÍZÍ (Ú)ČNK reklamní vsuvka pro studenty FF UK SPECIALIZOVANÉ SEMINÁŘE se zaměřením na: – Český / anglický / německý jazyk a korpus – Frazeologii či lexikologii – Mluvený jazyk – Základy programování či statistiky doktorské studium v oboru korpusová lingvistika

13 Kde se přihlásit po registraci?

14

15 Současné rozhraní: NoSketch Engine

16

17 Naše nové rozhraní: KonText

18

19 Popis rozhraní Anotace (defaultně název díla, lze nastavit v Možn. zobrazení) Konkordanční řádky: KWIC (key word in context) Odkazy na další programy Menu

20 Nové rozhraní a jeho popis: https://trnka.ff.cuni.cz/dokuwiki/doku.php

21 Jak začít Jaký jazyk nás zajímá? – mluvený, psaný? – publicistiky, beletrie nebo odborné literatury? – překladový, původní? – současný, historický? výběr korpusu  Jaký jev chceme hledat? – konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) – ustálené slovní spojení/kolokaci/složitější strukturu – informace z tagů (slovní druh, pád, čas, …) výběr typu dotazu

22 Dostupné korpusy ČNK  Synchronní korpusy psané češtiny: řada SYN  Synchronní korpusy mluvené češtiny: řada ORAL  Diachronní korpus (14.–20. století): DIAKORP  Paralelní korpus (31 evropských jazyků): InterCorp  Webové korpusy (4 cizojazyčné)  Malé specializované korpusy (Deaf, Dopisy a další)

23 Synchronní psané korpusy  všechny korpusy lemmatizovány a morfologicky označkovány  vyvážený korpus jednou za 5 let  referenční vs. nereferenční korpusy názevvelikostpopis SYN mil.vyvážený korpus; většina textů z let 1990–1999 SYN mil.vyvážený korpus; většina textů z let 2000–2004 SYN2006PUB300 mil.publicistické texty z let 1989–2004 SYN2009PUB700 mil.publicistické texty z let 1995–2007 SYN mil.vyvážený korpus; většina textů z let 2005–2009 SYN1 300 mil.nereferenční korpus, souhrn všech SYN korpusů

24 Složení SYN2010 textové typy (beletrie, publicistika a odborná) a žánry seznam zkratek žánrů:

25 Synchronní psané korpusy  Kritérium reprezentativnosti: – recepce vs. produkce – korpusy řady SYN založeny na recepci (tj. co se čte) – distribuce text. typů a žánrů na základě sociologické studie z roku 2000 – nová studie je třeba  Korpusy SYN zahrnují jak originální, tak překladové české texty (tvoří přibližně třetinu) – beletrie: především novější, ale limitem je rok vydání 1945 (autoři narození po 1880) – publicistika: současná (za každý rok stejný objem textu) – odborná literatura: po roce1990

26 Synchronní mluvené korpusy  referenční (nemění se)  neformální situace – konverzace v rodině nebo s přáteli  není lemmatizace, ani značkování  plánovaný ORAL2013: – z celé republiky (nejen z Čech!) – se zvukovou stopou pro každou promluvu názevvelikostpopis ORAL20061 mil.korpus neformální mluvené češtiny ORAL20081 mil.sociolingvisticky vyvážený korpus neformální mluvené češtiny

27 Oral2013 kliknutím na závorku (označení promluvy) lze přehrát audio!

28 Oral2013 anotace v mluveném korpusu: - pohlaví, věk, vzdělání - region - typ události

29 Diachronní korpus  nereferenční korpus  transkripce, nikoli transliterace  plánovaná lemmatizace a značkování – především 19. století – hyper-lemma: způsob, jak vyhledat všechny pravopisné varianty jednoho lemmatu názevvelikostpopis DIAKORP2 mil.korpus mapující sedm století vývoje češtiny (14.–20. století)

30 Paralelní korpus  ve spolupráci s dalšími ústavy a univerzitami  stále roste  korpusový manažer Park, nyní v rozhraní KonText  zarovnání na úrovni vět  lemmatizace a značkování u těch jazyků, kde je k dispozici  čeština jako pivot – užitečný ne tolik pro terminologii (převaha beletrie), ale pro překladové ekvivalenty (lingvistický výzkum, překlad atd.) názevvelikostpopis InterCorpca 140 mil.paralelní korpus zahrnující momentálně 27 evropských jazyků

31 Park – starší rozhraní pro paralelní korpus

32 Specializované korpusy  hostování korpusu: – služba nabízená v rámci ČNK dalším výzkumným institucím – finální technické zpracování dat – poskytování veřejného přístupu a související služby názevvelikostpopis KSK-Dopisy hostovaný; soukromá korespondence z let 1990–2004 SCHOLA hostovaný; přepisy vyučovacích hodin PMK BMK hostovaný; Pražský mluvený korpus z let 1988–1996 hostovaný; Brněnský mluvený korpus z let 1994–1999 CzeSL2.5 mil.Czech as Second Language; slohové práce romských žáků, eseje cizinců, odborné kvalifikační práce LINK1.8 mil.korpus akademických textů (lingvistika) DOTKO12 mil.hostovaný; korpus dolnolužické srbštiny z let 1848–1933

33 Možné referenční korpusy Angličtina: – BNC (British National Corpus) – COCA (Corpus of Contemporary American English) Němčina: – DeReKo (Deutsches Referenzkorpus) - Cosmas II

34 O KORPUSU INTERCORP aktuální informace použity z prezentace Alexandra Rosena dostupné zde:

35 Vícejazyčné korpusy PARALELNÍ (parallel) zpravidla označuje korpus složený z originálů a jejich překladů v jednom či více cizích jazycích lze v něm dohledat zdrojové texty (=originály) bývá zarovnán na úrovni vět/segmentů InterCorp SROVNATELNÝ (comparable) většinou obsahuje srovnatelné texty podobného typu, žánru a délky ve více jazycích nejedná se o překlady, nelze dohledat zdrojové texty může být i jednojazyčný (například srovnatelný korpus překladové a nepřekladové češtiny)

36 Výhody a nevýhody paralelního korpusu Umožňuje zkoumat jazyk v kontrastivním pohledu dohledávat překladové ekvivalenty analyzovat rysy překladu Nedostatky reprezentativnost – zdaleka ne všechny žánry lze získat paralelně automatické zarovnání (alignment) nemusí být 100% spolehlivé a ruční je časově i finančně náročné

37 Základní údaje o InterCorpu vícejazyčný paralelní korpus zaměřený na češtinu součást projektu Český národní korpus dostupný pro všechny registrované uživatele zdarma přibližně každý rok nové, aktualizované vydání s novými texty (i jazyky) poslední verze 6 - duben 2013 přibyla katalánština, arabština, hindština a ukrajinština hojně využíván i mimo fakultu (překladatelé, studenti)

38 Základní údaje o InterCorpu čeština jako pivot každý text musí být k dispozici v češtině a alespoň jednom dalším jazyce zarovnání po větách mezi texty v jiných jazycích je zarovnání přes českou verzi vyhledávací rozhraní: Park (původní rozhraní pouze pro paralelní korpus, nevyvíjí se) NoSketch Engine (přístup i k jednojazyčným korpusům) KonText (nové, vylepšené rozhraní, nový vzhled i funkce)

39 InterCorp – verze 6 počet jazyků: 31 jazyky se liší objemem textů a ne všechny jsou lemmatizovány a tagovány! celková velikost: 867/100 mil. slov (cizí/české) složení: jádro a kolekce beletristické texty, manuální zarovnání: 139/62 mil. slov žurnalistika: 33/4 Project Syndicate: PressEurop: právnické texty: 430/20 Acquis Communautaire: EP: 265/13 Europarl:

40 InterCorp – jádro (BEL)

41 InterCorp – kolekce (PUB, LEGAL…)

42 InterCorp – počty textů

43 Texty s největším množstvím verzí 26 J. K. Rowling Harry Potter a kámen mudrců 24 A. de Saint-Exupéry Malý princ 21 Lewis Carroll Alenka v říši divů 20 Milan Kundera Nesnesitelná lehkost bytí 20 J. K. Rowling Harry Potter a tajemná komnata 19 Douglas Adams Stopařův průvodce po galaxii 19 Milan Kundera Žert 18 Dan Brown Šifra Mistra Leonarda 18 Michail Bulgakov Mistr a Markétka 18 Jaroslav Hašek Osudy dobrého vojáka Švejka 18 A. A. Milne Medvídek Pú 18 J. K. Rowling Harry Potter a vězeň z Azkabanu 18 J. R. R. Tolkien Pán prstenů I–III 17 Paolo Coelho Alchymista 17 J. R. R. Tolkien Hobit

44 Texty s největším množstvím verzí II 16 Umberto Eco Jméno růže 16 Franz Kafka Proces 16George Orwell J. K. Rowling Harry Potter a ohnivý pohár 15 Anna Franková Deník 14 Rudyard Kipling Kniha džunglí 14 Milan Kundera Nesmrtelnost 14 Nikolaj Ostrovskij Jak se kalila ocel 13 Bohumil Hrabal Příliš hlučná samota 13 Milan Kundera Směšné lásky 13 J. K. Rowling Harry Potter a Fénixův řád 12 F. S. Fitzgerald Velký Gatsby 12 Bohumil Hrabal Obsluhoval jsem anglického krále 12 Franz Kafka Zámek 12 Franz Kafka Proměna 12 Milan Kundera Valčík na rozloučenou

45 MOŽNOSTI VYHLEDÁVÁNÍ

46 Co nabízí rozhraní NoSke/KonText všechny funkce jako v rozhraní Park umožňuje hledat v jednotlivých jazycích jako v samostatných korpusech (bez zobrazení paralelní verze) v paralelním zobrazení vždy jeden korpus základní a ostatní zarovnané více funkcí pro základní korpus: kolokace, frekvenční distribuce, třídění… umožňuje zobrazit výsledky i v případě, že v některém z jazyků daný text chybí (prázdné řádky)

47 Příklad výběru korpusů

48 Paralelní korpusy v rozhraní KonText

49 Pokládání dotazu v obou korpusech typ dotazu podřetězec (najde všechna slova, která obsahují zadaný řetězec znaků)

50 Pokládání dotazu v obou korpusech

51 Typy dotazů u různých korpusů úplná nabídka typů dotazu u lemmatizovaného a tagovaného korpusu EN základní lemma fráze slovní tvar podřetězec CQL

52 Typy dotazů u různých korpusů omezená nabídka (chybí typ lemma) u nelemmatizovaného korpusu NL

53 Tagování se v různých jazycích liší!

54 Kde najdu, jak vypadají různé tagy?

55 POJĎME VYHLEDÁVAT! základní korpus EN > Harry Potter zarovnané CS, SK, IT, DE dotaz (slovní tvar): Dumbledore jak se překládá do jiných jazyků?

56 Dumbledore v různých překladech

57 POKROČILÉ DOTAZY: ochutnávka možností, jež korpusy nabízejí

58 Regulární výrazy: zástupné symboly a možnosti opakování Mohou se užívat ve všech typech dotazů kromě základního tečka (.) – představuje jeden libovolný znak, interval ({n, k}) – n až k opakování předchozího znaku nebo většího celku hvězdička (*) – libovolný počet (0 a více) opakování předchozího znaku nebo celku, tj. {0,} plus (+) – 1 nebo více opakování předchozího znaku nebo celku, tj. {1,}

59 Regulární výrazy: možnosti opakování a logické operátory otazník (?) – žádný nebo jeden výskyt předchozího znaku nebo celku, tj. {0,1} seznam ([]) – alternativa, výběr jednoho libovolného znaku z těch, které jsou uvedeny uvnitř závorek svislá čára (|) – také alternativa, ne ovšem mezi jednotlivými znaky, ale celými řetězci tvořícími jednotku kulaté závorky – libovolnou část výrazu je možné seskupit do kulatých závorek, vytvořit tak jistý celek a ovlivnit tím prioritu jeho vyhodnocování

60 Corpus Query Language úplná podoba dotazu [atribut="hodnota"] atributy: word (slovní tvar), lemma (slovníkový tvar), tag (morfologická značka), příp. pos (part of speech) hodnoty: konkrétní hledání, ať už jde o slovo, název tagu nebo řetězec znaků s regulárními výrazy (např. ".*ing", "bysme", "VVG") lze spojit více atributů dohromady a specifikovat dotaz: [lemma="love" & tag= ="V.*"]

61 Dotazovací jazyk (CQL) a prázdná pozice [lemma="have"][][lemma="get"]

62 Operátor rozsahu {} Tento dotaz: [lemma="have"][][lemma="get"] se rovná tomuto: [lemma="have"][]{1}[lemma="get"] Jak najít čtyři anglická adjektiva za sebou? [tag="JJ.*"]{4} Zkusme to v paralelním korpusu EN - CS

63 Hledáme v rámci jedné věty [lemma="have"][]{1,2}[lemma="get"][]+[word="\?"] within

64 Hledáme na začátku a na konci věty Chceme najít anglické „there“ na začátku věty a podívat se na jeho překlady do češtiny: [tag="EX"] Stejně tak můžeme vyhledávat např. podstatná jména předcházející konci věty: [tag="N.*"] [] prázdná pozice pro interpunkci

65 SUBKORPUSY aneb jak hledat pouze v datech splňujících konkrétní podmínky (autor, doba vydání, zdrojový jazyk…)

66 Vytváření subkorpusů Lze v rámci jednoho dotazu i trvale (výhodnější) Podle seznamu atributů výhoda: jednoduše zaškrtneme nevýhoda: ne všechny atributy a metainformace se zobrazí Vlastní within podmínkou výhoda: možnost specifikovat si parametry podle sebe lze například vytvořit subkorpus ženských autorek: div authsex="F" subkorpus textů vydaných po roce 2000: div pubyear="20.."

67 Metadata pro tvorbu subkorpusů v InterCorpu

68 Rozdíly v anotaci: SYN a InterCorp SYN: není-li u atributu „srclang“, uvedena žádná hodnota, jedná se o češtinu! SYN(…): within InterCorp: within strukturní atributy: doc – opus – div (část dokumentu) autor – author rokvyd - pubyear ENG – en...

69 SYN, InterCorp a jazyk překladu SYN: po vytvoření subkorpusu s podmínkou zdrojového jazyka češtiny: [tag="I.*"] within můžeme porovnat např. s citoslovci v jazyce překladu: [tag="I.*"] within Podobně v InterCorpu musíme dbát na směr překladu: u řady textů však neznáme zdrojový jazyk!

70 Máte jakékoli dotazy? Sem s nimi!

71 Český národní korpus (LM ; ) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro VaVaI

72 [word="thank"] [] []? []? "[word="attention"]


Stáhnout ppt "Jak efektivně využívat korpusy v translatologii? ÚTRL, 28. 11. 2013 Olga Richterová s využitím prezentací L. Chlumské a A. Rosena a práce všech kolegů."

Podobné prezentace


Reklamy Google