Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Lucie Chlumská, Olga Richterová ÚČNK FF UK JTP, 19. 3. 2011.

Podobné prezentace


Prezentace na téma: "Lucie Chlumská, Olga Richterová ÚČNK FF UK JTP, 19. 3. 2011."— Transkript prezentace:

1 Lucie Chlumská, Olga Richterová ÚČNK FF UK JTP,

2  Jazykový korpus a jeho výhody (15 min)  Český národní korpus, nově dostupné korpusy (15 min)  Korpusový manažer Bonito: Zopakování základních funkcí (25 min) Regulární výrazy a složitější dotazy (25 min) Přestávka (20 min) Kolokace (20 min) Vytváření subkorpusů podle zadání uživatele (15 min)  InterCorp a jeho možnosti (30 min)  Ostatní jazykové korpusy (BNC, COCA atd.) (10 min)  Diskuse

3  Co je jazykový korpus? Rozsáhlý soubor počítačově uložených (elektronických) textů  anotovaný, lemmatizovaný, označkovaný  Korpusová lingvistika: Samostatná vědní disciplína s vypracovanou teorií i metodologií, nebo metoda/metodologie ve službách lingvistických teorií?  Východisko pro tvorbu korpusů - otázka preskriptivnosti a deskriptivnosti v jazyce : Je třeba vydávat knihy, které předepisují, jak psát a mluvit, nebo knihy, které stav jazyka popisují? dichotomie správně – špatně x škála centrum – periferie (viz Cvrček V.: Mluvnice současné češtiny. Jak se píše a jak se mluví. Karolinum 2010 nebo cvrcek.php?itemid=9513)http://blog.aktualne.centrum.cz/blogy/vaclav- cvrcek.php?itemid=9513

4  Problém reprezentativnosti (co je v korpusu uloženo) Každý korpus je vytvářený trochu jinak Koncepce reprezentativnosti ČNK založena na recepci Opatrnosti je třeba i při používání ČNK: - SYN2010 (http://korpus.cz/syn2010.php) a životní styl náležející do odborné literatury (téměř 6 mil. slov, přírodní vědy cca 4 mil.)http://korpus.cz/syn2010.php - SYN vzestupný počet zastoupené publicistiky ( mil., mil.) X SYN za každý rok stejný počet slov  Problém odlišných regulárních výrazů a značek (tagů) Základní rozdělení word – lemma – tag

5  Nový pohled Nový pohled na jazyk díky statistickému zpracování a obrovskému množství dostupných textů Větší zaměření na syntagmatiku (oproti tradičnímu důrazu na paradigmata)  Nové možnosti – korpus versus internet: Dohledatelné zdroje Citovatelný (pozor na nereferenční korpusy!) Český národní korpus - SYN2010. Ústav Českého národního korpusu FF UK, Praha Dostupný z WWW:. Český národní korpus - SYN. Ústav Českého národního korpusu FF UK, Praha. Cit , dostupný z WWW:. Textový formát Většinou lingvisticky označkovaný (umožňuje složitější dotazy)

6  1. korpus – 60. léta v USA Brown Corpus, Henry Kučera a W. N. Francis, 1 mil. slov  korpusová velmoc – Velká Británie Bank of English, nyní 650 mil. slov, nakl. Cobuild BNC – 90. léta, 100 mil. slov, 10% mluvený jazyk  USA – monitorovací korpus COCA, COHA, prostřednictvím rozhraní i přístup k BNC  ostatní jazyky – Německo (DeReKo), Holandsko atd.  ČNK (celkem ve všech korpusech asi 1,5 miliardy slov!)

7  Ústav Českého národního korpusu FF UK založen v roce 1994  kontinuální akademický projekt, jehož produkty (tj. jednotlivé korpusy) mapují a monitorují různé podoby českého jazyka, příp. i jazyků jiných (InterCorp)  korpusy ČNK jsou přístupné široké veřejnosti jedinou podmínkou je registrace a prohlášení uživatele co se myslí „komerčními účely“ v prohlášení

8  korpusy současné psané češtiny: SYN  korpusy současné mluvené češtiny: ORAL  diachronní korpus (14.–20. století): DIAKORP  paralelní korpus (nyní 22 evropských jazyků): InterCorp  ostatní, specializované korpusy

9 SYN  SYN2010: synchronní, psaný, 100 mil. slov NOVÝ!  SYN2005: synchronní, psaný, 100 mil. slov  SYN2006PUB, SYN2009PUB: pouze publicistika, 300 mil. slov a 700 mil. slov  SYN: souhrn všech doposud zveřejněných synchronních korpusů, 1,3 miliardy slov, nereferenční! NOVÝ! ORAL  ORAL2006, ORAL2008 : každý 1 mil. slov  nepřipravené neformální dialogické promluvy  nelemmatizované a neoznačkované! InterCorp  paralelní korpus: základním jazykem je čeština (pivot), 72 mil. slov  složení: beletrie, Syndicate (problém směru překladu)  přibyla norština, nové texty (slovenština, němčina atd.) KSK-Dopisy, PMK, BMK, LINK, SCHOLA2010, DOTKO

10  korpus: texty seřazeny za sebou (BEL, ODB, PUB)  korpusový manažer: vyhledává v korpusu Co dokáže korpusový manažer Bonito?  vyhledání slova či slovního spojení, zobrazení kontextu a frekvence  funkce frekvenční distribuce  vyhledávání kolokací (souvýskyt dvou lexémů častější než náhodný)  třídění pomocí negativního a pozitivního filtru  vytváření subkorpusů (např. podle zdroj. jazyka textu)

11  instalace Bonita z  podrobný manuál také k nalezení na  přihlašovací údaje (pouze pro potřeby workshopu!) : Uživatel: seminar Heslo:cent

12 Umění klást dotazy  CQL (Corpus Query Language)  Formát dotazu: [atribut=“hodnota”] hranaté závorky zde označují jednu pozici (tedy slovo oddělené mezerami nebo interpunkci) atributem může být word, lemma, tag, pos atd. hodnota (v uvozovkách) je to, co hledáme  První dotaz a první kroky s Bonitem: [word=“čupr”] výběr korpusu, zobrazení frekvence vyhledaného slova zobrazení anotace pravým klikem zobrazení a rozšíření kontextu (dvojklikem a šipkami nahoru a dolů nebo kolečkem myši) náhodný vzorek (Menu > Zobrazení > Rozsah > Náhodných)

13 Implicitní atribut  Implicitní atribut (Menu > Korpus > Implicitní atribut)  Hledáme více slov naráz: zmoklá slepice, kamenný obchod  Není nula jako nula! Pozor na nastavení implicitního atributu!  Není všechno zlato, co se v korpusu najde! vyhledejme k lemmatu „pes“ v SYN2005 i genitiv [lemma=“pes”] –17328 výskytů [word=“Psa”] – 95 výskytů [word=“PSA”] –195 výskytů > divné > manuální kontrola (professional service automation, továrna Peugeot,...)

14 Příklady jednoduchých dotazů z překladatelské praxe  zjištění frekventovanějších variant Shylock x Šajlok Anna Karenina x Anna Kareninová Salzkammergut x Solná komora  zjištění častějšího typu skloňování (bez) Heineho x Heina Goetheho x Goethovo (dílo)  frekvence nesklonné varianty (studuje na) Yale x Yaleu

15 Tagy – značky - metainformace  Pozice 1 - Slovní druh  A adjektivum (přídavné jméno) C numerál (číslovka, nebo číselný výraz s číslicemi) D adverbium (příslovce) I interjekce (citoslovce) J konjunkce (spojka) N substantivum (podstatné jméno) P pronomen (zájmeno) R prepozice (předložka) T partikule (částice) V verbum (sloveso) X neznámý, neurčený, neurčitelný slovní druh Z interpunkce, hranice věty  Pozice 4 - Číslo  D duál (pouze 7. pád feminin) P plurál (množné číslo) S singulár (jednotné číslo) W pouze v kombinaci s jmenným rodem 'Q' (singulár pro feminina, plurál pro neutra)* X libovolné číslo (P/S/D)  Pozice 5 - Pád  1 nominativ (1. pád) 2 genitiv (2. pád) 3 dativ (3. pád) 4 akuzativ (4. pád) 5 vokativ (5. pád) 6 lokativ (6. pád) 7 instrumentál (7. pád)  Klikátko:

16 Hledání pomocí tagů  femininum sg. 1. p.  [tag="NNFS1.*"]  adjektiva odvozená od slovesného tvaru minulého přechodníku  [tag="AM.*"] v SYN výskytů  adverbia předcházející výrazu červený  [tag="D.*"][lemma="červený"]  Co s nimi? Jak je setřídit?

17 Frekvenční distribuce (Ctrl+F)  Dotaz zněl: [tag="D.*"][lemma="červený"] v SYN2010  Výsledek chceme setřídit podle lemmat  Konkordance > Statistiky > Frekvenční distribuce > Atribut: lemma  jasně, sytě, cihlově, vínově…  Další dotazy už s pomocí regulárních výrazů

18 Regulární výrazy  Pozor, u různých korpusů se mohou lišit  Seznam výrazů pro Bonito je zde: . = libovolný znak (p.s = pes, pás, pas,.... = všechna čtyřpísmenná slova)  * = libovolný počet opakování předchozího znaku (ps*t = pt, pst, psst, pssst atd.)  + = libovolný počet opakování předchozího znaku > 0 (ps+t = pst,  psst, pssst atd.)  & = a zároveň (např. [word=".*ina" & tag="N.*"] = vina, krajina, úžina, čeština, ale i Stalina atd.)  [] = výběr ze seznamu (např. [Pp]řeklad, disku[sz]e)  | = výběr z možností (např. diskuse|diskuze)  ? = žádný nebo jeden výskyt předchozího znaku/výrazu  ^ = s vyloučením znaků v dané závorce

19 Příklady využití regulárních výrazů  všechny konkordance začínající na les-  les.* (najde les, lesklý, lest atd.)  lemma les  Bože s malým nebo velkým počátečním písmenem): [bB]ože  Slova končící na –ink nebo –ing .+in[kg] (najde brífing, leasing, mítink atd.)  infinitivy předponových sloves od nést .+nést  Zde opět využijeme frekvenční distribuci

20 H/rozinka? Briefing, nebo brífink?  1.) V jakém kontextu se využívá hrozinka a v jakém rozinka?  (h?rozin(k|c).*) > Který pád je frekventovaný? > V jakých žánrech se výraz vyskytuje?  Hledáme nejen v textových typech: Frekvenční distribuce > genre:  GEO - geologie GGR - geografie HIS - historie HOU - domácí hospodářství HUM - jiný z oblasti sociálních věd  2.) Je častější briefing, nebo brífink a v jakých textových typech se užívá? Mění se užívání v čase?  [lemma = "brífink“] > jaká četnost v SYN2005 a SYN2010?  Výrazy brífink.*, brífing.* a briefing.*  Vyhledejte br(ie|í)fin.* --> najde všechny tvary  txtype: pub 38, nov 7  PUB - publicistika (noviny a neodborné časopisy)

21 slovesa následovaná VV bez chuti a bez zápachu  3.) Jak najít všechna slovesa, po nichž může bezprostředně následovat předmětná věta s že?  [tag="V.*"][word=","][word="že"]  4.) Jak se zeptat na slovní spojení typu bez chuti a bez zápachu – tedy „ bez + substantivum + libovolný výraz (i třeba čárka) + bez + substantivum“? Na určitý slovní druh se lze v tomto případě ptát pomocí [pos="N"].  [word="bez"][pos="N"][][word="bez"][pos="N"]

22 Pozitivní a negativní filtr na korpusu ORAL2008  Vyřazení dokladů: negativní filtr  Vyhledání vybraných: pozitivní filtr tento nový překlad Martina Hilského  dotaz:.*zej.*  Nový dotaz: negativní filtr: zejtra  Deixe: takov.*  Chceme najít takovejchhle – pozitivní filtr  Kolikrát se vyskytuje?  A ještě expresivní výrazy:.*krk.*  negativní filtr postupně: krkem, krku, krk

23 Kolokace (Ctrl+L)  souvýskyt dvou a více slov vyšší než náhodný  termín úzce spojený s korpusovou lingvistikou  volná kombinovatelnost v jazyce prakticky neexistuje  vyhledávání pomocí statistických měr MI-score: měří sílu asociace mezi dvěma slovy (podíl pravděpodobnosti výskytu dvou slov spolu a výskytu každého zvlášť), vhodné pro objevení řidších (netypičtějších) kolokací t-score: míra kontrastu, vhodné pro frekventovaná a přehlížená slova, funkční slova apod. výhodné bývá setřídit nejprve podle absolutní a pak podle relativní frekvence či MI-score

24  Jaká slovesa se spojují s výrazem dotaz?  odpovědět, vznést, reagovat na, posílat, zaslat, vyřizovat, zadávat, bombardovat…  Jaká slovesa se spojují s výrazem dveře?  zabouchnout, přibouchnout, rozrazit, zaklepat, prásknout, zabušit, rozlétnout, pootevřít, vypáčit, zamknout, klepat…  adjektiva vyskytující se s výrazem ženská  bláznivá, zatracená, báječná, pěkná, hloupá, tlustá, divná, slušná, obyčejná, hezká, zlá…  kolokace slovesa vznést  námitka, obžaloba, obvinění, helikoptéra, oblak, dotaz, požadavek, pírko, apel, protest, balon…

25 Vytváření subkorpusů  výhoda subkorpusu: vyhledávám jen v textech, které splňují požadavky, které si sám zvolím  podle typu textu, roku vydání, žánru, překladatele…  Jak vytvořit subkorpus textů přeložených z cizího jazyka a subkorpus textů původně českých?  Menu > Korpus > Vytvoření subkorpusu Musím mít zvolen korpus, v rámci nějž jej chci vytvořit (SYN2010)! Jméno subkorpusu bez mezer Značka pro korpus SYN2000 je doc, pro novější opus Podmínka: srclang="ENG" > dostanu jen texty přeložené z AJ pro texty nepřeložené: srclang="" > najde jen původně české texty

26  Jak vytvořit subkorpus typu textu básně? Podmínka: txtype= " VER "  Subkorpus textů z oblasti lékařství, fyziky, sportu? Podmínka: genre= " MED ", genre= " PHY ", genre= " SPO "  Podmínky lze negovat pomocí !  Subkorpus všech textů kromě publicistiky? Podmínka: txtype!="PUB"  Podmínky lze kombinovat pomocí &  Subkorpus všech prozaických textů z 90. let? Podmínka: (txtype="NOV" | txtype="COL") & rokvyd="199."

27 InterCorp  překladové texty z/do češtiny  rozhraní Park (ne Bonito), stejné přístupové heslo jako pro ostatní korpusy ČNK volba jazyka/jazyků i textu/textů možnost vyhledávat v jednom jazyce i ve více současně (např. překlady slova či tvaru či kontexty výskytu) hledání podle slovního tvaru, posloupnosti tvarů (fráze), pomocí jazyka CQL, u některých jazyků i podle tagu a lemmatu zobrazení paralelních konkordancí (zarovnáno po větách) NOVĚ možnost filtrovat dotaz (v rámci věty i podle pozic)

28 Složení korpusu InterCorp

29 Možnosti a meze InterCorpu + některé jazyky jsou lemmatizovány a označkovány (možnost vyhledávat podle tagů a lemmat) - nepříliš velký rozsah, ale stále přibývají nové texty + Project Syndicate: výběr publ. článků z let bohužel nelze určit zdrojový text a překlad - rozhraní Park zatím neumožňuje automatické vyhledávání kolokací, funkci frekvenční distribuce atd. + tyto funkce lze využívat v jednojazyčných verzích v rámci webové verze (Bonito 2):

30 Příklady využití  hledáme české ekvivalenty anglického pathetic  dojemný, k pláči, ubohé, k politování, smutné, trapný, směšný…  co všechno lze (?) přeložit českým (ty) vole  man, Jesus Chick, you idiot, you ass, you fucking bastard, dude, you swine…  kontext a překlady slova utterly (sémantická prozodie)  u. insignificant = naprosto zanedbatelné  u. alone = zoufale osamělý  u. different = zcela jiný  u. fascinated = doslova fascinován  u. unknown = úplně neznámý  u. hopeless = nekonečně beznadějné  u. unwanted = vysloveně nechtěný

31 Čas na rozhodnutí  Diskuse, nebo BNC a COCA?

32 British National Corpus  100 milionů slov, 4 žánry, i mluvený jazyk  Dobré rozhraní:  Stejné rozhraní – COCA (Corpus of Contemporary American English)   400 milionů slov

33 Využití BNC či COCy  kontext (KWIC)deregister* - Tokens/hits = doklady barevné vyznačení slov. druhů, vlevo: zdroje (žánry)  stylové zařazeníget* - Zaškrtněte „Chart“ – viz Spoken pozor na srovnání - jen údaje „per mil“!  odvozená slovaget* - Zaškrtněte „List“ – např. Getaway  srovnánísmall OR little? (následováné podst. jménem)  Zaškrtněte „Compare“, zadejte obě slova do „Words“ a v „POS“, part of speech, vyberte noun.ALL > v kolonce „Collocates“ se objaví tag podst. jmen [nn*]  Zaškrtněte „Sort by relevance“ a minimum „Mutual info“ 3 a 5.  Přidejte do „Collocates“ např. print  Zaškrtněte v "POS" noun.SG a omezte kontext na dvě pozice zprava a 0 zleva

34 Regulární výrazy a BNC  [break] the [nn*]  Zobrazení KWIC je nepřehledný souhrn náhodných dokladů  List – seznam kolokací jako v Bonitu  Pozor na aktivované kolonky „Collocates“ a „POS“ – je třeba deaktivovat


Stáhnout ppt "Lucie Chlumská, Olga Richterová ÚČNK FF UK JTP, 19. 3. 2011."

Podobné prezentace


Reklamy Google