Workshop o paralelním korpusu InterCorp

Slides:



Advertisements
Podobné prezentace
• Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Advertisements

CJBB75 1 ZPK CJBB CJBB75 2 Je to, co je skryto ve značce „stupeň“, jediné, co je možné se z korpusu dozvědět o stupňování v češtině ? Pozice.
Organisation for Economic Cooperation and Development OECD iLibrary.
CJBB75 1 ZPK CJBB75 čtvrtek G
Využití korpusů v překladatelské praxi II
ANJ-GRAMATIKA Zájmena
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKR LOUNY
Rezervační systém AK Kladno Pokročilé používání. Vytvoření opakování rezervace.
Korpusová lingvistika (2)
Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
OBOROVÁ BRÁNA PRÁVO Právnická fakulta UK Květa Hartmanová České oborové brány – současný stav a výhled, , NTK.
SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM!
CJBB84 1 ZPK CJBB75 čtvrtek G
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
53. Šrámkova Sobotka Sobotka 9. července 2009
Základní škola a Mateřská škola Slapy, okres Praha-západ
Korpus nejsou jenom dorty
Informace – vyhledávání informací
Soustava lineárních nerovnic
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Jméno autora:Mgr. Jitka Charvátová Třída/ročník:
STRUKTURA OSNOVY KURZU
Číslo projektuCZ.1.07/1.5.00/ Číslo materiáluVY_32_INOVACE_258 Název školyGymnázium, Tachov, Pionýrská 1370 Autor Ing. Roman Bartoš Předmět Informatika.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
IT Session Two Lessons Three and Four. Outline  IT Test 1  International Phonetic Alphabet  IPA – Interactive chart  Exercise 1  Český národní korpus.
CJBB75 1 ZPK CJBB75 čtvrtek G
VY_32_INOVACE_4.3.IVT1.12/Oc Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jaroslav Ochodek CZ.1.07/1.5.00/ Tvorba webových.
Korpusová lingvistika (4) Základy korpusové statistiky
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: květen.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Využití vzorců a funkcí k úpravám v textu
Tabulky – vyhledávání (v dalších tabulkách pomocí relací)
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: únor 2012,
Jak efektivně využívat korpusy v translatologii?
ANOTACEPrezentace obsahuje informace o práci s vyhledávačem Google. Druh učebního materiáluDUM Očekávané výstupy Žáci umí použít vyhledávač Google k vyhledávání.
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
FÁZE NÁCVIKU SLOHOVÉHO PROJEVU
KORPUSOVÁ LINGVISTIKA. ÚKOL Prozkoumejte gradační vlastnosti adjektiv v konstrukci "nicht nur ADJ (...) sondern", např. nicht nur hübsch, sondern auch.
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
 U řady jmen s kmenem zakončeným skupinou dvou nebo více souhlásek, např. hra, kresba, látka, astra, ondatra, se v G. pl. do skupiny vkládá e: her, kreseb,...“(Cvrček.
CJBB84 1 GAK – CJBB84 st
Vyhledávání dat podle určitých kritérií Lenka Havránková, 4.Y.
B ORIS L EHEČKA, ODDĚLENÍ VÝVOJE JAZYKA ÚJČ AV ČR, V. V. I. DALIBORIS. CZ P RAŽSKÉ JARO V O STRAVĚ, 24. BŘEZNA 2015 Nástroje pro badatele (nejen)
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
CJBB CJBB75.
CJBB75 1 ZPK CJBB75 středa G
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Anopress: nová grafika, nové možnosti Mgr. Daniela Uhrová září 2010.
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
ACCESS DOTAZY Ing. Jana Horáková IKT MS Office
Jana Holá Tvorba rešerše Jana Holá
CJBB75 Základy využití korpusu pro praxi st G13.
Jak čeština v beletrii překládá francouzské zvratné sloveso „se mettre à“ ve vazbě s infinitivem? korpusový výzkum se mettre à = pouštět se, dát se.
Vyhledávání na Internetu. Webové vyhledávače Webový vyhledávač je služba, která umožňuje na Internetu najít webové stránky, které obsahují požadované.
JAK SPRÁVNĚ GŮGLIT. PŘESNÁ SLOVA A FRÁZE nejzákladnější a nejvíce známý vyhledávací trik uvozovky k vyhledání přesné fráze. například provedete následující.
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
ČÍSLO PROJEKTU ČÍSLO MATERIÁLU NÁZEV ŠKOLY AUTOR TÉMATICKÝ CELEK
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Jana Holá Tvorba rešerše Jana Holá
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_276_ČJ8
Soustava lineárních nerovnic
Digitální učební materiál
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Funkční styl odborný.
Úvod do korpusové lingvistiky 3
Knihovny.cz Vyhledávání patentových dokumentů
Transkript prezentace:

Workshop o paralelním korpusu InterCorp Praha, 6.9.2013 Olga Richterová, Michal Křen, ÚČNK

Český národní korpus (LM2011023; 2012-2016) Ministerstvo školství, mládeže a tělovýchovy Projekty velkých infrastruktur pro VaVaI

PŘEHLED PROGRAMU 10:00–11:00 Typy výzkumných otázek Typy dotazů, regulární výrazy Statistiky (frekvenční distribuce) 11:15–12:45 Pokročilé dotazy (CQL) Vytváření subkorpusů, podmínky within Kolokace, (třídění) 12:45 – Oběd 14:15 – Odpolední část programu

Co ne/stihneme Ukážeme si témata / cesty / tipy a triky Zodpovíme vaše dotazy Nestihneme všechna probíraná témata důkladně procvičit Tato prezentace bude posléze k dispozici V horizontu několika týdnů bude zpřístupněno nové webové rozhraní a posléze nový webový manuál pro práci s korpusy!

Pro a proti korpusového výzkumu Vzorek jazyka Data bez interpretace? Výhody korpusu oproti webu? reprezentativní – vytvořený z pečlivě vybraných textů neměnný (referenční) – po zveřejnění se nemění standardizvoaný anotovaný – opatřený dalšími informacemi Proti: že to je drahý

TYPY OTÁZEK

Typy výzkumných otázek Jaký jazyk nás zajímá? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický? Výběr korpusu

Typy výzkumných otázek Jaký jev chceme hledat? konkrétní tvar odvozeniny od základu .*love.* slovo rýmující se s „mírnyx dírnyx“ ([word=".*[iy](x|ks)"]) všechny tvary jednoho slova ustálené slovní spojení/kolokaci další informace (z tagů: slovní druh, pád, čas, …) Výběr dotazu matrix, krucifix, fénix, mix, komiks

Co nám v současnosti umožňují zdrojová data? Jaký jazyk InterCorp umožňuje zkoumat? psaný, z 20.-21. století publicistický – bez znalosti výchozího textu jazyk beletrie jazyk odborný – právnické texty překladový / jazyk originálů Jevy podle zpracování konkrétního korpusu

TYPY DOTAZŮ

Začínáme vyhledávat

Začínáme vyhledávat

Typy dotazů se liší podle korpusu

Ne každý je lemmatizovaný…

Přidávání paralelních korpusů 16

Přidávání dalších paralelních korpusů 17

Paralelní korpus – zadání dotazu 18

Paralelní – výsledky typ dotazu: podřetězec 19

Závislost typu dotazu na korpusu V lemmatizovaných korpusech je možné hledat konkrétní, použitý slovní tvar (word) – např. kočce, běž, gelaufen, headings základní slovníkový tvar (lemma) – např. kočka, běžet, laufen, heading V označkovaných (otagovaných) korpusech lze najít i morfologickou značku (tag) V anotovaných korpusech lze zadat i další podmínky

s / bez RE (regulárních výrazů) Typy dotazů typ dotazu s / bez RE (regulárních výrazů) počet slov další základní bez více zadáme-li tvar lemmatu, vyhledá celé paradigma lemma s jen 1 lze specifikovat sl. druh (stát jako sloveso) fráze konkrétní slovní tvary slovní tvar lze specifikovat sl. druh (při jako podst. jm. – od pře)

Typy dotazů – dokončení typ dotazu s / bez RE (regulárních výrazů) počet slov další podřetězec s 1 řetězec vyhledá např. mrsk – všechny odvozeniny slov mrskat, mrsknout, smrsknout, Zámrsk, i překlepy typu mrskev CQL s – umožňuje nejpřesnější dotazování a kombinaci různých kritérií více umožní zadat podmínky a dotázat se na libovolný počet pozic https://www.korpus.cz/corpora/run.cgi/view?q=aword%2C[word%3D%22John%22]+within+%3Cdiv+srclang%3D%22cs%22+%2F%3E;fromp=2;corpname=intercorp_en&attrs=word&ctxattrs=word&structs=p&refs=%3Ddoc.id%2C%3Ddiv.original%2C%3Ddiv.srclang

Co jsou to regulární výrazy

Regulární výrazy: zástupné symboly a možnosti opakování Mohou se užívat ve všech typech dotazů kromě základního tečka (.) – představuje jeden libovolný znak, interval ({n, k}) – n až k opakování předchozího znaku nebo většího celku, hvězdička (*) – libovolný počet (0 a více) opakování předchozího znaku nebo celku, tj. {0,} plus (+) – 1 nebo více opakování předchozího znaku nebo celku, tj. {1,}

Regulární výrazy: možnosti opakování a logické operátory otazník (?) – žádný nebo jeden výskyt předchozího znaku nebo celku, tj. {0,1} seznam ([]) – alternativa, výběr jednoho libovolného znaku z těch, které jsou uvedeny uvnitř závorek svislá čára (|) – také alternativa, ne ovšem mezi jednotlivými znaky, ale celými řetězci tvořícími jednotku kulaté závorky – libovolnou část výrazu je možné seskupit do kulatých závorek, vytvořit tak jistý celek a ovlivnit tím prioritu jeho vyhodnocování

Regulární výrazy a dotazovací jazyk Více informací k regulárním výrazům: https://www.korpus.cz/bonito/regular.php Více informací k dotazovacímu jazyku (anglicky) http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying Nakreslit na tabuli předem velký soupis a šipečkou, k čemu se vztahují

Vnitřní struktura korpusu Zjednodušené uspořádání dat v lemmatizovaném a tagovaném korpusu: slovní tvar (word) lemma tag (zkrácený) Když když J.* školení N..S4.* skončilo skončit V.* , Z.* … <s/> 27

Základní dotazy v novém rozhraní korpus SYN2010 Základní dotaz: vyhledejte prašivý pes a černá kočka. V čem se liší výsledky? Lemma: vyhledejte … (tři tečky) .+nést ra(ta)+ ps*t Slovní tvar: vyhledejte při (a specifikujte slovní druh jako podstatné jméno) hned se podíváme na Frekvenční distribuci překvapeni, že „pře“ správně lemmatizoaná?

Změna vybraného korpusu

Základní dotazy: nelemmatizovaný korpus Vyhledejte v korpusu ORAL2008 v typu dotazu Základní a?[nj]o v typu dotazu Slovní tvar tuhle.+ .*(dle|hle)nc.* .*[dh]lenc.* no, jo, ano, NO; tuhlec.* x tuhlen.* x tuhlenc.* to; těchhlenctěch, tydlencty – regionální frekv. distribuce!

Shrnutí typů dotazů Existují různé typy dotazů, které většinou umožňují využívat zástupné symboly (tzv. regulární výrazy) Regulární výrazy nabízejí mnohem širší vyhledávací možnosti než pouhé řetězce písmen Nejpřesnější pokládání dotazů umožňuje dotazovací jazyk CQL

STATISTIKY / Frekvenční distribuce

Frekvenční distribuce – ORAL2008

Frekvenční distribuce I Distribuce lemmat a zdrojový jazyk InterCorp EN: [lemma=„s?he“] InterCorp EN: [lemma=„s?he“], srclang=„en“ lemma absolutní frekvence podíl he 177 205 68,7 % she 80 663 31,3 % celkem 257 868 100 % lemma absolutní frekvence podíl he 95 875 65,8% she 52 148 34,2 % celkem 148 023 100 %

Frekvenční distribuce II Porovnání s angličtinou SYN (CS): [lemma="ona?"] InterCorp CS: [lemma="ona?"] Nelze, v češtině ona lemmatizováno jako on Nebo přece...? Ukážeme si později. Je tomu stejně i u přivlastňovacích zájmen? Zkusme se zeptat na [lemma=„je(ho|jí)“]

Frekvenční distribuce III Projevuje se v distribuci přivlastňovacích zájmen v CS a EN typologický rozdíl mezi jazyky? Rozhodně je vidět rozdíl v tagování! lemma korpus abs. frekvence relat. frekvence his (DPS, PNP, UNC) (PP$) BNC InterCorp 409 825 117 914 3 684 1 826 originál: his InterCorp EN 54 685 7 774 her (DPC, UNC, VVG) (PP$, PP) 23 376 77 410 1 828 1 199 jeho SYN 2 601 136 1 658 její 1 163 534 742

Pozor na skladbu korpusů Rozdíl mezi jazyky X rozdíl mezi text. typy/žánry? BNC a InterCorp jsou sestavené jinak! Nejvyšší frekvence v BNC: Imaginative: 7906 i.p.m.

Rozdílná distribuce v textových typech

POKROČILÉ DOTAZY

Dotazovací jazyk a uplatnění více podmínek na tutéž pozici (slovo) CQL (corpus query language): [atribut="hodnota"] logické operátory: & (zároveň), | (nebo), ! (negace) SYN2010: [lemma="on" & tag="P.F.*"] (tj. lemma "ona") 2 867 i.p.m., nelze v InterCorp (CS) Intercorp (EN) – homonymní tvary (states: tag N.*|V.*) [word="states"&tag!="N.*"] 1 608 výskytů, frekv. distrib. – typy textu: seřadit dle i.p.m. EuroParl – 42 i.p.m. (výskytů na milion) publicistika – zprávy – 34 i.p.m. próza – 2 i.p.m. Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

Dotazovací jazyk a prázdná pozice [lemma="have"][][lemma="get"] Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

Dotazovací jazyk a prázdná pozice CQL a tokenizace Cokoli Určená pozice Dotaz [lemma="have"] [] [lemma="get"] Realizace we have n't got She had to get Republic has now Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

Dotazovací jazyk a operátor rozsahu Tento dotaz: [lemma="have"][][lemma="get"] se rovná: [lemma="have"][]{1}[lemma="get"] Zkusme najít věty tázací: [lemma="have"][]{1,2}[lemma="get"][]+[word="\?"] omezí se vyhledávání na 1 větu? Poté zvýšit počet: [lemma="vlk"][]{1,7}[lemma="koza"][]{1,5}[lemma="celý"]

Dotazovací jazyk

PODMÍNKY A SUBKORPUSY

Podmínky: v rámci jedné věty [lemma="have"][]{1,2}[lemma="get"][]+[word="\?"] within <s/>

Vyhledávání dle větné pozice Adverbiale na počátku věty v angličtině Chceme najít krátká příslovečná určení a jiná uvození v iniciální pozici anglických vět, oddělená čárkou (a vyloučit slovesné tvary): <s> [word!="V."]{1,2}[word="\,"] Stejně tak můžeme vyhledávat např. podstatná jména předcházející konci věty: [tag="N.*"] [] <s/>

Frekvenční distribuce a podmínky hledání interjekcí v jazyce konkrétního autora: [tag="I.*"] within <div author="Milne.*" /> Jak zjistíme tag anglických interjekcí? – nějakou zadáme a Frekv. distr > značky hey – UH, NP, bump – NN, VB, NP, VBP podobně: osobní zájmena v jazyce V. Woolf [lemma="s?he"] within <div author="Woolf.*" /> pozor: i.p.m. (80 výskytů) vztaženo k celému korpusu!

Vytváření subkorpusů Subkorpus – Vytvořit nový – Vlastní within podmínka within <div author="Woolf.*" /> 186 222 tokenů Hledat v: Dostupné subkorpusy lemma she – 17 264 i.p.m. lemma he – 12 066 i.p.m.

Rozdíly: SYN(…) a InterCorp SYN: není-li u atributu „srclang“, (source language, zdrojový jazyk), uvedena žádná hodnota, jedná se o češtinu. Subkorpus obsahující pouze původně české, nepřekladové texty? SYN(…): within <srclang=""/> InterCorp: within <srclang="CS"/>

Další rozdíly: SYN(…) a InterCorp strukturní atributy: doc – opus – div autor – author velká/malá písmena u zdroj. jazyka a jejich počet en – ENG ... 51

SYN, InterCorp a jazyk překladů SYN: po vytvoření subkorpusu s podmínkou zdrojového jazyka češtiny: [tag="I.*"]within <opus srclang="" /> můžeme porovnat např. s citoslovci v jazyce překladu: [tag="I.*"]within <opus srclang!="" /> Podobně v InterCorpu musíme dbát na směr překladu: u řady textů však neznáme zdrojový jazyk!

Tip: pozor na tagování Z rakouské němčiny přejatý výraz pro rychle: [lemma=„kách“] (SYN2010, SYN) nalezneme např.: Ti druzí umřeli moc kách . Ale také nalezneme kách jako koncovku: Určete, ve které (ých) zkumavce (kách) vznikla sraženina! Proto nás zajímá kách jako adjektivum / adverbium: [tag="[AD].*"&word="kách"] – tytéž výsledky

KOLOKACE

Kolokace a ekvivalence – hledání rozdílů typické kolokace rozhodování v kontextu

Kolokace a ekvivalence – hledání rozdílů

Děkujeme za pozornost! olga.richterova@ff.cuni.cz michal.kren@ff.cuni.cz