Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013
Co je to jazykový korpus? 2
V jakých situacích lidský jazyk používáme? Co je to jazyk? Jak byste vysvětlili malému dítěti (nebo třeba mimozemšťanovi), jaký je rozdíl mezi slovy a jazykem? V jakých situacích lidský jazyk používáme? 3
Co je to význam? „Jo, to budeme moc rádi.“ (sms) Jaký je význam téhle věty? V jakých situacích takovéhle věty používáme? Čím vším odkazujeme? 4
Co můžeme zkoumat? Empirickému zkoumání můžeme podrobit to, o čem máme doklady. Co můžeme snadno zkoumat? To, o čem je poměrně snadné (levné) získat doklady. V čem je potíž introspekce: zkoumání vlastního nitra / náhledů / jazykového citu? 5
Co tedy děláme? Sbíráme (jazyková) data (tj. doklady jaz. projevů) v kontextu psaná i mluvená Dál je zpracováváme (dělíme na jednotlivé pozice – tokenizujeme, automaticky značkujeme – tagujeme, opatřujeme informacemi o jednotlivých textech – anotujeme) Zpřístupňujeme je: bez uživatelů nemá naše práce jiný než archivářský smysl! 6
K čemu – kdo – jak – a vyplatí se to? I. K čemu jsou korpusy dobré? II. Kdo za tím stojí III. Co nabízí Český národní korpus Datové zdroje – hlavní práce Speciální data IV. Jakým způsobem se k datům dostat: Jednotné rozhraní versus např. SyD.korpus.cz frekvenční distribuce, kolokace, paralelní korpusy V. Dotazy
Nejprve je třeba se registrovat! 8
Díl I.: K čemu je náš korpus dobrý k machrování před cizinci k lepším výkonům ve Scrabblu k vymýšlení, co znamenají různé zkratky, třeba SyD 9
SyD – průzkum variant 10
SyD – průzkum variant 11
SyD – průzkum kolokací (tj. typického užití) 12
SyD – rozložení v typech textu 13
Díl II.: Kdo za korpusem stojí skupina potrhlých vědců rozsáhlý projekt MŠMT mezinárodní spolupráce 14
Institut Českého národního korpusu: www.korpus.cz Inspirováno BNC: Začátek 90. let Komplexní přístup Spolupráce řady institucí (Praha – FF, MFF; Brno) Lingvisté a technici Dnes: přelomová doba – součást výuky?! Mezinárodní spolupráce & copyright CLARIN, zákony (status národní knihovny)
Díl III.: Jaká data nabízíme přístup k větám a jejich okolí česká i cizojazyčná soukromá i veřejná 16
Smysl jazykového korpusu Řada SYN: synchronní – současný – jazyk: snaha zachytit ho a popsat leč jen vzorek (v čem rozdíl od webu?) reprezentativní (co se recipuje) vyvážený (textové typy a žánry) referenční (nezměnitelný) informačně nasycený (lemmatizovaný, annotovaný, otagovaný) 17
Psaná čeština Korpus velikost charakteristika SYN2000 100 Mil. vyvážený korpus; hl. z 1990–1999 SYN2005 vyvážený korpus; hl. z 2000–2004 SYN2006PUB 300 Mil. publicistika z let 1989–2004 SYN2009PUB 700 Mil. publicistika z let 1995–2007 SYN2010 vyvážený korpus; hl. z 2005–2009 SYN 1 300 Mil. nereferenční; suma všech korpusů z řady SYN 18
Psaná čeština 19
Jaký jazyk nejčastěji používáme? V ca 90% procentech realizací jazykových projevů nepoužíváme k dorozumění pero ani klávesnici. 20
Mluvená čeština Korpus veliko st charakteristika ORAL2006 1 Mil. neformální mluvené dialogy ORAL2008 sociolingvisticky vyvážený korpus s neformálními dialogy z Čech ORAL2013 ca 3 Mil. sociolingv. vyvážený korpus se zvukovou stopou a daty z Čech i Moravy 21
ORAL2013 22
Sociolingvistické informace
Machrovinky – speciální korpusy KSK – Korpus soukromé korespondence CzeSL – Czech as Second Language DEAF – viz následující přednáška LINK – Lingvistův narozeninový korpus HOTKO – horní lužická srbština DOTKO – dolní lužická srbština 24
Díl IV.: Jak sebraná data používat při psaní zásadních textů a prací když váháme, co ještě ano a co už ne když chceme někomu vysvětlit, proč jsme v daném kontextu zvolili to či ono méně utilitárně: velká data umožňují hlubší vhled poznání jako cíl 25
Jaký byl jazyk našich předků? 26
Synchronní a diachronní pohled
Hlavní rozhraní 28
Hlavní rozhraní a volby Jaký jazyk nás zajímá? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický? výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci (věhlasný x proslulý) informace z tagů (slovní druh, pád, čas, …) 29
Hlavní rozhraní – srovnávání více jazyků (InterCorp) 30
Výskyt přivlastňovacích zájmen 31
Přivlastňovací zájmena CS x EN 32
V. Díl: Ještě se ptáte, jaké je využití korpusů? Uživatelé Profíci: novináři, překladatelé, jazykovědci, redaktoři, učitelé, studenti... Široká veřejnost, žáci, ... Funkce srovnávání variant, kolokace – slova, která patří k sobě, správný výraz pro určitou situaci, překlad, zdůvodňování voleb, NLP (automatický překlad), hledání konkrétní formy (rýmy, koncovky), ... lepší porozumění jazyku a komunikaci obecně 33
Otázky? Uživatelé Funkce Budete mezi nimi i vy? dodali byste nějaké další...? 34
Zaregistrujte se... ...a nebojte se ptát! Děkuju za pozornost! olga.richterova@ff.cuni.cz 35