Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Korpus nejsou jenom dorty
Olga Richterová, FF UK, Praha
2
Co je to jazykový korpus?
2
3
V jakých situacích lidský jazyk používáme?
Co je to jazyk? Jak byste vysvětlili malému dítěti (nebo třeba mimozemšťanovi), jaký je rozdíl mezi slovy a jazykem? V jakých situacích lidský jazyk používáme? 3
4
Co je to význam? „Jo, to budeme moc rádi.“ (sms)
Jaký je význam téhle věty? V jakých situacích takovéhle věty používáme? Čím vším odkazujeme? 4
5
Co můžeme zkoumat? Empirickému zkoumání můžeme podrobit to, o čem máme doklady. Co můžeme snadno zkoumat? To, o čem je poměrně snadné (levné) získat doklady. V čem je potíž introspekce: zkoumání vlastního nitra / náhledů / jazykového citu? 5
6
Co tedy děláme? Sbíráme (jazyková) data (tj. doklady jaz. projevů) v kontextu psaná i mluvená Dál je zpracováváme (dělíme na jednotlivé pozice – tokenizujeme, automaticky značkujeme – tagujeme, opatřujeme informacemi o jednotlivých textech – anotujeme) Zpřístupňujeme je: bez uživatelů nemá naše práce jiný než archivářský smysl! 6
7
K čemu – kdo – jak – a vyplatí se to?
I. K čemu jsou korpusy dobré? II. Kdo za tím stojí III. Co nabízí Český národní korpus Datové zdroje – hlavní práce Speciální data IV. Jakým způsobem se k datům dostat: Jednotné rozhraní versus např. SyD.korpus.cz frekvenční distribuce, kolokace, paralelní korpusy V. Dotazy
8
Nejprve je třeba se registrovat!
8
9
Díl I.: K čemu je náš korpus dobrý
k machrování před cizinci k lepším výkonům ve Scrabblu k vymýšlení, co znamenají různé zkratky, třeba SyD 9
10
SyD – průzkum variant 10
11
SyD – průzkum variant 11
12
SyD – průzkum kolokací (tj. typického užití)
12
13
SyD – rozložení v typech textu
13
14
Díl II.: Kdo za korpusem stojí
skupina potrhlých vědců rozsáhlý projekt MŠMT mezinárodní spolupráce 14
15
Institut Českého národního korpusu: www.korpus.cz
Inspirováno BNC: Začátek 90. let Komplexní přístup Spolupráce řady institucí (Praha – FF, MFF; Brno) Lingvisté a technici Dnes: přelomová doba – součást výuky?! Mezinárodní spolupráce & copyright CLARIN, zákony (status národní knihovny)
16
Díl III.: Jaká data nabízíme
přístup k větám a jejich okolí česká i cizojazyčná soukromá i veřejná 16
17
Smysl jazykového korpusu
Řada SYN: synchronní – současný – jazyk: snaha zachytit ho a popsat leč jen vzorek (v čem rozdíl od webu?) reprezentativní (co se recipuje) vyvážený (textové typy a žánry) referenční (nezměnitelný) informačně nasycený (lemmatizovaný, annotovaný, otagovaný) 17
18
Psaná čeština Korpus velikost charakteristika SYN2000 100 Mil.
vyvážený korpus; hl. z 1990–1999 SYN2005 vyvážený korpus; hl. z 2000–2004 SYN2006PUB 300 Mil. publicistika z let 1989–2004 SYN2009PUB 700 Mil. publicistika z let 1995–2007 SYN2010 vyvážený korpus; hl. z 2005–2009 SYN 1 300 Mil. nereferenční; suma všech korpusů z řady SYN 18
19
Psaná čeština 19
20
Jaký jazyk nejčastěji používáme?
V ca 90% procentech realizací jazykových projevů nepoužíváme k dorozumění pero ani klávesnici. 20
21
Mluvená čeština Korpus veliko st charakteristika ORAL2006 1 Mil.
neformální mluvené dialogy ORAL2008 sociolingvisticky vyvážený korpus s neformálními dialogy z Čech ORAL2013 ca 3 Mil. sociolingv. vyvážený korpus se zvukovou stopou a daty z Čech i Moravy 21
22
ORAL2013 22
23
Sociolingvistické informace
24
Machrovinky – speciální korpusy
KSK – Korpus soukromé korespondence CzeSL – Czech as Second Language DEAF – viz následující přednáška LINK – Lingvistův narozeninový korpus HOTKO – horní lužická srbština DOTKO – dolní lužická srbština 24
25
Díl IV.: Jak sebraná data používat
při psaní zásadních textů a prací když váháme, co ještě ano a co už ne když chceme někomu vysvětlit, proč jsme v daném kontextu zvolili to či ono méně utilitárně: velká data umožňují hlubší vhled poznání jako cíl 25
26
Jaký byl jazyk našich předků?
26
27
Synchronní a diachronní pohled
28
Hlavní rozhraní 28
29
Hlavní rozhraní a volby
Jaký jazyk nás zajímá? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický? výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci (věhlasný x proslulý) informace z tagů (slovní druh, pád, čas, …) 29
30
Hlavní rozhraní – srovnávání více jazyků (InterCorp)
30
31
Výskyt přivlastňovacích zájmen
31
32
Přivlastňovací zájmena CS x EN
32
33
V. Díl: Ještě se ptáte, jaké je využití korpusů?
Uživatelé Profíci: novináři, překladatelé, jazykovědci, redaktoři, učitelé, studenti... Široká veřejnost, žáci, ... Funkce srovnávání variant, kolokace – slova, která patří k sobě, správný výraz pro určitou situaci, překlad, zdůvodňování voleb, NLP (automatický překlad), hledání konkrétní formy (rýmy, koncovky), ... lepší porozumění jazyku a komunikaci obecně 33
34
Otázky? Uživatelé Funkce Budete mezi nimi i vy?
dodali byste nějaké další...? 34
35
Zaregistrujte se... ...a nebojte se ptát! Děkuju za pozornost!
35
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.