Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013.

Podobné prezentace


Prezentace na téma: "Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013."— Transkript prezentace:

1 Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013

2 Co je to jazykový korpus?

3 Co je to jazyk? Jak byste vysvětlili malému dítěti (nebo třeba mimozemšťanovi), jaký je rozdíl mezi slovy a jazykem? V jakých situacích lidský jazyk používáme?

4 Co je to význam? „Jo, to budeme moc rádi.“ (sms) Jaký je význam téhle věty? V jakých situacích takovéhle věty používáme? Čím vším odkazujeme?

5 Co můžeme zkoumat? Empirickému zkoumání můžeme podrobit to, o čem máme doklady. Co můžeme snadno zkoumat? To, o čem je poměrně snadné (levné) získat doklady. V čem je potíž introspekce: zkoumání vlastního nitra / náhledů / jazykového citu?

6 Co tedy děláme? Sbíráme (jazyková) data (tj. doklady jaz. projevů) v kontextu – psaná i mluvená Dál je zpracováváme (dělíme na jednotlivé pozice – tokenizujeme, automaticky značkujeme – tagujeme, opatřujeme informacemi o jednotlivých textech – anotujeme) Zpřístupňujeme je: bez uživatelů nemá naše práce jiný než archivářský smysl!

7 K čemu – kdo – jak – a vyplatí se to? I. K čemu jsou korpusy dobré? II. Kdo za tím stojí III. Co nabízí Český národní korpus Datové zdroje – hlavní práce Speciální data IV. Jakým způsobem se k datům dostat: Jednotné rozhraní versus např. SyD.korpus.cz frekvenční distribuce, kolokace, paralelní korpusy V. Dotazy

8 Nejprve je třeba se registrovat!

9 Díl I.: K čemu je náš korpus dobrý a) k machrování před cizinci b) k lepším výkonům ve Scrabblu c) k vymýšlení, co znamenají různé zkratky, třeba SyD

10 SyD – průzkum variant

11

12 SyD – průzkum kolokací (tj. typického užití)

13 SyD – rozložení v typech textu

14 Díl II.: Kdo za korpusem stojí a) skupina potrhlých vědců b) rozsáhlý projekt MŠMT c) mezinárodní spolupráce

15 Institut Českého národního korpusu: www.korpus.cz Inspirováno BNC: Začátek 90. let Komplexní přístup  Spolupráce řady institucí (Praha – FF, MFF; Brno)  Lingvisté a technici  Dnes: přelomová doba – součást výuky?! Mezinárodní spolupráce & copyright  CLARIN, zákony (status národní knihovny)

16 Díl III.: Jaká data nabízíme a) přístup k větám a jejich okolí b) česká i cizojazyčná c) soukromá i veřejná

17 Smysl jazykového korpusu Řada SYN: synchronní – současný – jazyk: snaha zachytit ho a popsat  leč jen vzorek (v čem rozdíl od webu?)  reprezentativní (co se recipuje)  vyvážený (textové typy a žánry)  referenční (nezměnitelný)  informačně nasycený (lemmatizovaný, annotovaný, otagovaný)

18 Psaná čeština Korpusvelikostcharakteristika SYN2000100 Mil.vyvážený korpus; hl. z 1990–1999 SYN2005100 Mil.vyvážený korpus; hl. z 2000–2004 SYN2006PUB300 Mil.publicistika z let 1989–2004 SYN2009PUB700 Mil.publicistika z let 1995–2007 SYN2010100 Mil.vyvážený korpus; hl. z 2005–2009 SYN1 300 Mil.nereferenční; suma všech korpusů z řady SYN

19 Psaná čeština

20 Jaký jazyk nejčastěji používáme? V ca 90% procentech realizací jazykových projevů nepoužíváme k dorozumění pero ani klávesnici.

21 Mluvená čeština Korpusveliko st charakteristika ORAL20061 Mil.neformální mluvené dialogy ORAL20081 Mil.sociolingvisticky vyvážený korpus s neformálními dialogy z Čech ORAL2013ca 3 Mil. sociolingv. vyvážený korpus se zvukovou stopou a daty z Čech i Moravy

22 ORAL2013

23 Sociolingvistické informace

24 Machrovinky – speciální korpusy KSK – Korpus soukromé korespondence CzeSL – Czech as Second Language DEAF – viz následující přednáška LINK – Lingvistův narozeninový korpus HOTKO – horní lužická srbština DOTKO – dolní lužická srbština

25 Díl IV.: Jak sebraná data používat a) při psaní zásadních textů a prací b) když váháme, co ještě ano a co už ne c) když chceme někomu vysvětlit, proč jsme v daném kontextu zvolili to či ono d) méně utilitárně: velká data umožňují hlubší vhled  poznání jako cíl

26 Jaký byl jazyk našich předků?

27 Synchronní a diachronní pohled

28 Hlavní rozhraní

29 Hlavní rozhraní a volby Jaký jazyk nás zajímá? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický?  výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci (věhlasný x proslulý) informace z tagů (slovní druh, pád, čas, …)

30 Hlavní rozhraní – srovnávání více jazyků (InterCorp)

31 Výskyt přivlastňovacích zájmen

32 Přivlastňovací zájmena CS x EN

33 V. Díl: Ještě se ptáte, jaké je využití korpusů? Uživatelé  Profíci: novináři, překladatelé, jazykovědci, redaktoři, učitelé, studenti...  Široká veřejnost, žáci,... Funkce  srovnávání variant, kolokace – slova, která patří k sobě, správný výraz pro určitou situaci, překlad, zdůvodňování voleb, NLP (automatický překlad), hledání konkrétní formy (rýmy, koncovky),...  lepší porozumění jazyku a komunikaci obecně

34 Otázky? Uživatelé  Budete mezi nimi i vy? Funkce  dodali byste nějaké další...?

35 Zaregistrujte se......a nebojte se ptát! Děkuju za pozornost! olga.richterova@ff.cuni.cz


Stáhnout ppt "Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013."

Podobné prezentace


Reklamy Google