Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013.

Podobné prezentace


Prezentace na téma: "Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013."— Transkript prezentace:

1 Korpus nejsou jenom dorty Olga Richterová, FF UK, Praha

2 Co je to jazykový korpus?

3 Co je to jazyk? Jak byste vysvětlili malému dítěti (nebo třeba mimozemšťanovi), jaký je rozdíl mezi slovy a jazykem? V jakých situacích lidský jazyk používáme?

4 Co je to význam? „Jo, to budeme moc rádi.“ (sms) Jaký je význam téhle věty? V jakých situacích takovéhle věty používáme? Čím vším odkazujeme?

5 Co můžeme zkoumat? Empirickému zkoumání můžeme podrobit to, o čem máme doklady. Co můžeme snadno zkoumat? To, o čem je poměrně snadné (levné) získat doklady. V čem je potíž introspekce: zkoumání vlastního nitra / náhledů / jazykového citu?

6 Co tedy děláme? Sbíráme (jazyková) data (tj. doklady jaz. projevů) v kontextu – psaná i mluvená Dál je zpracováváme (dělíme na jednotlivé pozice – tokenizujeme, automaticky značkujeme – tagujeme, opatřujeme informacemi o jednotlivých textech – anotujeme) Zpřístupňujeme je: bez uživatelů nemá naše práce jiný než archivářský smysl!

7 K čemu – kdo – jak – a vyplatí se to? I. K čemu jsou korpusy dobré? II. Kdo za tím stojí III. Co nabízí Český národní korpus Datové zdroje – hlavní práce Speciální data IV. Jakým způsobem se k datům dostat: Jednotné rozhraní versus např. SyD.korpus.cz frekvenční distribuce, kolokace, paralelní korpusy V. Dotazy

8 Nejprve je třeba se registrovat!

9 Díl I.: K čemu je náš korpus dobrý a) k machrování před cizinci b) k lepším výkonům ve Scrabblu c) k vymýšlení, co znamenají různé zkratky, třeba SyD

10 SyD – průzkum variant

11

12 SyD – průzkum kolokací (tj. typického užití)

13 SyD – rozložení v typech textu

14 Díl II.: Kdo za korpusem stojí a) skupina potrhlých vědců b) rozsáhlý projekt MŠMT c) mezinárodní spolupráce

15 Institut Českého národního korpusu: Inspirováno BNC: Začátek 90. let Komplexní přístup  Spolupráce řady institucí (Praha – FF, MFF; Brno)  Lingvisté a technici  Dnes: přelomová doba – součást výuky?! Mezinárodní spolupráce & copyright  CLARIN, zákony (status národní knihovny)

16 Díl III.: Jaká data nabízíme a) přístup k větám a jejich okolí b) česká i cizojazyčná c) soukromá i veřejná

17 Smysl jazykového korpusu Řada SYN: synchronní – současný – jazyk: snaha zachytit ho a popsat  leč jen vzorek (v čem rozdíl od webu?)  reprezentativní (co se recipuje)  vyvážený (textové typy a žánry)  referenční (nezměnitelný)  informačně nasycený (lemmatizovaný, annotovaný, otagovaný)

18 Psaná čeština Korpusvelikostcharakteristika SYN Mil.vyvážený korpus; hl. z 1990–1999 SYN Mil.vyvážený korpus; hl. z 2000–2004 SYN2006PUB300 Mil.publicistika z let 1989–2004 SYN2009PUB700 Mil.publicistika z let 1995–2007 SYN Mil.vyvážený korpus; hl. z 2005–2009 SYN1 300 Mil.nereferenční; suma všech korpusů z řady SYN

19 Psaná čeština

20 Jaký jazyk nejčastěji používáme? V ca 90% procentech realizací jazykových projevů nepoužíváme k dorozumění pero ani klávesnici.

21 Mluvená čeština Korpusveliko st charakteristika ORAL20061 Mil.neformální mluvené dialogy ORAL20081 Mil.sociolingvisticky vyvážený korpus s neformálními dialogy z Čech ORAL2013ca 3 Mil. sociolingv. vyvážený korpus se zvukovou stopou a daty z Čech i Moravy

22 ORAL2013

23 Sociolingvistické informace

24 Machrovinky – speciální korpusy KSK – Korpus soukromé korespondence CzeSL – Czech as Second Language DEAF – viz následující přednáška LINK – Lingvistův narozeninový korpus HOTKO – horní lužická srbština DOTKO – dolní lužická srbština

25 Díl IV.: Jak sebraná data používat a) při psaní zásadních textů a prací b) když váháme, co ještě ano a co už ne c) když chceme někomu vysvětlit, proč jsme v daném kontextu zvolili to či ono d) méně utilitárně: velká data umožňují hlubší vhled  poznání jako cíl

26 Jaký byl jazyk našich předků?

27 Synchronní a diachronní pohled

28 Hlavní rozhraní

29 Hlavní rozhraní a volby Jaký jazyk nás zajímá? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický?  výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci (věhlasný x proslulý) informace z tagů (slovní druh, pád, čas, …)

30 Hlavní rozhraní – srovnávání více jazyků (InterCorp)

31 Výskyt přivlastňovacích zájmen

32 Přivlastňovací zájmena CS x EN

33 V. Díl: Ještě se ptáte, jaké je využití korpusů? Uživatelé  Profíci: novináři, překladatelé, jazykovědci, redaktoři, učitelé, studenti...  Široká veřejnost, žáci,... Funkce  srovnávání variant, kolokace – slova, která patří k sobě, správný výraz pro určitou situaci, překlad, zdůvodňování voleb, NLP (automatický překlad), hledání konkrétní formy (rýmy, koncovky),...  lepší porozumění jazyku a komunikaci obecně

34 Otázky? Uživatelé  Budete mezi nimi i vy? Funkce  dodali byste nějaké další...?

35 Zaregistrujte se......a nebojte se ptát! Děkuju za pozornost!


Stáhnout ppt "Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013."

Podobné prezentace


Reklamy Google