Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpus nejsou jenom dorty

Podobné prezentace


Prezentace na téma: "Korpus nejsou jenom dorty"— Transkript prezentace:

1 Korpus nejsou jenom dorty
Olga Richterová, FF UK, Praha

2 Co je to jazykový korpus?
2

3 V jakých situacích lidský jazyk používáme?
Co je to jazyk? Jak byste vysvětlili malému dítěti (nebo třeba mimozemšťanovi), jaký je rozdíl mezi slovy a jazykem? V jakých situacích lidský jazyk používáme? 3

4 Co je to význam? „Jo, to budeme moc rádi.“ (sms)
Jaký je význam téhle věty? V jakých situacích takovéhle věty používáme? Čím vším odkazujeme? 4

5 Co můžeme zkoumat? Empirickému zkoumání můžeme podrobit to, o čem máme doklady. Co můžeme snadno zkoumat? To, o čem je poměrně snadné (levné) získat doklady. V čem je potíž introspekce: zkoumání vlastního nitra / náhledů / jazykového citu? 5

6 Co tedy děláme? Sbíráme (jazyková) data (tj. doklady jaz. projevů) v kontextu psaná i mluvená Dál je zpracováváme (dělíme na jednotlivé pozice – tokenizujeme, automaticky značkujeme – tagujeme, opatřujeme informacemi o jednotlivých textech – anotujeme) Zpřístupňujeme je: bez uživatelů nemá naše práce jiný než archivářský smysl! 6

7 K čemu – kdo – jak – a vyplatí se to?
I. K čemu jsou korpusy dobré? II. Kdo za tím stojí III. Co nabízí Český národní korpus Datové zdroje – hlavní práce Speciální data IV. Jakým způsobem se k datům dostat: Jednotné rozhraní versus např. SyD.korpus.cz frekvenční distribuce, kolokace, paralelní korpusy V. Dotazy

8 Nejprve je třeba se registrovat!
8

9 Díl I.: K čemu je náš korpus dobrý
k machrování před cizinci k lepším výkonům ve Scrabblu k vymýšlení, co znamenají různé zkratky, třeba SyD 9

10 SyD – průzkum variant 10

11 SyD – průzkum variant 11

12 SyD – průzkum kolokací (tj. typického užití)
12

13 SyD – rozložení v typech textu
13

14 Díl II.: Kdo za korpusem stojí
skupina potrhlých vědců rozsáhlý projekt MŠMT mezinárodní spolupráce 14

15 Institut Českého národního korpusu: www.korpus.cz
Inspirováno BNC: Začátek 90. let Komplexní přístup  Spolupráce řady institucí (Praha – FF, MFF; Brno) Lingvisté a technici Dnes: přelomová doba – součást výuky?! Mezinárodní spolupráce & copyright  CLARIN, zákony (status národní knihovny)

16 Díl III.: Jaká data nabízíme
přístup k větám a jejich okolí česká i cizojazyčná soukromá i veřejná 16

17 Smysl jazykového korpusu
Řada SYN: synchronní – současný – jazyk: snaha zachytit ho a popsat leč jen vzorek (v čem rozdíl od webu?) reprezentativní (co se recipuje) vyvážený (textové typy a žánry) referenční (nezměnitelný) informačně nasycený (lemmatizovaný, annotovaný, otagovaný) 17

18 Psaná čeština Korpus velikost charakteristika SYN2000 100 Mil.
vyvážený korpus; hl. z 1990–1999 SYN2005 vyvážený korpus; hl. z 2000–2004 SYN2006PUB 300 Mil. publicistika z let 1989–2004 SYN2009PUB 700 Mil. publicistika z let 1995–2007 SYN2010 vyvážený korpus; hl. z 2005–2009 SYN 1 300 Mil. nereferenční; suma všech korpusů z řady SYN 18

19 Psaná čeština 19

20 Jaký jazyk nejčastěji používáme?
V ca 90% procentech realizací jazykových projevů nepoužíváme k dorozumění pero ani klávesnici. 20

21 Mluvená čeština Korpus veliko st charakteristika ORAL2006 1 Mil.
neformální mluvené dialogy ORAL2008 sociolingvisticky vyvážený korpus s neformálními dialogy z Čech ORAL2013 ca 3 Mil. sociolingv. vyvážený korpus se zvukovou stopou a daty z Čech i Moravy 21

22 ORAL2013 22

23 Sociolingvistické informace

24 Machrovinky – speciální korpusy
KSK – Korpus soukromé korespondence CzeSL – Czech as Second Language DEAF – viz následující přednáška LINK – Lingvistův narozeninový korpus HOTKO – horní lužická srbština DOTKO – dolní lužická srbština 24

25 Díl IV.: Jak sebraná data používat
při psaní zásadních textů a prací když váháme, co ještě ano a co už ne když chceme někomu vysvětlit, proč jsme v daném kontextu zvolili to či ono méně utilitárně: velká data umožňují hlubší vhled  poznání jako cíl 25

26 Jaký byl jazyk našich předků?
26

27 Synchronní a diachronní pohled

28 Hlavní rozhraní 28

29 Hlavní rozhraní a volby
Jaký jazyk nás zajímá? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický?  výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci (věhlasný x proslulý) informace z tagů (slovní druh, pád, čas, …) 29

30 Hlavní rozhraní – srovnávání více jazyků (InterCorp)
30

31 Výskyt přivlastňovacích zájmen
31

32 Přivlastňovací zájmena CS x EN
32

33 V. Díl: Ještě se ptáte, jaké je využití korpusů?
Uživatelé Profíci: novináři, překladatelé, jazykovědci, redaktoři, učitelé, studenti... Široká veřejnost, žáci, ... Funkce srovnávání variant, kolokace – slova, která patří k sobě, správný výraz pro určitou situaci, překlad, zdůvodňování voleb, NLP (automatický překlad), hledání konkrétní formy (rýmy, koncovky), ...  lepší porozumění jazyku a komunikaci obecně 33

34 Otázky? Uživatelé Funkce Budete mezi nimi i vy?
dodali byste nějaké další...? 34

35 Zaregistrujte se... ...a nebojte se ptát! Děkuju za pozornost!
35


Stáhnout ppt "Korpus nejsou jenom dorty"

Podobné prezentace


Reklamy Google