Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpusová lingvistika

Podobné prezentace


Prezentace na téma: "Korpusová lingvistika"— Transkript prezentace:

1 Korpusová lingvistika
Jan Radimský FF JU České Budějovice

2 Literatura Čermák, F. (1995). Jazykový korpus: Prostředek a zdroj poznání. Slovo a Slovesnost, č. 56, s.  Čermák - Klímová - Petkevič (2000). Studie z korpusové lingvistiky. Praha. Šulc M. (1999). Korpusová lingvistika (první vstup). Praha. Tognini-Bonelli E. (2001). Corpus linguistics at work. Amsterdam, John Benjamins. Baker, P. – Hardie, A. – McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh. Čermák, F. - Blatná, R. (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha. Čermák, F. - Blatná, R. (eds.), (2005). Jak využívat Český národní korpus. Praha. Kol. aut. (2000). Český národní korpus. Úvod a příručka uživatele. Praha 2000. Kol. aut (2007). Průvodce českým akademickým korpusem 1.0. Praha 2007. Kol. (2000). Český národní korpus. Úvod a příručka uživatele. Praha. McEnery, T. – Wilson, A.: Corpus Linguistics. An Introduction. Edinburgh 2001. Kennedy G. (1998): An Introduction to Corpus Linguistics. Longman, London. Oakes M.P. (1998): Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh. Radimský, J. (2005). Des méthodes de vérification en linguistique. In: Čermák Petr, Tláskal Jaromír (editores): Las lenguas románicas: su unidad y diversidad, Praha, Univerzita Karlova v Praze, Filozofická fakulta, s Radimský, J. (2007). Projet et construction d'un corpus des textes européens (CORTE). Etudes romanes de Brno, Sborník prací FF MU, L 28, Brno, s Štícha, F. (1994). Čas korpusové lingvistiky. Slovo a slovesnost, 55, s Teubert W. (ed.), (2007). Text Corpora and Multilingual Lexicography. John Benjamins. Wynne Martin (ed., 2005): Developing Linguistic Corpora: A Guide to Good Practice. Oxford. Williams, G. (2005). La linguistique de corpus. Rennes, Presses universitaires de Rennes. Chiari, I (2007), Introduzione alla linguistica computazionale, Laterza, Bari.

3 Okruhy a požadavky Ústní zkouška
1.      Korpusová lingvistika, korpus, typy korpusů, technické otázky a metodologická východiska. Přístup corpus driven a corpus based. Metodologie jazykovědného výzkumu, validita, reliabilita.  2.      Historie korpusové lingvistiky, typologie korpusů podle různých hledisek.  3.      Reprezentativnost korpusu; pojem reprezentativnosti jazykových dat.  4.      Základní statistika v korpusu: četnost (frekvence) absolutní a relativní, srovnání četnosti. Měření souvýskytu (MI-score, T-score). Pojem „kolokace“. Tzv. "statistické" a "funkční" pojetí kolokací.  5.      Český národní korpus, složení, možnosti výzkumu. Paralelní korpusy (Intercorp, Corte,…).  6.      Vybrané národní korpusy (FR: Frantext, SketchEngine, Le Monde...; IJ: La Repubblica, CORIS/CODIS, ITWAC; ŠJ: CRAE, Ancora, Coser, Cluvi) 7.      Sestavování vlastního korpusu a jeho využití. Korpusové manažery (konkordanční programy). Anotace korpusu a její typy.  Prezentace vlastní korpusové rešerše Práce v semináři: nutno zaregistrovat se do ČNK a příp. dalších národních korpusů

4 Korpusová lingvistika… … korpus a lingvistika
KL – samostatná lingvistická disciplína / teorie? (viz další prezentace) Korpus (v lingvistice) = soubor dokladů autentického užití přirozeného jazyka, materiálová základna pro výzkum (Šulc, 9) = v dějinách lingvistiky také excerpta = sbírky lingvistického materiálu (katalogy, databáze, slovníčky, apod.)

5 Proč potřebuje lingvistika korpusy?
Co je předmětem zkoumání? Jak lze jazyk zkoumat? – Závisí na zvoleném teoretickém přístupu: langue / parole kompetence (vs. performance) jazykovědná teorie / jazyková data zkoumaný objekt (jazyk / kompetenci) vidíme vždy pouze nepřímo Dva základní přístupy k jazykovědnému výzkumu (dané teorií): deskriptivní lingvistika: popsat a vysvětlit pravidla, podle nichž jsou utvořeny existující texty generativní lingvistika: vytvořit taková pravidla, aby generovala nové korektní texty (+popsat společné principy takových pravidel ve všech jazycích)

6 ... Z každé teorie plyne jiná výzkumná metoda!
deskriptivista potřebuje texty, které popisuje (hledá v nich pravidla)... ověřuje na existujících textech, zda daná pravidla platí generativista texty nepotřebuje. Pravidla generují text a jeho adekvátnost (gramatičnost) kontroluje rodilý mluvčí.

7 Výhody / úskalí při využití korpusu
Jednotlivec (rodilý mluvčí) neovládá langue jako celek Neznalost, nevědomá korekce – přizpůsobení normě... tomu lze předejít rozsáhlým dotazníkovým výzkumem Člověk užívá jazyk nevědomě používáte stereotypní vsuvky typu prostě, vole, no...? Jak často? používáte cizí slova? říkáte opravdu/vopravdu, okno/vokno? V jakých situacích a kontextech? jak se liší N s příponou –élko / -ýlko? (divadélko, světélko, křidélko, prádélko, letadélko, bidélko...) Korpus umožňuje získat údaje o frekvenci / typičnosti jevů cf. generativistické příklady typu A farmer kills a duckling. A man walks. Korpus obsahuje reálná data Korpus umožňuje opakovatelný experiment za identických laboratorních podmínek (cf. přírodní vědy)

8 ... Nevýhody Korpus nikdy nebude obsahovat všechny možnosti, kontexty... určité konstrukce mohou chybět cf. čes. klitika jsem se mu ho lék: reprezentativnost ! V korpusu mohou být chyby... chyby by měly být statisticky odlišitelné od korektních konstrukcí Korpus nemůže poskytnout „záporný důkaz“ absence konstrukce v korpusu neznamená automaticky, že daná konstrukce není možná nicméně absence jevu ve velkých korpusech je vždy signifikantní Závěr: Přinejmenším pro deskriptivní lingvistiku a kvantitativní popis jazyka potřebujeme korpusy jako velké zdroje dat.

9 Korpus jako metodologický nástroj
Texty jako zdroje dat se ale v lingvistice používaly vždy. V čem je korpusová lingvistika jiná? Přijmeme-li perspektivu deskriptivní lingvistiky, pak novum korpusu je jeho reprezentativnost. Reprezentativnost = do jaké míry náš korpus odráží (reprezentuje, zastupuje) všechny promluvy všech mluvčích za všech okolností.

10 Reprezentativnost korpusu...
Klíčové pojmy statistiky: 1. základní soubor populace angl. population fr. population 2. výběrový soubor vzorek angl. sample fr. échantillon Vzorek by měl odrážet všechny vlastnosti populace ve stejném poměru. Tj.: při náhodném výběru musí mít každý prvek populace stejnou pravděpodobnost, že bude vybrán. Udělat opravdu náhodný výběr není snadné!

11 ... Paralela se sociologickým průzkumem
Jak jsou studenti FF JU spokojeni s fungováním studijního oddělení? Jaké jsou volební preference pěti největších politických stran? Co je v daných případech vzorek / populace? Jaké nezávisle proměnné (faktory) mohou mít vliv na závisle proměnnou (např. zkoumanou volební preferenci)? – věk, pohlaví, vzdělání, profese... Čemu to odpovídá při práci s korpusem?

12 Reprezentativnost korpusu...
... závisí za zkoumaném jevu: Jazyk románů Karla Čapka Jazyk gymnazistů z Č. Budějovic Současná žurnalistická čeština Mluvená čeština na Plzeňsku Současná čeština ... V závislosti na zkoumaném jevu se sestavuje korpus. Kritéria a jejich typologie – viz Šulc, s

13 Seminář: povaha korpusových dat
SN  A + N A = červený, rudý, blonďatý N = víno, pivo, armáda, střecha, vlasy, kluk Dosazením do vzorce můžeme vygenerovat 18 syntagmat. Jsou všechna SN stejně přijatelná? Proč? Jsou některé kombinace agramatické? Je ve všech případech kompozicionální význam? Probíhá interpretace stejně? Museli jste u některých SN přemýšlet, co mohou označovat? Které kombinace asi budou / nebudou v korpusu a proč? Zkuste odhadnout na tříčlenné škále: běžné – řídké - neexistující Co nám to říká o povaze a významu korpusových dat?

14 ... co v korpusu ne/najdeme a proč
Pokud syntagma v korpusu nenajdeme, znamená to, že: Nemá korektní gramatickou strukturu (v souladu s pravidly jazyka) se ho mu, bíle kůň Je špatně utvořené po sémantické stránce (Pustejovsky: semantic well-formedness): nedokážeme je korektně interpretovat (leda ve velmi speciálním kontextu) blonďaté víno, budova zemřela fr. va ici Je špatně utvořené z hlediska pragmatického (týká se spíše vět než syntagmat) Karlův syn je feťák a Karel nemá děti. Je korektní, ale popisuje atypickou skutečnost červená tráva Je korektní, ale objevuje se ve stylu, který není v našem korpusu zastoupen vsítit branku, jsem se mu ho Přítomnost / nepřítomnost jevu v korpusu je fakt, který je třeba interpretovat !!

15 ... co v korpusu ne/najdeme a proč
Tipy na rozšiřující četbu: Oliva K., Doležalová D., O korpusu jako o zdroji jazykových dat. In: Karlík P. (ed.), Korpus jako zdroj dat o češtině. MU v Brně, 2004, s


Stáhnout ppt "Korpusová lingvistika"

Podobné prezentace


Reklamy Google