Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpusová lingvistika Jan Radimský FF JU České Budějovice.

Podobné prezentace


Prezentace na téma: "Korpusová lingvistika Jan Radimský FF JU České Budějovice."— Transkript prezentace:

1 Korpusová lingvistika Jan Radimský FF JU České Budějovice

2 Literatura  Čermák, F. (1995). Jazykový korpus: Prostředek a zdroj poznání. Slovo a Slovesnost, č. 56, s  Čermák - Klímová - Petkevič (2000). Studie z korpusové lingvistiky. Praha.  Šulc M. (1999). Korpusová lingvistika (první vstup). Praha.  Tognini-Bonelli E. (2001). Corpus linguistics at work. Amsterdam, John Benjamins.  Baker, P. – Hardie, A. – McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh.  Čermák, F. - Blatná, R. (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha.  Čermák, F. - Blatná, R. (eds.), (2005). Jak využívat Český národní korpus. Praha.  Kol. aut. (2000). Český národní korpus. Úvod a příručka uživatele. Praha  Kol. aut (2007). Průvodce českým akademickým korpusem 1.0. Praha  Kol. (2000). Český národní korpus. Úvod a příručka uživatele. Praha.  McEnery, T. – Wilson, A.: Corpus Linguistics. An Introduction. Edinburgh 2001.Corpus Linguistics  Kennedy G. (1998): An Introduction to Corpus Linguistics. Longman, London.  Oakes M.P. (1998): Statistics for Corpus Linguistics. Edinburgh University Press, Edinburgh.  Radimský, J. (2005). Des méthodes de vérification en linguistique. In: Čermák Petr, Tláskal Jaromír (editores): Las lenguas románicas: su unidad y diversidad, Praha, Univerzita Karlova v Praze, Filozofická fakulta, s  Radimský, J. (2007). Projet et construction d'un corpus des textes européens (CORTE). Etudes romanes de Brno, Sborník prací FF MU, L 28, Brno, s  Štícha, F. (1994). Čas korpusové lingvistiky. Slovo a slovesnost, 55, s  Teubert W. (ed.), (2007). Text Corpora and Multilingual Lexicography. John Benjamins.  Wynne Martin (ed., 2005): Developing Linguistic Corpora: A Guide to Good Practice. Oxford.Developing Linguistic Corpora: A Guide to Good Practice  Williams, G. (2005). La linguistique de corpus. Rennes, Presses universitaires de Rennes.  Chiari, I (2007), Introduzione alla linguistica computazionale, Laterza, Bari.

3 Okruhy a požadavky  Ústní zkouška 1. Korpusová lingvistika, korpus, typy korpusů, technické otázky a metodologická východiska. Přístup corpus driven a corpus based. Metodologie jazykovědného výzkumu, validita, reliabilita. 2. Historie korpusové lingvistiky, typologie korpusů podle různých hledisek. 3. Reprezentativnost korpusu; pojem reprezentativnosti jazykových dat. 4. Základní statistika v korpusu: četnost (frekvence) absolutní a relativní, srovnání četnosti. Měření souvýskytu (MI-score, T-score). Pojem „kolokace“. Tzv. "statistické" a "funkční" pojetí kolokací. 5. Český národní korpus, složení, možnosti výzkumu. Paralelní korpusy (Intercorp, Corte,…). 6. Vybrané národní korpusy (FR: Frantext, SketchEngine, Le Monde...; IJ: La Repubblica, CORIS/CODIS, ITWAC; ŠJ: CRAE, Ancora, Coser, Cluvi) 7. Sestavování vlastního korpusu a jeho využití. Korpusové manažery (konkordanční programy). Anotace korpusu a její typy.  Prezentace vlastní korpusové rešerše  Práce v semináři: nutno zaregistrovat se do ČNK a příp. dalších národních korpusů

4 Korpusová lingvistika… … korpus a lingvistika  KL – samostatná lingvistická disciplína / teorie? (viz další prezentace)  Korpus (v lingvistice) = soubor dokladů autentického užití přirozeného jazyka, materiálová základna pro výzkum (Šulc, 9) = v dějinách lingvistiky také excerpta = sbírky lingvistického materiálu (katalogy, databáze, slovníčky, apod.)

5 Proč potřebuje lingvistika korpusy?  Co je předmětem zkoumání? Jak lze jazyk zkoumat? – Závisí na zvoleném teoretickém přístupu: langue / parole kompetence (vs. performance) jazykovědná teorie / jazyková data zkoumaný objekt (jazyk / kompetenci) vidíme vždy pouze nepřímo  Dva základní přístupy k jazykovědnému výzkumu (dané teorií): deskriptivní lingvistika: popsat a vysvětlit pravidla, podle nichž jsou utvořeny existující texty generativní lingvistika: vytvořit taková pravidla, aby generovala nové korektní texty (+popsat společné principy takových pravidel ve všech jazycích)

6 ...  Z každé teorie plyne jiná výzkumná metoda! deskriptivista potřebuje texty, které popisuje (hledá v nich pravidla)... ověřuje na existujících textech, zda daná pravidla platí generativista texty nepotřebuje. Pravidla generují text a jeho adekvátnost (gramatičnost) kontroluje rodilý mluvčí.

7 Výhody / úskalí při využití korpusu  Výhody Jednotlivec (rodilý mluvčí) neovládá langue jako celek  Neznalost, nevědomá korekce – přizpůsobení normě...  tomu lze předejít rozsáhlým dotazníkovým výzkumem Člověk užívá jazyk nevědomě  používáte stereotypní vsuvky typu prostě, vole, no...? Jak často?  používáte cizí slova?  říkáte opravdu/vopravdu, okno/vokno? V jakých situacích a kontextech?  jak se liší N s příponou –élko / -ýlko? (divadélko, světélko, křidélko, prádélko, letadélko, bidélko...) Korpus umožňuje získat údaje o frekvenci / typičnosti jevů  cf. generativistické příklady typu A farmer kills a duckling. A man walks. Korpus obsahuje reálná data Korpus umožňuje opakovatelný experiment za identických laboratorních podmínek (cf. přírodní vědy)

8 ...  Nevýhody Korpus nikdy nebude obsahovat všechny možnosti, kontexty... určité konstrukce mohou chybět  cf. čes. klitika jsem se mu ho  lék: reprezentativnost ! V korpusu mohou být chyby...  chyby by měly být statisticky odlišitelné od korektních konstrukcí Korpus nemůže poskytnout „záporný důkaz“  absence konstrukce v korpusu neznamená automaticky, že daná konstrukce není možná  nicméně absence jevu ve velkých korpusech je vždy signifikantní  Závěr: Přinejmenším pro deskriptivní lingvistiku a kvantitativní popis jazyka potřebujeme korpusy jako velké zdroje dat.

9 Korpus jako metodologický nástroj  Texty jako zdroje dat se ale v lingvistice používaly vždy.  V čem je korpusová lingvistika jiná?  Přijmeme-li perspektivu deskriptivní lingvistiky, pak novum korpusu je jeho reprezentativnost. Reprezentativnost = do jaké míry náš korpus odráží (reprezentuje, zastupuje) všechny promluvy všech mluvčích za všech okolností.

10 Reprezentativnost korpusu...  Klíčové pojmy statistiky: 1. základní souborpopulaceangl. population fr. population 2. výběrový souborvzorekangl. sample fr. échantillon  Vzorek by měl odrážet všechny vlastnosti populace ve stejném poměru. Tj.: při náhodném výběru musí mít každý prvek populace stejnou pravděpodobnost, že bude vybrán. Udělat opravdu náhodný výběr není snadné!

11 ...  Paralela se sociologickým průzkumem Jak jsou studenti FF JU spokojeni s fungováním studijního oddělení? Jaké jsou volební preference pěti největších politických stran? Co je v daných případech vzorek / populace? Jaké nezávisle proměnné (faktory) mohou mít vliv na závisle proměnnou (např. zkoumanou volební preferenci)? – věk, pohlaví, vzdělání, profese... Čemu to odpovídá při práci s korpusem?

12 Reprezentativnost korpusu... ... závisí za zkoumaném jevu: Jazyk románů Karla Čapka Jazyk gymnazistů z Č. Budějovic Současná žurnalistická čeština Mluvená čeština na Plzeňsku Současná čeština...  V závislosti na zkoumaném jevu se sestavuje korpus. Kritéria a jejich typologie – viz Šulc, s

13 Seminář: povaha korpusových dat  SN  A + N A = červený, rudý, blonďatý N = víno, pivo, armáda, střecha, vlasy, kluk  Dosazením do vzorce můžeme vygenerovat 18 syntagmat. Jsou všechna SN stejně přijatelná? Proč?  Jsou některé kombinace agramatické? Je ve všech případech kompozicionální význam? Probíhá interpretace stejně?  Museli jste u některých SN přemýšlet, co mohou označovat?  Které kombinace asi budou / nebudou v korpusu a proč? Zkuste odhadnout na tříčlenné škále: běžné – řídké - neexistující Co nám to říká o povaze a významu korpusových dat?

14 ... co v korpusu ne/najdeme a proč Pokud syntagma v korpusu nenajdeme, znamená to, že:  Nemá korektní gramatickou strukturu (v souladu s pravidly jazyka) se ho mu, bíle kůň  Je špatně utvořené po sémantické stránce (Pustejovsky: semantic well-formedness): nedokážeme je korektně interpretovat (leda ve velmi speciálním kontextu) blonďaté víno, budova zemřela fr. va ici  Je špatně utvořené z hlediska pragmatického (týká se spíše vět než syntagmat) Karlův syn je feťák a Karel nemá děti.  Je korektní, ale popisuje atypickou skutečnost červená tráva  Je korektní, ale objevuje se ve stylu, který není v našem korpusu zastoupen vsítit branku, jsem se mu ho  Přítomnost / nepřítomnost jevu v korpusu je fakt, který je třeba interpretovat !!

15 ... co v korpusu ne/najdeme a proč  Tipy na rozšiřující četbu: Oliva K., Doležalová D., O korpusu jako o zdroji jazykových dat. In: Karlík P. (ed.), Korpus jako zdroj dat o češtině. MU v Brně, 2004, s


Stáhnout ppt "Korpusová lingvistika Jan Radimský FF JU České Budějovice."

Podobné prezentace


Reklamy Google