Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpusová lingvistika (2) Jan Radimský FF JU České Budějovice.

Podobné prezentace


Prezentace na téma: "Korpusová lingvistika (2) Jan Radimský FF JU České Budějovice."— Transkript prezentace:

1 Korpusová lingvistika (2) Jan Radimský FF JU České Budějovice

2 Korpusová lingvistika… … samostatná lingvistická disciplína / teorie? ... podle některých autorů ano!  K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) Rozlišuje dva přístupy k využití korpusových dat:  corpus based approach  corpus driven approach  Před četbou: malý exkurz do metodologie vědy

3 Několik obecně metodologických pojmů...  Věda rozumové poznání, vychází z rozvažování nebo z pozorování jevů  Dedukce – indukce Všichni lidé jsou smrtelní. Sokrates je člověk.... ? Tato labuť je bílá. Všechny labutě jsou bílé.  Princip falsifikace (K. Popper) verifikace: nalézt příklady, které teorii potvrzují falsifikace: možnost hledat příklady, které teorii vyvracejí  Hypoteticko-deduktivní metoda Proč jsou labutě bílé? (teorie) Mohu najít/hledat nějakou ne-bílou labuť?

4 Korpusová lingvistika jako teorie  Popis - viz Elena Tognini-Bonelli (dále TB) Vychází z metodologických základů, které jsou společné i mnoha dalším teoretickým popisům jazyka Některé aspekty dovádí do krajnosti.  Cíle KL: popis a analýza užívání jazyka v textech (TB, s. 2)  Podobně je zaměřena i textová lingvistika Text je ale vnímán jako celek, čten horizontálně, s cílem porozumět obsahu... Korpus je analyzován fragmentárně, čten vertikálně, studují se opakované „události“ (výskyty)... (TB.,3)

5 Teoretické základy KL  J. Firth: kontextová teorie významu (contextual theory of meaning) Každý výraz je nedílnou součástí konkrétního kontextu (jazykového, situačního): kontext je určující pro interpretaci významu Každá jednotka (item) se vyskytuje vždy v kontextu (context) Kolokace (collocation) – bezprostřední kontext / okolí dané jednotky Koligace (colligation) – bezprostřední kontext vyjádřený jako gramatická kategorie  Podobné myšlenky najdeme i jinde, ale s více či méně podstatnými modifikacemi M. Gross: jednotkou lexikálního popisu je jednoduchá věta (protože každé slovo musí být v kontextu) Ale tato věta může být umělá (uměle vytvořená), nemusí pocházet z reálného textu.

6 TB (s. 27): ukázka kolokačního / koligačního paradigmatu all but + X

7 Corpus-based approach  Přístup, který má využívat korpus pouze k „ilustraci“ předem známých faktů / jevů  Z dat (korpusu) má vybírat pouze jevy, které považuje za „správné“ (tj. v souladu s teorií) Ostatní data přehlíží nebo popíše tak, aby nebyla s teorií v rozporu  Nezajímá se o četnost jevů  Používá předem dané kategorie (slovní druhy, větné členy...)

8 Corpus-driven approach  Pro popis jednotek a vymezení kategorií se používá výhradně reálný kontext: kolokace, koligace Opakovaný souvýskyt jednotek má dopad na sémiotický systém  cf. časté přívlastky slov jako žena / muž - [tag="A.*"] [lemma="žena"] v SYN2005  Typické kolokace mohou souviset s konotací dané jednotky (slova)  Obecná pravidla se odvozují induktivně  Neužívá se předem daná lematizace

9 Příklad použití corpus-driven přístupu  It. adjektivum bello (TB, 120) význam krásný delexikalizované významy pořádný / pěkný / úplný – jako kvantifikátory  Příklady C’è un bel rumore Continuammo a camminare per un bel pezzo... Quel rumore non era bello  Závěry: Alomorfy bell’ a bel se užívají jako delexikalizované (46% a 27% případů) Alomorfy belli, begli ne Nejde tedy o stejné paradigma  Vaše interpretace?

10 Jiné využití korpusu  Distinkce corpus driven / corpus based je dnes překonaná  Korpus lze využít k ověřování hypotéz v rámci hypoteticko-deduktivní metody


Stáhnout ppt "Korpusová lingvistika (2) Jan Radimský FF JU České Budějovice."

Podobné prezentace


Reklamy Google