Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Korpusová lingvistika (2)

Podobné prezentace


Prezentace na téma: "Korpusová lingvistika (2)"— Transkript prezentace:

1 Korpusová lingvistika (2)
Jan Radimský FF JU České Budějovice

2 Korpusová lingvistika… … samostatná lingvistická disciplína / teorie?
... podle některých autorů ano! K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) Rozlišuje dva přístupy k využití korpusových dat: corpus based approach corpus driven approach Před četbou: malý exkurz do metodologie vědy

3 Několik obecně metodologických pojmů...
Věda rozumové poznání, vychází z rozvažování nebo z pozorování jevů Dedukce – indukce Všichni lidé jsou smrtelní. Sokrates je člověk. ... ? Tato labuť je bílá. Všechny labutě jsou bílé. Princip falsifikace (K. Popper) verifikace: nalézt příklady, které teorii potvrzují falsifikace: možnost hledat příklady, které teorii vyvracejí Hypoteticko-deduktivní metoda Proč jsou labutě bílé? (teorie) Mohu najít/hledat nějakou ne-bílou labuť?

4 Korpusová lingvistika jako teorie
Popis - viz Elena Tognini-Bonelli (dále TB) Vychází z metodologických základů, které jsou společné i mnoha dalším teoretickým popisům jazyka Některé aspekty dovádí do krajnosti. Cíle KL: popis a analýza užívání jazyka v textech (TB, s. 2) Podobně je zaměřena i textová lingvistika Text je ale vnímán jako celek, čten horizontálně, s cílem porozumět obsahu... Korpus je analyzován fragmentárně, čten vertikálně, studují se opakované „události“ (výskyty)... (TB.,3)

5 Teoretické základy KL J. Firth: kontextová teorie významu (contextual theory of meaning) Každý výraz je nedílnou součástí konkrétního kontextu (jazykového, situačního): kontext je určující pro interpretaci významu Každá jednotka (item) se vyskytuje vždy v kontextu (context) Kolokace (collocation) – bezprostřední kontext / okolí dané jednotky Koligace (colligation) – bezprostřední kontext vyjádřený jako gramatická kategorie Podobné myšlenky najdeme i jinde, ale s více či méně podstatnými modifikacemi M. Gross: jednotkou lexikálního popisu je jednoduchá věta (protože každé slovo musí být v kontextu) Ale tato věta může být umělá (uměle vytvořená), nemusí pocházet z reálného textu.

6 TB (s. 27): ukázka kolokačního / koligačního paradigmatu all but + X

7 Corpus-based approach
Přístup, který má využívat korpus pouze k „ilustraci“ předem známých faktů / jevů Z dat (korpusu) má vybírat pouze jevy, které považuje za „správné“ (tj. v souladu s teorií) Ostatní data přehlíží nebo popíše tak, aby nebyla s teorií v rozporu Nezajímá se o četnost jevů Používá předem dané kategorie (slovní druhy, větné členy...)

8 Corpus-driven approach
Pro popis jednotek a vymezení kategorií se používá výhradně reálný kontext: kolokace, koligace Opakovaný souvýskyt jednotek má dopad na sémiotický systém cf. časté přívlastky slov jako žena / muž - [tag="A.*"] [lemma="žena"] v SYN2005 Typické kolokace mohou souviset s konotací dané jednotky (slova) Obecná pravidla se odvozují induktivně Neužívá se předem daná lematizace

9 Příklad použití corpus-driven přístupu
It. adjektivum bello (TB, 120) význam krásný delexikalizované významy pořádný / pěkný / úplný – jako kvantifikátory Příklady C’è un bel rumore Continuammo a camminare per un bel pezzo... Quel rumore non era bello Závěry: Alomorfy bell’ a bel se užívají jako delexikalizované (46% a 27% případů) Alomorfy belli, begli ne Nejde tedy o stejné paradigma Vaše interpretace?

10 Jiné využití korpusu Distinkce corpus driven / corpus based je dnes překonaná Korpus lze využít k ověřování hypotéz v rámci hypoteticko-deduktivní metody


Stáhnout ppt "Korpusová lingvistika (2)"

Podobné prezentace


Reklamy Google