Korpusová lingvistika (2) Jan Radimský FF JU České Budějovice
Korpusová lingvistika… … samostatná lingvistická disciplína / teorie? ... podle některých autorů ano! K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) Rozlišuje dva přístupy k využití korpusových dat: corpus based approach corpus driven approach Před četbou: malý exkurz do metodologie vědy
Několik obecně metodologických pojmů... Věda rozumové poznání, vychází z rozvažování nebo z pozorování jevů Dedukce – indukce Všichni lidé jsou smrtelní. Sokrates je člověk. ... ? Tato labuť je bílá. Všechny labutě jsou bílé. Princip falsifikace (K. Popper) verifikace: nalézt příklady, které teorii potvrzují falsifikace: možnost hledat příklady, které teorii vyvracejí Hypoteticko-deduktivní metoda Proč jsou labutě bílé? (teorie) Mohu najít/hledat nějakou ne-bílou labuť?
Korpusová lingvistika jako teorie Popis - viz Elena Tognini-Bonelli (dále TB) Vychází z metodologických základů, které jsou společné i mnoha dalším teoretickým popisům jazyka Některé aspekty dovádí do krajnosti. Cíle KL: popis a analýza užívání jazyka v textech (TB, s. 2) Podobně je zaměřena i textová lingvistika Text je ale vnímán jako celek, čten horizontálně, s cílem porozumět obsahu... Korpus je analyzován fragmentárně, čten vertikálně, studují se opakované „události“ (výskyty)... (TB.,3)
Teoretické základy KL J. Firth: kontextová teorie významu (contextual theory of meaning) Každý výraz je nedílnou součástí konkrétního kontextu (jazykového, situačního): kontext je určující pro interpretaci významu Každá jednotka (item) se vyskytuje vždy v kontextu (context) Kolokace (collocation) – bezprostřední kontext / okolí dané jednotky Koligace (colligation) – bezprostřední kontext vyjádřený jako gramatická kategorie Podobné myšlenky najdeme i jinde, ale s více či méně podstatnými modifikacemi M. Gross: jednotkou lexikálního popisu je jednoduchá věta (protože každé slovo musí být v kontextu) Ale tato věta může být umělá (uměle vytvořená), nemusí pocházet z reálného textu.
TB (s. 27): ukázka kolokačního / koligačního paradigmatu all but + X
Corpus-based approach Přístup, který má využívat korpus pouze k „ilustraci“ předem známých faktů / jevů Z dat (korpusu) má vybírat pouze jevy, které považuje za „správné“ (tj. v souladu s teorií) Ostatní data přehlíží nebo popíše tak, aby nebyla s teorií v rozporu Nezajímá se o četnost jevů Používá předem dané kategorie (slovní druhy, větné členy...)
Corpus-driven approach Pro popis jednotek a vymezení kategorií se používá výhradně reálný kontext: kolokace, koligace Opakovaný souvýskyt jednotek má dopad na sémiotický systém cf. časté přívlastky slov jako žena / muž - [tag="A.*"] [lemma="žena"] v SYN2005 Typické kolokace mohou souviset s konotací dané jednotky (slova) Obecná pravidla se odvozují induktivně Neužívá se předem daná lematizace
Příklad použití corpus-driven přístupu It. adjektivum bello (TB, 120) význam krásný delexikalizované významy pořádný / pěkný / úplný – jako kvantifikátory Příklady C’è un bel rumore Continuammo a camminare per un bel pezzo... Quel rumore non era bello Závěry: Alomorfy bell’ a bel se užívají jako delexikalizované (46% a 27% případů) Alomorfy belli, begli ne Nejde tedy o stejné paradigma Vaše interpretace?
Jiné využití korpusu Distinkce corpus driven / corpus based je dnes překonaná Korpus lze využít k ověřování hypotéz v rámci hypoteticko-deduktivní metody