Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Korpusová lingvistika (2)
Jan Radimský FF JU České Budějovice
2
Korpusová lingvistika… … samostatná lingvistická disciplína / teorie?
... podle některých autorů ano! K tomu viz zejm.: Tognini-Bonelli E., Corpus linguistics at work (2001) Rozlišuje dva přístupy k využití korpusových dat: corpus based approach corpus driven approach Před četbou: malý exkurz do metodologie vědy
3
Několik obecně metodologických pojmů...
Věda rozumové poznání, vychází z rozvažování nebo z pozorování jevů Dedukce – indukce Všichni lidé jsou smrtelní. Sokrates je člověk. ... ? Tato labuť je bílá. Všechny labutě jsou bílé. Princip falsifikace (K. Popper) verifikace: nalézt příklady, které teorii potvrzují falsifikace: možnost hledat příklady, které teorii vyvracejí Hypoteticko-deduktivní metoda Proč jsou labutě bílé? (teorie) Mohu najít/hledat nějakou ne-bílou labuť?
4
Korpusová lingvistika jako teorie
Popis - viz Elena Tognini-Bonelli (dále TB) Vychází z metodologických základů, které jsou společné i mnoha dalším teoretickým popisům jazyka Některé aspekty dovádí do krajnosti. Cíle KL: popis a analýza užívání jazyka v textech (TB, s. 2) Podobně je zaměřena i textová lingvistika Text je ale vnímán jako celek, čten horizontálně, s cílem porozumět obsahu... Korpus je analyzován fragmentárně, čten vertikálně, studují se opakované „události“ (výskyty)... (TB.,3)
5
Teoretické základy KL J. Firth: kontextová teorie významu (contextual theory of meaning) Každý výraz je nedílnou součástí konkrétního kontextu (jazykového, situačního): kontext je určující pro interpretaci významu Každá jednotka (item) se vyskytuje vždy v kontextu (context) Kolokace (collocation) – bezprostřední kontext / okolí dané jednotky Koligace (colligation) – bezprostřední kontext vyjádřený jako gramatická kategorie Podobné myšlenky najdeme i jinde, ale s více či méně podstatnými modifikacemi M. Gross: jednotkou lexikálního popisu je jednoduchá věta (protože každé slovo musí být v kontextu) Ale tato věta může být umělá (uměle vytvořená), nemusí pocházet z reálného textu.
6
TB (s. 27): ukázka kolokačního / koligačního paradigmatu all but + X
7
Corpus-based approach
Přístup, který má využívat korpus pouze k „ilustraci“ předem známých faktů / jevů Z dat (korpusu) má vybírat pouze jevy, které považuje za „správné“ (tj. v souladu s teorií) Ostatní data přehlíží nebo popíše tak, aby nebyla s teorií v rozporu Nezajímá se o četnost jevů Používá předem dané kategorie (slovní druhy, větné členy...)
8
Corpus-driven approach
Pro popis jednotek a vymezení kategorií se používá výhradně reálný kontext: kolokace, koligace Opakovaný souvýskyt jednotek má dopad na sémiotický systém cf. časté přívlastky slov jako žena / muž - [tag="A.*"] [lemma="žena"] v SYN2005 Typické kolokace mohou souviset s konotací dané jednotky (slova) Obecná pravidla se odvozují induktivně Neužívá se předem daná lematizace
9
Příklad použití corpus-driven přístupu
It. adjektivum bello (TB, 120) význam krásný delexikalizované významy pořádný / pěkný / úplný – jako kvantifikátory Příklady C’è un bel rumore Continuammo a camminare per un bel pezzo... Quel rumore non era bello Závěry: Alomorfy bell’ a bel se užívají jako delexikalizované (46% a 27% případů) Alomorfy belli, begli ne Nejde tedy o stejné paradigma Vaše interpretace?
10
Jiné využití korpusu Distinkce corpus driven / corpus based je dnes překonaná Korpus lze využít k ověřování hypotéz v rámci hypoteticko-deduktivní metody
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.