CHYBOVÁ ANOTACE ŽÁKOVSKÉHO KORPUSU CZESL Vladimír Petkevič ÚTKL FF UK Barbora Štindlová KČL TUL barbora.stindlova@tul.cz
ŽÁKOVSKÝ KORPUS learner corpus, interlanguage corpus, L2 corpus elektronická databáze autentických jazykových projevů produkovaných studenty daného jazyka jako jazyka cizího/druhého (tj. nerodilých mluvčích) S. Granger, 1999 užitečný zdroj pro každého, kdo chce zkoumat, jak se lidé učí jazyky a jaké jsou cesty k tomu, aby se je učili lépe G. Leech, 1998
CzeSL ŽÁKOVSKÝ KORPUS ČEŠTINY JAKO CIZÍHO JAZYKA Projekt: Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/07.0259) Katedra českého jazyka a literatury Fakulty přírodovědně-humanitní a pedagogické Technické univerzity v Liberci Ústav teoretické a komputační lingvistiky FF UK v Praze Projekt je podpořen ESF v rámci Operačního programu vzdělávání pro konkurenceschopnost.
FUNKCE ŽK přispívat k teoriím nabývání cizího jazyka a cizojazyčného vyučování podrobnější popis žákovského mezijazyka pochopení faktorů, které jej ovlivňují opora při vyvíjení nových pedagogických nástrojů a metod
MOŽNOSTI VYUŽITÍ ŽÁKOVSKÝCH KORPUSŮ kontrastivní srovnávání jazyka rodilých a nerodilých mluvčích srovnávání žákovských mezijazyků počítačem podporovaná chybová analýza žákovského jazyka
ANOTACE ŽÁKOVSKÉHO KORPUSU metadata autor (L1, věk, doba studia …) text (referenční pomůcky, elicitace …) chybová anotace 45 % korpusů anotováno pouze 7 % z nich komplexní taxonomie chyb lingvistická anotace slovnědruhové značkování (částečně) morfologická a syntaktická anotace výjimečně problém s aplikací automatických nástrojů
CzeSL - METADATA 18 parametrů text respondent k podrobněji značkovaným časová a rozsahová limitovanost, referenční pomůcky, elicitace, typ textu, způsob zadání … respondent pohlaví, věk, L1, znalost dalších jazyků, typ studia čj, úroveň znalosti dle SERR, rodinná jazyková anamnéza, délka pobytu v ČR …
CHYBOVÁ ANOTACE manuální přiřazení odpovídající značky (kódu / tagu) konkrétní chybě vyskytující se v žákovském projevu automatizace chybové anotace prozatím ne
TYPY CHYBOVÝCH TAXONOMIÍ deskriptivní podle povrchové realizace element chybí, přebývá, má chybnou formu, je chybně umístěn podle lingvistických kategorií vychází z popisu cílového jazyka rovina, jednotka, typ diagnostická komparativní inter-/intralingvální chyby, vynucené chyby … evaluační podle komunikačního efektu vliv chyby na komunikaci (globální, lokální …)
CzeSL – CHYBOVÁ ANOTACE reflektovat charakter češtiny jako vysoce flektivního jazyka se specifickým slovosledem umožnit budoucí rozšíření chybové taxonomie (automatická anotace) anotace dostatečně podrobná, ale zároveň zvládnutelná pro anotátory kombinace manuální a automatické anotace deskriptivní (lingvistické kategorie a povrchová realizace) 21 manuálních značek + 7 automatických
CzeSL – ANOTAČNÍ FORMÁT MANUÁLNÍ ANOTACE Bojal jsme se, že ona se ne bude libila slavnou prahu, proto to bylo velmí vadí pro mně.
třírovinný anotační formát dvoustupňová emendace chyb R0 (originál): chybový kód R1: odkaz R2: R1: incorInfl - chyba ve flexi R2: agr - chyba ve shodě rflx - chyba v užití reflexiva
R2: dep – chyba ve valenci vbx – chyba ve složeném slovesném tvaru agr – chyba ve shodě sec – sekundární chyba R1: wbdPre - chyba v hranici slova incorBase - chyba v slovotvorném základu
CzeSL: AUTOMATICKÁ ANOTACE - CHYBOVÁ doplnění anotace, pro niž není nezbytně nutný anotátor na R1 např. chyba v diakritice, resp. délce vokálu, chybu v palatalizaci, znělosti, záměnu i a y apod. na R2 např. detailnější specifikace chyby vbx na chybu v analytickém slovesném tvaru, verbonominálním predikátu, rezultativní konstrukci; doplnění anotační značky u interpunkčních chyb; formální popis chyby (vynechání, přidání, chybný tvar a chybný slovosled) apod.
- LINGVISTICKÁ doplnění lingvistických informací do textu (na R1 a R2) základní tvary slov (lemmatizace), slovnědruhové označení, morfologické značkování, paradigmata uvažujeme i o možnostech značkování R0 (tj. originálního textu)
krásný, adjektivum, nominativ mask.animatum, sg. nebo nominativ či akuzativ inan. sg., vzor dobrý tagy: AAMS1----1A----, AAIS1----1A----, AAIS4----1A---- náměstí, substantivum, nominativ neut. pl. tag: NNNP1-----A----- určeno z R1 krásný, adjektivum, nominativ, neut. pl., vzor mladý tag: AANP1----1A---- náměstí, substantivum, nominativ, neut. pl., vzor stavení tag: NNNP1-----A----
JAK VYUŽÍT ŽÁKOVSKÝ KORPUS? vyhledávání jazykových jevů s využitím kombinace chybové anotace, lingvistických informací i např. informací o mluvčím Dotazy např. hledat všechny chyby v použití sloves III. třídy, vzor kupuje u vietnamských mluvčích, začátečníků všechny chyby ve shodě či valenci u substantiv mužského živ. rodu všechny chyby u mluvčích s L1 ruštinou v délce vokálu -a- u adjektiv žensk. rodu apod.
reálný materiál pro analýzu poznání interlanguage srovnání jazyka nerodilých a rodilých mluvčích
vytipování jevů pro prohloubenější výklad pomoc při rozhodování, co je pro žáky-cizince, zvl. začátečníky, v užívání užitečné, tj. které jazykové jevy mohou (příp. mohou stěží) úspěšně používat indikovat, jak určité jevy vyučovat pomoci určovat pořadí, v jakém by měly být jednotlivé jevy vyučovány
čerpání příkladů úprava a optimalizace výukového procesu dle prvního jazyka studentů data-driven learning form-focused instruction
Děkujeme za pozornost.