KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.

Slides:



Advertisements
Podobné prezentace
METODY A TECHNIKY VÝZKUMU
Advertisements

Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.
Korpusová lingvistika (2)
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Výpočet a interpretace ukazatelů asociace v epidemiologických studiích
Testování hypotéz (ordinální data)
Mgr. Alena Lukáčová, Ph.D., Dr. Ján Šugár, CSc.
Hypotézy ve výzkumu.
Název školy: Střední odborná škola stavební Karlovy Vary, Sabinovo náměstí 16, Karlovy Vary Autor: ING. JANA KOVAŘÍKOVÁ Název materiálu: VY_32_INOVACE_11_MARKETINGOVÝ.
Sociologický výzkum.
Úvod do korpusové lingvistiky 4
Korpusová lingvistika (4) Základy korpusové statistiky
ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.
Zkvalitnění kompetencí pedagogů ISŠ Rakovník IV/2 Inovace a zkvalitnění výuky směřující k rozvoji matematické gramotnosti žáků středních škol Integrovaná.
Název školy Obchodní akademie a Hotelová škola Havlíčkův Brod Název OP OP Vzdělávání pro konkurenceschopnost Registrační číslo projektu CZ.1.07/1.5.00/
2. seminární úkol - projekt PSY117. Týmový projekt  Záměrem tohoto úkolu je vyzkoušet si realizaci jednoduchého výběrového šetření.  Pětičlenné týmy.
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika
Biostatistika 6. přednáška
- Pojmy - SPSS Statistické zpracování kvantitativních šetření.
Test dobré shody Fisherův přesný test McNemar test
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_09/C1 AutorIng. Liběna Krchňáková Období vytvořeníSrpen.
Kontingenční tabulky.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Skupinové interview (Focus group)
Pohled z ptačí perspektivy
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Základy zpracování geologických dat
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Úvod do statistiky VY_32_INOVACE_M4r0117 Mgr. Jakub Němec.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Pojem a význam řízení Cash Flow ve firmě
8. Kontingenční tabulky a χ2 test
TECHNIKY SBĚRU DAT KVANTITATIVNÍ KVALITATIVNÍ VÝZKUM VÝZKUM
Výzkum veřejného mínění a jeho realizace
Základy pedagogické metodologie
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
Základy pedagogické metodologie; seminář Mgr. Zdeněk Hromádka
Postup při empirickém kvantitativním výzkumu
Inferenční statistika - úvod
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
CJBB75 Základy využití korpusu pro praxi st G13.
ŠkolaStřední průmyslová škola Zlín Název projektu, reg. č.Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávací.
ESPAD Evropská školní studie o alkoholu a jiných drogách Přehled hlavních výsledků Evropské školní studie o alkoholu a jiných drogách v České republice.
INDUKTIVNÍ STATISTIKA
Kombinované metody oceňování. Metody založené na analýze trhu
Kvantitativní analýza cestopisů Karla Čapka
Číslo a název projektu: CZ /1. 5
Induktivní statistika
Verše a křivky Pokus o klasifikaci básní na základě jejich aktivity
Neparametrické testy parametrické a neparametrické testy
Absolutní a relativní četnost
- váhy jednotlivých studií
Neparametrické testy parametrické a neparametrické testy
Statistika - opakovací test k procvičení
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost   
Výukový materiál zpracován v rámci projektu EU peníze školám
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Vzdělávání pro konkurenceschopnost
Spojitá a kategoriální data Základní popisné statistiky
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Sociologický výzkum II.
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Statistika a výpočetní technika
Úvod do korpusové lingvistiky 3
7. Kontingenční tabulky a χ2 test
Výpočet a interpretace ukazatelů asociace v epidemiologických studiích
Základy statistiky.
Náhodné výběry a jejich zpracování
Transkript prezentace:

KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11

Frekvenční seznam – slovních tvarů – slov – lemmat – pos – tag Rozdíl mezi kvantitativní a kvalitativní analýzou korpusu spočívá v tom, že kvantitativní data přirozeně čerpatelná z korpusových textů nejsou součástí lingvistických rysů, které se datům přiřazují. Jsou pouze bází pro analýzu, která musí pokračovat dále. V kvalitativně zaměřené analýze jsou málo frekventované jevy zkoumány se stejnou pozorností jako jevy silně frekventované. Cílem analýzy korpusu není konstatování obvyklých a řídkých jevů v jazyce, nýbrž detailní popis jazyka jako celku.

příklad : adjektivum rudý kvantitativní analýza odhalí pouze počet výskytů kvalitativní analýza se zaměří na významy užití (nejen barva, ale i např. politická příslušnost atd.)

Reprezentativnost korpusu Ve velmi malých korpusech je možné, že se okrajové jevy vůbec nevyskytnou a frekventované jevy nebudou zastoupeny dostatečně. Velký korpus zaručuje možnost dobře zkoumat frekventované jevy. Ncméně platí, že výskyt hapaxových jevů je stabilní (zvětšujeme-li rozsah textů, neklesá podíl – kvantitativní i kvalitativní – tzv. hapax legomena, ale i dalších hapaxových jevů).

Vzorky Výběr vzorku – neexistuje obecně platná metoda, jak určit reprezentativnost vzorku. Podobné metody výběru vzorku zaručí, že data z korpusů zpracovaných co do výběru vzorků stejnými metodami budou srovnatelná navzájem.

Zpracování dat kvantitativními metodami V korpusové lingvistice jde kvantitativní analýza ruku v ruce s analýzou kvalitativní. Běžně užívané techniky matematické statistiky, které v rámci KL následují za prostým počítáním frekvenčních výskytů jazykových jevů obsažených v korpusu. Díky těmto metodám se lingvisté snaží získat z korpusů nejen prostá kvantitativní data, ale dojít k interpretaci jejich závažnosti, a to pomocí exaktních matematicky ověřených postupů.

metody matematické statistiky užívané v KL Jsou to např. metody, při jejichž užití je možné brát zřetel na takové okolnosti, jako je typ okolí jednotky (kolokace), vzorku (žánr) atd. Přehled je pouze omezený (nejsem matematický statistik a úvod do mat. stat. není cílem naší přednášky). (více: Statistics for Corpus Linguistics v řadě edinburských učebnic empirické lingvistiky, internet).

Frekvenční analýza matematické sečítání počtu jednotek (tokens) v případě klasifikovaných jednotek typů (lemmat, tagů, pos,...) u anotovaných korpusů obecně můžeme počítat a) se snazší prací a b) s lepšími výsledky u anotovaných korpusů je třeba mít na zřeteli, že počítáme pouze výsledky anotací, nikoliv to, co skutečně v korpusu je

Proporcionalita Prosté počítání frekvencí je jen jako první krok další analýzy. Hlavní nevýhodou prostých frekvenčních výpočtů je, že výsledky, které jimi získáme, se mohou značně lišit v případě, kdy jeden a týž jev spočítáme v různých korpusech (např. psaném a mluveném). Jak získané výsledky porovnat? Výsledky ze dvou korpusů, které nejsou stejně velké: vypočítáme frekvenci jako procento z celkového počtu tokens v korpusu. Výsledek srovnání percentuálního zastoupení nám může říci něco spolehlivého.

Porovnání výskytu tokenů v korpusech různého rozsahu Např. zjistíme, že jev A se v korpusu psaného jazyka o 1 mil. slovních tvarů vyskytuje 500 krát a v korpusu mluveného jazyka o slovních tvarů 50 krát.

Vypočítáme percentuální výskyt, a to takto: mluvený korpus (50: ) x 100 =0,05% psaný korpus (500: ) x 100=0,05% V obou případech nám vyjde stejný výsledek. Vypočítali jsme, že s ohledem na různost proporcí vzorků je frekvence stejná. Vždy se vychází z poměru mezi velikostí vzorku a počtem výskytů. ratio=počet výskytů typů /počet výskytů tokens v celém vzorku

Testování významnosti výsledků frekvenčních analýz chi-square test MI-score T-score z- score

Kolokace Metody se používají pro vyhledávání statisticky významných kolokací. Kolokace (souvýskyt slov) jsou z lingvistického hlediska zajímavé. Gramatika Lexikon – idiomatika MWE