KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.

Slides:

Advertisements

Podobné prezentace

METODY A TECHNIKY VÝZKUMU

Advertisements

Minimální poměr: Exaktní metrika pro kolokace, klíčová slova atd.

Korpusová lingvistika (2)

Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.

Výpočet a interpretace ukazatelů asociace v epidemiologických studiích

Testování hypotéz (ordinální data)

Mgr. Alena Lukáčová, Ph.D., Dr. Ján Šugár, CSc.

Hypotézy ve výzkumu.

Název školy: Střední odborná škola stavební Karlovy Vary, Sabinovo náměstí 16, Karlovy Vary Autor: ING. JANA KOVAŘÍKOVÁ Název materiálu: VY_32_INOVACE_11_MARKETINGOVÝ.

Sociologický výzkum.

Úvod do korpusové lingvistiky 4

Korpusová lingvistika (4) Základy korpusové statistiky

ZÁKLADNÍ SOUBOR Základní soubor (populace) je většinou myšlenková konstrukce, která obsahuje veškerá data, se kterými pracujeme a není vždy snadné jej.

Zkvalitnění kompetencí pedagogů ISŠ Rakovník IV/2 Inovace a zkvalitnění výuky směřující k rozvoji matematické gramotnosti žáků středních škol Integrovaná.

Název školy Obchodní akademie a Hotelová škola Havlíčkův Brod Název OP OP Vzdělávání pro konkurenceschopnost Registrační číslo projektu CZ.1.07/1.5.00/

2. seminární úkol - projekt PSY117. Týmový projekt  Záměrem tohoto úkolu je vyzkoušet si realizaci jednoduchého výběrového šetření.  Pětičlenné týmy.

PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika

Biostatistika 6. přednáška

- Pojmy - SPSS Statistické zpracování kvantitativních šetření.

Test dobré shody Fisherův přesný test McNemar test

Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_09/C1 AutorIng. Liběna Krchňáková Období vytvořeníSrpen.

Kontingenční tabulky.

Jedno-indexový model a určení podílů cenných papírů v portfoliu

KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.

Skupinové interview (Focus group)

Pohled z ptačí perspektivy

Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.

Základy zpracování geologických dat

Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.

K OMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA Úvod do statistiky VY_32_INOVACE_M4r0117 Mgr. Jakub Němec.

Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.

Pojem a význam řízení Cash Flow ve firmě

8. Kontingenční tabulky a χ2 test

TECHNIKY SBĚRU DAT KVANTITATIVNÍ KVALITATIVNÍ VÝZKUM VÝZKUM

Výzkum veřejného mínění a jeho realizace

Základy pedagogické metodologie

PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.

Základy pedagogické metodologie; seminář Mgr. Zdeněk Hromádka

Postup při empirickém kvantitativním výzkumu

Inferenční statistika - úvod

Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky

CJBB75 Základy využití korpusu pro praxi st G13.

ŠkolaStřední průmyslová škola Zlín Název projektu, reg. č.Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávací.

ESPAD Evropská školní studie o alkoholu a jiných drogách Přehled hlavních výsledků Evropské školní studie o alkoholu a jiných drogách v České republice.

INDUKTIVNÍ STATISTIKA

Kombinované metody oceňování. Metody založené na analýze trhu

Kvantitativní analýza cestopisů Karla Čapka

Číslo a název projektu: CZ /1. 5

Induktivní statistika

Verše a křivky Pokus o klasifikaci básní na základě jejich aktivity

Neparametrické testy parametrické a neparametrické testy

Absolutní a relativní četnost

- váhy jednotlivých studií

Neparametrické testy parametrické a neparametrické testy

Statistika - opakovací test k procvičení

METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost

Výukový materiál zpracován v rámci projektu EU peníze školám

Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.

Vzdělávání pro konkurenceschopnost

Spojitá a kategoriální data Základní popisné statistiky

Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:

Sociologický výzkum II.

Typy proměnných Kvalitativní/kategorická binární - ano/ne

Jazykové korpusy (lingvistika, filologie, výuka jazyků)

Statistika a výpočetní technika

Úvod do korpusové lingvistiky 3

7. Kontingenční tabulky a χ2 test

Výpočet a interpretace ukazatelů asociace v epidemiologických studiích

Základy statistiky.

Náhodné výběry a jejich zpracování

Transkript prezentace:

KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11

Frekvenční seznam – slovních tvarů – slov – lemmat – pos – tag Rozdíl mezi kvantitativní a kvalitativní analýzou korpusu spočívá v tom, že kvantitativní data přirozeně čerpatelná z korpusových textů nejsou součástí lingvistických rysů, které se datům přiřazují. Jsou pouze bází pro analýzu, která musí pokračovat dále. V kvalitativně zaměřené analýze jsou málo frekventované jevy zkoumány se stejnou pozorností jako jevy silně frekventované. Cílem analýzy korpusu není konstatování obvyklých a řídkých jevů v jazyce, nýbrž detailní popis jazyka jako celku.

příklad : adjektivum rudý kvantitativní analýza odhalí pouze počet výskytů kvalitativní analýza se zaměří na významy užití (nejen barva, ale i např. politická příslušnost atd.)

Reprezentativnost korpusu Ve velmi malých korpusech je možné, že se okrajové jevy vůbec nevyskytnou a frekventované jevy nebudou zastoupeny dostatečně. Velký korpus zaručuje možnost dobře zkoumat frekventované jevy. Ncméně platí, že výskyt hapaxových jevů je stabilní (zvětšujeme-li rozsah textů, neklesá podíl – kvantitativní i kvalitativní – tzv. hapax legomena, ale i dalších hapaxových jevů).

Vzorky Výběr vzorku – neexistuje obecně platná metoda, jak určit reprezentativnost vzorku. Podobné metody výběru vzorku zaručí, že data z korpusů zpracovaných co do výběru vzorků stejnými metodami budou srovnatelná navzájem.

Zpracování dat kvantitativními metodami V korpusové lingvistice jde kvantitativní analýza ruku v ruce s analýzou kvalitativní. Běžně užívané techniky matematické statistiky, které v rámci KL následují za prostým počítáním frekvenčních výskytů jazykových jevů obsažených v korpusu. Díky těmto metodám se lingvisté snaží získat z korpusů nejen prostá kvantitativní data, ale dojít k interpretaci jejich závažnosti, a to pomocí exaktních matematicky ověřených postupů.

metody matematické statistiky užívané v KL Jsou to např. metody, při jejichž užití je možné brát zřetel na takové okolnosti, jako je typ okolí jednotky (kolokace), vzorku (žánr) atd. Přehled je pouze omezený (nejsem matematický statistik a úvod do mat. stat. není cílem naší přednášky). (více: Statistics for Corpus Linguistics v řadě edinburských učebnic empirické lingvistiky, internet).

Frekvenční analýza matematické sečítání počtu jednotek (tokens) v případě klasifikovaných jednotek typů (lemmat, tagů, pos,...) u anotovaných korpusů obecně můžeme počítat a) se snazší prací a b) s lepšími výsledky u anotovaných korpusů je třeba mít na zřeteli, že počítáme pouze výsledky anotací, nikoliv to, co skutečně v korpusu je

Proporcionalita Prosté počítání frekvencí je jen jako první krok další analýzy. Hlavní nevýhodou prostých frekvenčních výpočtů je, že výsledky, které jimi získáme, se mohou značně lišit v případě, kdy jeden a týž jev spočítáme v různých korpusech (např. psaném a mluveném). Jak získané výsledky porovnat? Výsledky ze dvou korpusů, které nejsou stejně velké: vypočítáme frekvenci jako procento z celkového počtu tokens v korpusu. Výsledek srovnání percentuálního zastoupení nám může říci něco spolehlivého.

Porovnání výskytu tokenů v korpusech různého rozsahu Např. zjistíme, že jev A se v korpusu psaného jazyka o 1 mil. slovních tvarů vyskytuje 500 krát a v korpusu mluveného jazyka o slovních tvarů 50 krát.

Vypočítáme percentuální výskyt, a to takto: mluvený korpus (50: ) x 100 =0,05% psaný korpus (500: ) x 100=0,05% V obou případech nám vyjde stejný výsledek. Vypočítali jsme, že s ohledem na různost proporcí vzorků je frekvence stejná. Vždy se vychází z poměru mezi velikostí vzorku a počtem výskytů. ratio=počet výskytů typů /počet výskytů tokens v celém vzorku

Testování významnosti výsledků frekvenčních analýz chi-square test MI-score T-score z- score

Kolokace Metody se používají pro vyhledávání statisticky významných kolokací. Kolokace (souvýskyt slov) jsou z lingvistického hlediska zajímavé. Gramatika Lexikon – idiomatika MWE