Úvod do štatistického spracovania a vyhodnocovania údajov – 2. časť

Úvod do štatistického spracovania a vyhodnocovania údajov – 2. časť
24. november 2008

3. Miery tvaru Šikmosť – meria smer a stupeň asymetrie rozdelenia premennej. Kladná (pravostranná šikmosť) hodnota znamená, že väčšina hodnôt je menšia ako priemer, záporná hodnota (ľavostranná šikmosť) znamená, že väčšina hodnôt je väčšia ako priemer.

3. Miery tvaru Špicatosť – meria hustotu chvostov rozdelenia premennej, t.j. charakterizuje výskyt extrémne vysokých a extrémne nízkych hodnôt

Tri úrovne využívania štatistiky:
Opisná štatistika (sprehľadnenie dát) Analýza dát (zisťovanie vzťahov v dátach) Induktívna štatistika (zovšeobecňovanie a extrapolácia získaných výsledkov z analýzy dát)

Analýza dát Štatistické šetrenie nemôže končiť prehľadným opísaním získaných dát, ani charakterizáciou opisnými mierami. Konečným cieľom je nájdenie vzťahov medzi premennými. Vzťahy medzi premennými existujú vtedy, keď ich hodnoty vzájomne medzi sebou korešpondujú. Závery o vzťahoch medzi premennými sa vytvárajú na základe sledovania hodnôt premenných na viacerých štatistických jednotkách (opakované merania).

Triedenie výskumov podľa spôsobu manipulácie s premennými
Korelačný výskum – v korelačnom výskume meriame premenné a pomocou analýzy hodnôt premenných hľadáme vzťahy medzi premennými. Experimentálny výskum – v experimentálnom výskume manipulujeme s niektorými premennými (tzv. nezávislé premenné) a sledujeme dopad manipulácie na iné premenné (tzv. závislé premenné). Iba experimentálne údaje môžu nezvratne demonštrovať kauzálny vzťah. Preto namiesto pojmu závislosť medzi premennými sa odporúča používať výraz vzťah medzi premennými alebo štatistická závislosť.

Korelačné koeficienty
Korelačný koeficient meria silu (tesnosť vzťahu) štatistickej závislosti medzi dvoma intervalovými premennými Pearsonov korelačný koeficient Koeficient determinácie Spearmanov korelačný koeficient

Pearsonov korelačný koeficient
Je mierou lineárnej závislosti dvoch premenných Čitateľ sa nazýva kovariancia a vyjadruje ako sa súčasne menia hodnoty dvoch premenných. Nula znamená, že sa menia nezávisle. Nadobúda hodnoty -1 až 1

Pearsonov korelačný koeficient
Dá sa vypočítavať len pre intervalové premenné a musia mať normálne rozdelenie. Závislosť medzi premennými musí byť lineárna. Korelácia pod 0,1 sa často označuje ako triviálna, 0,1 – 0,3 malá, 0,3 – 0,5 stredná a nad 0,5 veľká. 0,7 – 0,9 je veľmi vysoká a 0,9 – 1 takmer dokonalá korelácia. Aj napriek tomu sa musí pri hodnotení korelácie prihliadať na veľkosť výskumnej vzorky ako aj na charakter skúmaného vzťahu medzi premennými.

Koeficient determinácie
Je umocnenou hodnotou Pearsonovho korelačného koeficientu. Jeho hodnota udáva, v akom rozsahu určuje variabilita jednej premennej variabilitu druhej premennej. Napríklad: hodnota r=0,8 vedie k r2=0,64, čo znamená, že 64% variability oboch premenných je determinovaných spoločne. Pearsonov korelačný koeficient (ako aj koeficient determinácie) sú ovplyvnené extrémnymi hodnotami.

Spearmanov korelačný koeficient
Korelačný koeficient používaný pre poradové premenné. Tiež sa používa pre intervalové premenné, ktoré nemajú normálne rozloženie. Pred počítaním sa musia transformovať na poradové premenné. Nepoužíva sa pri počte hodnôt n<5. Nadobúda hodnoty od -1 po 1.

Kontingenčné koeficienty
Používajú sa na určenie sily asociácie riadkovej a stĺpcovej premennej v kontingenčnej tabuľke. Sú určené pre premenné, ktoré nie sú ani intervalové ani poradové Koeficient  2-test Tetrachorický koeficient rtet Asociačný koeficient Q Charakteristika C a charakteristika K

Pri výpočtoch sa vychádza z kontingenčných tabuliek
Kontingenčná tabuľka ZŠ SŠ bez M SŠ s M VŠ muž 5 34 179 62 žena 12 49 252 36 Schéma štvorpolíčkovej tabuľky Náhodná premenná X Riadkový súčet x1 x2 Náhodná premenná Y y2 a b (a + b) y1 c d (c + d) Stĺpcový súčet (a + c) (b + d) (a + c) + (b + d) = = (a + b) + (c + d) = n

Koeficient  Počítame ho vtedy, keď dichotomické triedy premenných tvoria pravé alternatívy umožňujúce jednoznačné priradenie každého prvku (pohlavie, pozitívny-negatívny postoj a pod.).

2-test Pomocou 2-testu môžeme testovať, či existuje súvislosť medzi dvoma náhodnými premennými a ak je to tak, možno použiť  na určenie tesnosti tohto vzťahu.

Tetrachorický koeficient rtet
Je odhadom hodnoty korelačného koeficientu r, ktorý opisuje súvislosť medzi dvoma premennými, ak sú metricky škálované. Aby bol dostatočne presný je potrebné, aby boli hodnoty v súbore dát rozdelené normálne. r tet =

Asociačný koeficient Q
Reprezentuje vzťah dvoch premenných, ale nehovorí o tesnosti tohto vzťahu. Ide o ekvivalent už spomínaných štatistických charakteristík.

Charakteristika C a K Používajú sa vtedy, keď sa z kontingenčnej tabuľky vytvárajú viacpolíčkové tabuľky, t.j. do súvislostí sa dáva viacero stupňov (kategórií) dvoch premenných. n – počet subjektov Q – menšia z hodnôt počtu riadkov alebo stĺpcov príslušnej tabuľky

Výpočet 2 koeficientu Člen krúžku X Súčet áno nie Pohlavie Y Mužské 40 10 50 Ženské 20 30 60 100 Vypočítanú hodnotu 2 - testu porovnáme s príslušnou kritickou hodnotou. Keďže 16,67  3,84, môžeme tvrdiť, že existuje súvislosť medzi pohlavím a členstvom v prírodovednom krúžku.

Tri úrovne využívania štatistiky:
Opisná štatistika (sprehľadnenie dát) Analýza dát (zisťovanie vzťahov v dátach) Induktívna štatistika (zovšeobecňovanie a extrapolácia získaných výsledkov z analýzy dát)

Induktívna štatistika
Bežnou úlohou induktívnej štatistiky je na základe informácií získaných z náhodných výberových vzoriek robiť závery o celých základných súboroch, z ktorých vzorky pochádzajú. Pred realizáciou musí byť explicitne definovaný základný súbor ako aj rozsah a spôsob výberu výberového súboru. Od toho najmä závisia možnosti zovšeobecnenia. Pravdepodobnosť zaradenia do vzorky je pre všetky štatistické jednotky nenulová Štatistické jednotky sú do vzorky vyberané nezávisle jedna od druhej.

Testy štatistických hypotéz
Ide o proces overovania správnosti alebo nesprávnosti hypotézy pomocou výsledkov získaných náhodným výberom. Štatistická hypotéza je tvrdenie týkajúce sa základného súboru, pričom jej overovanie sa realizuje len na výberovom súbore. V hypotézach rozhodujeme o zhodnosti parametrov dvoch súborov alebo o zhodnosti rozloženia parametra v súbore. Podľa veľkosti zisteného rozdielu hovoríme o systematickej príčine, resp. o náhode a chybovosti.

Postup konštrukcie testu hypotézy
Sformulovanie nulovej hypotézy (H0) Zvolenie hladiny významnosti Výpočet testovacej štatistiky a určenie pravdepodobnosti Rozhodnutie

1. Sformulovanie nulovej hypotézy
Nulová hypotéza tvrdí, že rozdiel zistený vo vzorke je náhodný. Tvrdí, že medzi dvoma súbormi nie je rozdiel. Príklad: Aritmetický priemer telesnej výšky žiakov triedy 6.A je rovnaký ako aritmetický priemer telesnej výšky žiakov 6.B. Z formulácie nulovej hypotézy vyplýva alternatívna hypotéza (Ha). Príklad: Aritmetický priemer telesnej výšky žiakov triedy 6.A je iný ako v 6.B (tzv. obojstranná hypotéza) Príklad: Aritmetický priemer telesnej výšky žiakov triedy 6.A je väčší ako v 6.B (jednostranná hypotéza).

2. Zvolenie hladiny významnosti ()
Charakterizuje pravdepodobnosť, že nulovú hypotézu zamietneme, pričom ona je platná. Takejto chyba sa hovorí chyba 1. druhu. Hladina významnosti máva nasledujúce hodnoty: 5% označuje sa * 1% označuje sa * * 0.1% (tzv. významnosť na dve nuly) označuje sa * * * Chyba 2. druhu () vznikne vtedy, keď prijmeme nesprávnu hypotézu.

3 Výpočet testovacej štatistiky a určenie pravdepodobnosti
Podľa typu údajov sa použije príslušná štatistická metóda a určí sa tzv. P-hodnota (probability level). Tá určuje, do akej miery je zistený rozdiel medzi porovnávanými vzorkami údajov dôsledkom systematického pôsobenia alebo ide len o náhodu. Čím má P menšiu hodnotu, tým viac môžeme byť presvedčení o tom, že zistený rozdiel je dôsledkom systematického pôsobenia, čiže medzi dvomi súbormi dát existuje vzťah.

4. Rozhodnutie Ak P< , nulová hypotéza sa voči príslušnej hypotéze zamietne. Porovnávané atribúty nie sú rovnaké. Ak P , nulovú hypotézu nemožno zamietnuť, t.j. rozdiel nameraný vo vzorke môže byť len náhodný.

Studentov t-test Jednorozmerná induktívna štatistika – intervalová premenná (parametrický test)

F-test Testovanie podielu variancií. Ak sú variancie v oboch súboroch rovnaké a ak oba súbory majú normálne rozloženie, môžeme použiť parametrický t-test.

Kolmogorovov-Smirnov test
Neparametrický test používaný pre rozdelenia, ktoré sú iné ako normálne. Wilcoxonov test má podobné použitie

Znamienkový test Neparametrický
Vhodný pre malé výbery, ktoré majú síce intervalové hodnoty, ale je v nich normálnosť rozloženia ťažko dokázateľná.

Situácie induktívnej štatistiky
Jednorozmerná induktívna štatistika (parametrické hodnoty: t-test, neparametrické: Wilcoxonov test a znamienkový test) Porovnanie dvoch nezávislých výberov (F-test + t-test) Porovnanie dvoch závislých (korelujúcich) výberov (F-test + t-test) Porovnanie dvoch nezávislých výberov neparametrických (Wilcoxonov test a Kolmogorov-Smirnov test) Porovnanie dvoch závislých výberov neparametrických (znamienkový test)

Úvod do štatistického spracovania a vyhodnocovania údajov – 2. časť

Podobné prezentace

Prezentace na téma: "Úvod do štatistického spracovania a vyhodnocovania údajov – 2. časť"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Úvod do štatistického spracovania a vyhodnocovania údajov – 2. časť

Podobné prezentace

Prezentace na téma: "Úvod do štatistického spracovania a vyhodnocovania údajov – 2. časť"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář