Úvod do štatistického spracovania a vyhodnocovania údajov – 2. časť

Slides:



Advertisements
Podobné prezentace
kvantitativních znaků
Advertisements

Testování parametrických hypotéz
Testování statistických hypotéz
Cvičení 6 – 25. října 2010 Heteroskedasticita
Testování hypotéz (ordinální data)
Testování hypotéz přednáška.
Tloušťková struktura porostu
kvantitativních znaků
Charakteristiky variability
Biostatistika 6. přednáška
Další spojitá rozdělení pravděpodobnosti
Biostatistika 7. přednáška
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Teorie psychodiagnostiky a psychometrie
2. Vybrané základní pojmy matematické statistiky
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Korelace.
PSY717 – statistická analýza dat
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základy zpracování geologických dat R. Čopjaková.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Statistické testování – základní pojmy
Úpravy algebrických výrazov
Úpravy algebrických výrazov
Lineárna funkcia a jej vlastnosti
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Vonkajšie pamäťové média
Neparametrické testy pro porovnání polohy
Zásoby ITMS kód projektu „Učíme inovatívne, kreatívne a hravo – učíme pre život a prax“ „Moderné vzdelávanie pre vedomostnú spoločnosť /
Digitalizácia zvuku.
Identifikácia MSW modelu
Pavol Nečas Gymnázium L. N. Senica Šk. rok 2008/2009 III.A
Seminárna práca z matematiky
Priama úmernosť ISCED 2.
Matematika 7. ročník Mgr. Libuše Horvátová ZŠ Clementisova
Analytická časť práce.
Úvod. Porovnávanie celých čísel.
Kvalitatívne heuristiky
Operácie s mocninami s celočíselným mocniteľom
ŠTATISTIKA.
Dominika Vidovičová IX.B
Základy teórie chýb.
Informácie okolo nás Kódovanie znakov.
JEDINEC – OSOBNOSŤ (etika)
Čo je PHP- PHP (PHP: Hypertext Preprocessor) je populárny open source (prístupné zdrojové kódy) skriptovací programovací jazyk Používa najmä na programovanie.
Úvod do štatistického spracovania a vyhodnocovania údajov
Ing. Zlatica Molčanová Košice
Obsah vyučovania Základné pojmy Výber učiva Usporiadanie učiva
Počtové operácie s celými číslami: sčítanie a odčítanie
Blackova – Scholesova analýza
Informatika, údaj, informácia, jednotka informácie, digitalizácia
Základné parametre obrazu II.
Podnikové hospodárstvo
DEKOMPOZÍCIA ČASOVÝCH RADOV
Regresná a korelačná analýza (RaKA) resp. Korelačný počet
POPISNÉ (DESKRIPTÍVNE) CHARAKTERISTIKY
V ä z b y Chemická väzba.
Viacrozmerné štatistické metódy Viacrozmerné metódy všeobecne
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Testování hypotéz - pojmy
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Úvod do štatistického spracovania a vyhodnocovania údajov – 2. časť 24. november 2008

3. Miery tvaru Šikmosť – meria smer a stupeň asymetrie rozdelenia premennej. Kladná (pravostranná šikmosť) hodnota znamená, že väčšina hodnôt je menšia ako priemer, záporná hodnota (ľavostranná šikmosť) znamená, že väčšina hodnôt je väčšia ako priemer.

3. Miery tvaru Špicatosť – meria hustotu chvostov rozdelenia premennej, t.j. charakterizuje výskyt extrémne vysokých a extrémne nízkych hodnôt

Tri úrovne využívania štatistiky: Opisná štatistika (sprehľadnenie dát) Analýza dát (zisťovanie vzťahov v dátach) Induktívna štatistika (zovšeobecňovanie a extrapolácia získaných výsledkov z analýzy dát)

Analýza dát Štatistické šetrenie nemôže končiť prehľadným opísaním získaných dát, ani charakterizáciou opisnými mierami. Konečným cieľom je nájdenie vzťahov medzi premennými. Vzťahy medzi premennými existujú vtedy, keď ich hodnoty vzájomne medzi sebou korešpondujú. Závery o vzťahoch medzi premennými sa vytvárajú na základe sledovania hodnôt premenných na viacerých štatistických jednotkách (opakované merania).

Triedenie výskumov podľa spôsobu manipulácie s premennými Korelačný výskum – v korelačnom výskume meriame premenné a pomocou analýzy hodnôt premenných hľadáme vzťahy medzi premennými. Experimentálny výskum – v experimentálnom výskume manipulujeme s niektorými premennými (tzv. nezávislé premenné) a sledujeme dopad manipulácie na iné premenné (tzv. závislé premenné). Iba experimentálne údaje môžu nezvratne demonštrovať kauzálny vzťah. Preto namiesto pojmu závislosť medzi premennými sa odporúča používať výraz vzťah medzi premennými alebo štatistická závislosť.

Korelačné koeficienty Korelačný koeficient meria silu (tesnosť vzťahu) štatistickej závislosti medzi dvoma intervalovými premennými Pearsonov korelačný koeficient Koeficient determinácie Spearmanov korelačný koeficient

Pearsonov korelačný koeficient Je mierou lineárnej závislosti dvoch premenných Čitateľ sa nazýva kovariancia a vyjadruje ako sa súčasne menia hodnoty dvoch premenných. Nula znamená, že sa menia nezávisle. Nadobúda hodnoty -1 až 1

Pearsonov korelačný koeficient Dá sa vypočítavať len pre intervalové premenné a musia mať normálne rozdelenie. Závislosť medzi premennými musí byť lineárna. Korelácia pod 0,1 sa často označuje ako triviálna, 0,1 – 0,3 malá, 0,3 – 0,5 stredná a nad 0,5 veľká. 0,7 – 0,9 je veľmi vysoká a 0,9 – 1 takmer dokonalá korelácia. Aj napriek tomu sa musí pri hodnotení korelácie prihliadať na veľkosť výskumnej vzorky ako aj na charakter skúmaného vzťahu medzi premennými.

Koeficient determinácie Je umocnenou hodnotou Pearsonovho korelačného koeficientu. Jeho hodnota udáva, v akom rozsahu určuje variabilita jednej premennej variabilitu druhej premennej. Napríklad: hodnota r=0,8 vedie k r2=0,64, čo znamená, že 64% variability oboch premenných je determinovaných spoločne. Pearsonov korelačný koeficient (ako aj koeficient determinácie) sú ovplyvnené extrémnymi hodnotami.

Spearmanov korelačný koeficient Korelačný koeficient používaný pre poradové premenné. Tiež sa používa pre intervalové premenné, ktoré nemajú normálne rozloženie. Pred počítaním sa musia transformovať na poradové premenné. Nepoužíva sa pri počte hodnôt n<5. Nadobúda hodnoty od -1 po 1.

Kontingenčné koeficienty Používajú sa na určenie sily asociácie riadkovej a stĺpcovej premennej v kontingenčnej tabuľke. Sú určené pre premenné, ktoré nie sú ani intervalové ani poradové Koeficient  2-test Tetrachorický koeficient rtet Asociačný koeficient Q Charakteristika C a charakteristika K

Pri výpočtoch sa vychádza z kontingenčných tabuliek Kontingenčná tabuľka ZŠ SŠ bez M SŠ s M VŠ muž 5 34 179 62 žena 12 49 252 36 Schéma štvorpolíčkovej tabuľky Náhodná premenná X Riadkový súčet x1 x2 Náhodná premenná Y y2 a b (a + b) y1 c d (c + d) Stĺpcový súčet (a + c) (b + d) (a + c) + (b + d) = = (a + b) + (c + d) = n

Koeficient  Počítame ho vtedy, keď dichotomické triedy premenných tvoria pravé alternatívy umožňujúce jednoznačné priradenie každého prvku (pohlavie, pozitívny-negatívny postoj a pod.).

2-test Pomocou 2-testu môžeme testovať, či existuje súvislosť medzi dvoma náhodnými premennými a ak je to tak, možno použiť  na určenie tesnosti tohto vzťahu.

Tetrachorický koeficient rtet Je odhadom hodnoty korelačného koeficientu r, ktorý opisuje súvislosť medzi dvoma premennými, ak sú metricky škálované. Aby bol dostatočne presný je potrebné, aby boli hodnoty v súbore dát rozdelené normálne. r tet =

Asociačný koeficient Q Reprezentuje vzťah dvoch premenných, ale nehovorí o tesnosti tohto vzťahu. Ide o ekvivalent už spomínaných štatistických charakteristík.

Charakteristika C a K Používajú sa vtedy, keď sa z kontingenčnej tabuľky vytvárajú viacpolíčkové tabuľky, t.j. do súvislostí sa dáva viacero stupňov (kategórií) dvoch premenných. n – počet subjektov Q – menšia z hodnôt počtu riadkov alebo stĺpcov príslušnej tabuľky

Výpočet 2 koeficientu Člen krúžku X Súčet áno nie Pohlavie Y Mužské 40 10 50 Ženské 20 30 60 100 Vypočítanú hodnotu 2 - testu porovnáme s príslušnou kritickou hodnotou. Keďže 16,67  3,84, môžeme tvrdiť, že existuje súvislosť medzi pohlavím a členstvom v prírodovednom krúžku.

Tri úrovne využívania štatistiky: Opisná štatistika (sprehľadnenie dát) Analýza dát (zisťovanie vzťahov v dátach) Induktívna štatistika (zovšeobecňovanie a extrapolácia získaných výsledkov z analýzy dát)

Induktívna štatistika Bežnou úlohou induktívnej štatistiky je na základe informácií získaných z náhodných výberových vzoriek robiť závery o celých základných súboroch, z ktorých vzorky pochádzajú. Pred realizáciou musí byť explicitne definovaný základný súbor ako aj rozsah a spôsob výberu výberového súboru. Od toho najmä závisia možnosti zovšeobecnenia. Pravdepodobnosť zaradenia do vzorky je pre všetky štatistické jednotky nenulová Štatistické jednotky sú do vzorky vyberané nezávisle jedna od druhej.

Testy štatistických hypotéz Ide o proces overovania správnosti alebo nesprávnosti hypotézy pomocou výsledkov získaných náhodným výberom. Štatistická hypotéza je tvrdenie týkajúce sa základného súboru, pričom jej overovanie sa realizuje len na výberovom súbore. V hypotézach rozhodujeme o zhodnosti parametrov dvoch súborov alebo o zhodnosti rozloženia parametra v súbore. Podľa veľkosti zisteného rozdielu hovoríme o systematickej príčine, resp. o náhode a chybovosti.

Postup konštrukcie testu hypotézy Sformulovanie nulovej hypotézy (H0) Zvolenie hladiny významnosti Výpočet testovacej štatistiky a určenie pravdepodobnosti Rozhodnutie

1. Sformulovanie nulovej hypotézy Nulová hypotéza tvrdí, že rozdiel zistený vo vzorke je náhodný. Tvrdí, že medzi dvoma súbormi nie je rozdiel. Príklad: Aritmetický priemer telesnej výšky žiakov triedy 6.A je rovnaký ako aritmetický priemer telesnej výšky žiakov 6.B. Z formulácie nulovej hypotézy vyplýva alternatívna hypotéza (Ha). Príklad: Aritmetický priemer telesnej výšky žiakov triedy 6.A je iný ako v 6.B (tzv. obojstranná hypotéza) Príklad: Aritmetický priemer telesnej výšky žiakov triedy 6.A je väčší ako v 6.B (jednostranná hypotéza).

2. Zvolenie hladiny významnosti () Charakterizuje pravdepodobnosť, že nulovú hypotézu zamietneme, pričom ona je platná. Takejto chyba sa hovorí chyba 1. druhu. Hladina významnosti máva nasledujúce hodnoty: 5% označuje sa * 1% označuje sa * * 0.1% (tzv. významnosť na dve nuly) označuje sa * * * Chyba 2. druhu () vznikne vtedy, keď prijmeme nesprávnu hypotézu.

3 Výpočet testovacej štatistiky a určenie pravdepodobnosti Podľa typu údajov sa použije príslušná štatistická metóda a určí sa tzv. P-hodnota (probability level). Tá určuje, do akej miery je zistený rozdiel medzi porovnávanými vzorkami údajov dôsledkom systematického pôsobenia alebo ide len o náhodu. Čím má P menšiu hodnotu, tým viac môžeme byť presvedčení o tom, že zistený rozdiel je dôsledkom systematického pôsobenia, čiže medzi dvomi súbormi dát existuje vzťah.

4. Rozhodnutie Ak P< , nulová hypotéza sa voči príslušnej hypotéze zamietne. Porovnávané atribúty nie sú rovnaké. Ak P , nulovú hypotézu nemožno zamietnuť, t.j. rozdiel nameraný vo vzorke môže byť len náhodný.

Studentov t-test Jednorozmerná induktívna štatistika – intervalová premenná (parametrický test)

F-test Testovanie podielu variancií. Ak sú variancie v oboch súboroch rovnaké a ak oba súbory majú normálne rozloženie, môžeme použiť parametrický t-test.

Kolmogorovov-Smirnov test Neparametrický test používaný pre rozdelenia, ktoré sú iné ako normálne. Wilcoxonov test má podobné použitie

Znamienkový test Neparametrický Vhodný pre malé výbery, ktoré majú síce intervalové hodnoty, ale je v nich normálnosť rozloženia ťažko dokázateľná.

Situácie induktívnej štatistiky Jednorozmerná induktívna štatistika (parametrické hodnoty: t-test, neparametrické: Wilcoxonov test a znamienkový test) Porovnanie dvoch nezávislých výberov (F-test + t-test) Porovnanie dvoch závislých (korelujúcich) výberov (F-test + t-test) Porovnanie dvoch nezávislých výberov neparametrických (Wilcoxonov test a Kolmogorov-Smirnov test) Porovnanie dvoch závislých výberov neparametrických (znamienkový test)