SB029 Dodatek k přednáškám Základy analýzy dat a SPSS

Slides:



Advertisements
Podobné prezentace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Advertisements

Dualita úloh lineárního programování a analýza citlivosti
Jednovýběrové testy parametrickch hypotéz
Testování statistických hypotéz
EDA pro časové řady.
Monte Carlo permutační testy & Postupný výběr
Chováme králíčky Liší se tato tři králičí plemena hmotností?
Cvičení 6 – 25. října 2010 Heteroskedasticita
Mikroekonomie II Úvod Ing. Vojtěch Jindra Katedra ekonomie (KE)
Analytické metody výzkumu
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Testování hypotéz (ordinální data)
Shluková analýza.
Biostatistika 9. přednáška Aneta Hybšová
Řízení a supervize v sociálních a zdravotnických organizacích
Inference jako statistický proces 1
Základy ekonometrie Cvičení 3 4. října 2010.
Vybrané multivariační techniky
Lineární regrese.
Korelace a elaborace aneb úvod do vztahů proměnných
Korelace a elaborace aneb úvod do vztahů proměnných
Jiří Šafr jiri.safr(zavináč)seznam.cz
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Lineární regresní analýza
Závislost dvou kvantitativních proměnných
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Analýza variance (ANOVA).
PSY717 Statistická analýza dat 2010 První konzultace.
Pohled z ptačí perspektivy
Dvouvýběrové testy parametrickch hypotéz
AKD VII.
Korelace a elaborace aneb úvod do vztahů proměnných
Problémy s češtinou České znaky se standardně nepovažují za alfanumerické znaky (\w) Vadí to při třídění vyhodnocování regulárních výrazů Je třeba použít.
Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014
2. Vybrané základní pojmy matematické statistiky
Praktikum elementární analýzy dat Třídění 2. a 3. stupně UK FHS Řízení a supervize (LS 2012) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace.
Teorie psychodiagnostiky a psychometrie
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Korelace.
Biostatistika 1. přednáška Aneta Hybšová
PSY717 – statistická analýza dat
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Teorie psychodiagnostiky a psychometrie
Aplikovaná statistika 2. Veronika Svobodová
1. cvičení
AKD 1 (7/5) Transformace – vytváření nových proměnných: COMPUTE → SUMA celkový počet knih Konstanta → Student FHS COUNT → knihomol (2 x III. Tercil)
Aplikovaná statistika 2.
STATISTIKA 1. MOMENTY Vztah mezi momenty v rámci skupin a celku Data rozdělena do několika skupin S 1, …, S k Počty objektů v jednotlivých skupinách n.
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
INDUKTIVNÍ STATISTIKA
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Opakování – přehled metod
Popisná statistika I tabulky četností
4. cvičení
Faktorová analýza cíl faktorové analýzy základní pojmy, postup
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Parciální korelace Regresní analýza
Neparametrické testy pro porovnání polohy
Lineární optimalizační model
PSY252 Statistická analýza dat v psychologii II
jednoduchá regrese kvadratický Y=b0+b1X+b2X 2
Lineární regrese.
T-testy, neparametrické metody a analýza rozptylu (lekce 5-6)
Analýza kardinálních proměnných
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
Lineární regrese.
SIPVZ – úvodní modul P ICT a změny ve výuce (2 h) metodické poznámky.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

SB029 Dodatek k přednáškám Základy analýzy dat a SPSS -zadání a výstupy z SPSS SOC 434

Faktorová analýza (FA) –zadání a výstupy z SPSS

Faktorová analýza -zadání Do políčka Variables nutno Dát proměnné ze kterých se provede analýza.

Descriptives+ Factor scores Před vlastním výsledkem zobrazí korelační matici všech proměnných navzájem, včetně signifikancí KMO a Bartlett test-zda má smysl na daných datech provádět FA (viz dále u výstupů). Uloží do dat hodnoty faktorových skórů- bude jich tolik , kolik vyjde faktorů. Tyto lze užít jako proměnné nahrazující původní.

Rotation+ Options Varimax – nejčateji používaná rotace-viz přednáška. Rotované řešení je “snadno” čitelné Faktorové zátěže < 0.3~0.4 nemají velký praktický význam (jde vlastně o korelační koef. Mezi proměnnými a faktory)

Určení počtu faktorů - Extraction B A C A. Kaiserovo pravidlo - charakteristické číslo větší nebo rovno 1 B. Scree plot charakteristických čísel – tam kde se láme, je optimální počet faktorů-viz výstup. C-možnost vlastní volby počtu faktorů.

Výstupy z faktorové analýzy SOC 434

Počet vlastních čísel >=1 je 8 = počet faktorů (Kaiserovo pravidlo) Procento vysvětleného rozptylu pokud použiji 8 faktorů.

Grafické zobrazení počtu faktorů Zlom v scree plotu signalizuje optimální počet faktorů -zpravidla méně než u Kaiserova pravidla.

Testy určující zda má FA smysl Ukazují nakolik jsou proměnné korelované-platí čím více jsou proměnné korelovány tím je použití FA lepší (ceteris paribus) -Pozor neukazují zda používáme správné proměné, vyjdou někdy dobře i pro dichotomické proměnné, které jsou pro FA naprosto nevhodné KMO – není stricto sensu test, vychází ze srovnnání hodnot párových A parciálních korelačních koeficientů, pokud jsou parciální koef. blízké 0 proměnné měří 1 faktor a vice versa -hodnot od 0 do 1 (nejde o test ale doporučuje se že hodnota by měla být větší než 0,5, optimálně větší 0,7). Bartlett test-nulová hypotéza-proměnné an sobě v základním souboru nezávisí -tuto hypotézu zamítáme pokud je sig <0.05 SOC 434

Matice faktorových zátěží Před rotací Po rotaci (VARIMAX) Faktorové zátěže- korel. koef. mezi proměnnými a faktory (potlačeny menší než 0,3 – viz popis Options). Proměnnou přiřazujeme k faktoru, u kterého má největší faktorovou zátěž (tedy 2. a 4. proměnná k prvnímu faktoru atd.). Rotace pomůže tomu aby se faktorové zátěže přiblížili hodnotám 0 a 1 a umožnili jednodušší přiřazení faktorů a proměnných (ale ne vždy zcela pomůže). Nesmíme zapomenout, že pokud potlačíme některé hodnoty faktorových zátěží stále zpravidla faktor na ostatních proměnných alespoň slabě závisí. SOC 434

Shluková analýza+K-means –zadání a výstupy z SPSS

Shluková analýza SPSS:

V metodách nutno vybrat metodu pro shlukování a určit zda mám intervalové či binární proměnné. U nich pak určit metodu měření vzdáleností. Shluková analýza - zadání Do políčka Variables nutno dát proměnné ze kterých se provede analýza.

Shluková analýza - zadání Standardizaci je nutno Použít pokud proměnné vstupující do analýzy jsou na různých škálách.

V záložce Plots nutno zaškrtnout Dendrogram-nejdůležitější výstup. A B Můžeme zadat zda si přejeme A)Neurčovat skupinovou příslušnost B)určit skupinovou příslušnost do předem daného počtu shluků C)určit skupinovou příslušnost-pro různé počty shluků Pokud zvolíme B, nebo C a ve volbě Save zaškrtneme odpovídající volbu dostaneme v datech novou proměnnou /pro C nové proměnné ve kterých pro každý případ určeno do jakého shluku patří V záložce Plots nutno zaškrtnout Dendrogram-nejdůležitější výstup. A B C SOC 434

Výstupy ze shlukové analýzy SOC 434

Between-groups linkage DENDOGRAM Min = 0 Max = 25 Centroid method Nearest neighbor Vzdálenost mezi případy Between-groups linkage Pozor - různé způsoby shlukování dávají různé výsledky

Pozor - různé způsoby shlukování dávají různé výsledky DENDOGRAM – čtení výsledků Min = 0 Max = 25 Nejdříve došlo ke spojení případů 6,7,11 ( a také 5,13 či 12,15 atd.) Tyto případy mají k sobě nejblíže. Vzdálenost mezi případy Pokud chceme stanovit například 2 shluky musíme vést řez dendrogramem a rozdělit případy do dvou shluků. (1. shluk tvoří případy od 6 do 15 a 2. zbývající). 2 výsledné shluky Pozor - různé způsoby shlukování dávají různé výsledky

K-means cluster - nehierarchická metoda Raději nepoužívat, mění centroidy v průběhu přiřazování, záleží na pořadí Maximální počet iterací mohu zvýšit, ale není třeba. Do políčka Variables nutno dát proměnné ze kterých se provede analýza. Volba Save umožňuje uložit skupinovou příslušnost a vzdálenost od „středu“ shluku.

POČÁTEČNÍ ŘEŠENÍ ROVNOU ZJISTÍM, ZDA MAJÍ PROMĚNNÉ VSTUPUJÍCÍ DO SESKUPOVACÍ ANALÝZY SMYSL ZABÍRÁ HODNĚ PAMĚTI KDYŽ ZADÁVÁM POČÁTEČNÍ ŘEŠENÍ ULOŽENÍ CENTROIDŮ

Výstupem z K-means procedury je pouze skupinová příslušnost Tedy každý případ je zařazen do jednoho ze shluků. Počet shluků musíme předem zadat, pokud tedy chceme například získat rozdělení do 2,3,4 shluků musíme proceduru Spustiz třikrát a poté řešení porovnat. Pokud zaškrtneme možnost volby ANOVA v Options zobrazí se nám navíc tabulka pro analýzu rozptylu, která nám řekne zda jsou mezi shluky opravdu rozdíly.