Novohradské statistické dny Poznámky k problematice určování počtu shluků Hana Řezanková Vysoká škola ekonomická v Praze
Novohradské statistické dny Obsah Motivace Ilustrace problémů Experimenty Závěr
Novohradské statistické dny Motivace Existuje velké množství koeficientů pro stanovování počtu shluků Pokud nejsou shluky výrazně oddělené, jednotlivé koeficienty mohou určovat různé počty shluků jako vhodné (pro stejná data) Řada koeficientů existuje pro fuzzy shlukovou analýzu vhodnou pro překrývající se shluky Tyto koeficienty jsou pro určování počtu shluků vhodné pouze pro výrazně oddělené shluky
Novohradské statistické dny Ilustrace Data z šetření REFLEX 2006 a 2010 Sledování podobnosti proměnných, které vyjadřují úrovně kompetencí absolventa VŠ Aplikace faktorové analýzy a využití faktorových zátěží ke shlukování proměnných Použití fuzzy shlukové analýzy (FANNY) Použití 2 koeficientů pro hodnocení shlukování: Dunnův (ve variantě základní a normalizované) průměrná obrysová šířka (obrysový koeficient)
Novohradské statistické dny Ilustrace Dunnův koeficient (též partition coefficient), normaliz. Obrysový koeficient (pro pevné shlukování)
Novohradské statistické dny Ilustrace Data z šetření REFLEX 2006 a 2010 Kompetence dosažené a požadované zaměstnavatelem, v obou skupinách: 2006: 19 kompetencí (7 a 3bodová škála) 2010: 24 kompetencí (10 a 3bodová škála) Shlukování proměnných charakterizovaných 2006: 4 a 2 vektory faktorových zátěží 2010: 5 a 2 vektory faktorových zátěží tj. 16 datových souborů
Novohradské statistické dny Ilustrace Rok 2010 (max. počet shluků n/2 – 1 = 11) 10 úrovní 5 faktorů10 úrovní 2 faktory
Novohradské statistické dny Experimenty Generovaná data (normální rozdělení) 24 objektů, 5 proměnných Objekty z různých počtů shluků (2, 3,4, 6 a 8) Parametry rozdělení pro shluky: Střední hodnota: 10, 15 (20, 25, 30, 35, 40 a 45) Směrodatná odchylka: 1 a 2 tj. 10 datových souborů
Novohradské statistické dny Experimenty Správně 2 shluky
Novohradské statistické dny Experimenty Správně 3 shluky
Novohradské statistické dny Experimenty Správně 4 shluky
Novohradské statistické dny Experimenty Správně 6 shluků
Novohradské statistické dny Experimenty Správně 8 shluků
Novohradské statistické dny Experimenty Data REFLEX 2006 (2 faktory)
Novohradské statistické dny Závěry Kdy jsou užitečné koeficienty založené na mírách příslušnosti objektů do shluků? Při porovnání různých způsobů shlukování do stejného počtu shluků, pro stanovení počtu shluků by měl být použít též jiný typ koeficientu. Jak stanovit počet shluků v případě, kdy se shluky překrývají? Navrhnout kombinaci koeficientů pro hodnocení fuzzy a pevného shlukování.
Novohradské statistické dny Děkuji Vám za pozornost