Marketingový výzkum v praxi část 3A: od Od datové matice k závěrečné zprávě Martin Zaplatílek FOCUS, Centrum pro sociální a marketingovou analýzu zaplatilek@focus-agency.cz www.focus-agency.cz
PŘÍPRAVA DAT, ANALÝZY A ZÁVĚREČNÁ ZPRÁVA Máme: Zadání a definované cíle výzkumu Data zapsaná v datové matici Co nás čeká: Kontrola dat – kvóty, kódování variant a záznam otevřených otázek atd. Konstrukce kategorizovaných, „dummy“ a agregovaných proměnných, definování nezávislých proměnných, které budete používat v celé zprávě Volba analytických přístupů – frekvence, volba nezávislých proměnných, další analýzy (cluster analysis, rozhodovací stromy, factor analysis atp.) Vypracování osnovy zprávy Analýza a grafické zpracování výstupů Kompletace a editace výzkumné zprávy
PROCES PRÁCE S DATY V AGENTUŘE Měření / pozorování / dotazování Záznam dat / kódování Čištění dat Transformace / spojování Chybějící hodnoty / „missing value Analýza dat Závěrečná zpráva a prezentace výsledků
KONTROLA DATOVÉ MATICE Kontrola datové matice je základem pro další práci – princip „waste in, waste out“… „Pokud vaše nová data obsahují více než 30 čísel, tak je v nich skoro jistě nějaká chyba.“ (Spoustův teorém…) Čištění a příprava dat zabírá obvykle okolo 80 % analytikova času, věnuje se mu jako hlavnímu tématu méně než 1 % článků ve statistických a podobných časopisech. Čištění dat je často komplikované, nezřídka nudné a naprosto vždy zásadně důležité… Základní zásadou je přípravu dat nepodcenit a pod tlakem (termínu, zvědavosti, šéfa, klienta…) se nepustit do zpracování výstupů, dokud nemáte data připravená.
KONTROLA DATOVÉ MATICE zkontrolovat úplnost datové matice (vytřídit neúplně vyplněné dotazníky / cases – zejména případy, kde chybí kvótní znaky nebo většina proměnných) „olabelovat“ proměnné a varianty proměnných zkontrolovat, zda odpovídají variantám v dotazníku ověřit ID (čísla dotazníků, záznamy o respondentech atp. – první eliminace duplicit) ověřit duplicitní data (lze procedurou v SPSS, případně náhodná kontrola) zkontrolovat, zda jsou u všech kvótních proměnných data kompletní pokud ne, zvážit, zda je lze možno data doplnit na základě jiných vyplněných proměnných (příjem možno doplnit na základě lineární regrese - pracnost a časová náročnost; přitom např. variantu čistý měsíční příjem do jisté míry supluje např. agregovaná proměnná socioekonoický status…) zkontrolovat, zda jsou uvedeny jen platné varianty proměnné (př. zda u věku v matici 18let + nejsou 16-letí, u pohlaví 3 varianty odpovědí atd.) ověřit, zda varianty kvótních proměnných odpovídají kvótě (zda jsou stejné věkové kategorie, velikosti obce, kategorie u vzdělání) – viz dále vážení
KONTROLA DATOVÉ MATICE u volných / otevřených otázek zda odpovídají jen ti, kteří odpovídat mají (např. „varianta jiné – uveďte:“) doplnit chybějící odpovědi variantou „neodpověděl/a“ kódování a kategorizace – definovat obecnější kategorie a do nich varianty odpovědí rekódovat (např. ot 13 jiné - kategorie klid, ticho do níž sdružit varianty klidné prostředí, únik před hlukem města, oáza ticha, místo, kde mám klid na rozhovor… ) respondenti při odpovědích i tazatelé při zápisu jsou často nesnesitelně kreativní…. zkontrolovat orientaci škál v dotazníku a v datové matici pozor na dlouhodobé / longitudinální výzkumy a zásahy do dotazníků v jejich průběhu – „vylepšení“ (mírné přeformulování otázky, redukce či otočení škály…) často znásobí požadavky na práci analytika…
KONTROLA DATOVÉ MATICE první pohled na data – třídění prvního stupně pomocí frequencies si udělat základní přehled o proměnných a distribuci dat zda nejsou v některých případech uváděny extrémní hodnoty (zejm. kardinální proměnné, např. cena/ks) zda nejsou uváděny hodnoty mimo definovaný rámec („out of range“) kontrola použitých jednotek - kódování času (roky, měsíce, hodiny, minuty) kontrola vazeb mezi proměnnými – třídění druhého stupně crosstabs – vazby mezi dvěma proměnnými; odhalení nelogických odpovědí (samostatná osoba v domácnosti x počet dětí v domácnosti 3; Zlín, kraj Karlovarský; Praha, velikost obce do 4999 ….) – odhalí často chyby v kódování i „nepoctivé tazatele“ první analytický pohled – můžeme při té příležitosti najít či ověřit korelace mezi proměnnými
VÁŽENÍ DAT – postratifikační váhy Při nesouladu kvóty a dat je vhodné zvážit možnost data upravit vážením váhy vyrovnají charakteristiky vzorku s distribucí znaků v populaci vážením tedy eliminuje odchylky od kvóty v rámci datového souboru a „napravujeme“ jeho reprezentativitu vážení kompenzuje zejména non-response apod. – je to „z nouze ctnost“, nelze na něj a priori spoléhat při sběru dat a dodržování kvót… je možné/vhodné jen v případě dostatečně velkého vzorku musíme mít co vážit = v dané kategorii musí být data – u velkých odchylek od kvóty hrozí i w=3 a více, tzn. že daný případ je ve zpracování zahrnut 3x … má i další omezení – řada analýz s vahami nepracuje (rozhodovací stromy, clusterová analýza atp.)
VÁŽENÍ DAT poststratifikační váhy Vždy vážíme dle kvótních znaků a na úrovni, z níž budeme zpracovávat výstupy tzn. při výzkumu reprezentativní na populaci ČR 18 let a více a kvótách pro jednotlivé kraje = konstrukce vah pro jednotlivé kraje zvlášť Při práci se souborem musíme mít na paměti, že vážící proměnná musí být zapnuta („weight on“ v dolním stavovém řádku) váha = očekávaný podíl / zjištěný podíl př. máme-li 25 % žen a v populaci jich má být 50 %, bude váha 50/25 = 2,0 (strata jsou dána pohlavím) agregovaná váha – pro daný případ na základě dílčích vah pro jednotlivé kvótní znaky (w1 – pohlaví, w2 – věk, w3 – vzdělání, w4 – velikost obce) w = w1*w2*w3*w4
VÁŽENÍ DAT w = w1*w2*w3*w4 KONSTRUKCE VAH KVÓTNÍ ZNAKY V DATECH KVÓTA Rel. četnosti obyvatelstva 18+ podle krajů. Praha Doporučený počet tazatelů: N= 160 Taz.= 11 Vzdělání % n základní 11,39% 18 vyučen 30,08% 48 maturita 34,81% 56 VŠ 22,19% 35 celkem 98,46% 158 157,5423 Sex muži 47,41% 76 ženy 52,59% 84 100,00% Věk 18 - 24 12,07% 19 25 - 34 17,99% 29 35 - 44 15,75% 25 45 - 54 20,17% 32 55 - 64 14,51% 23 65 + 19,51% 31 ČESKÁ REPUBLIKA - uprava pro jednotlivé kraje Praha VZOREK 160 očekávané dosažené počet % STARÉ váha W1 POHLAVÍ 100,0 131 muži 76 47,41 63 1,20 ženy 84 52,59 68 1,24 W2 VĚK 18 - 24 let 19 12,07 15 1,29 25 - 34 let 29 17,99 25 1,15 35 - 44 let 15,75 22 45 - 54 let 32 20,17 26 55 - 64 let 23 14,51 1,22 65 a více let 31 19,51 24 1,30 W3 VZDĚLÁNÍ základné 18 11,39 bez maturity 50 31,00 41 1,21 s maturitou 57 35,42 46 1,23 vysokoškolské 35 22,19 W4 VELIKOST OBCE 134 do 4 999 #DIV/0! 5 000 - 19 999 20 000 - 99 999 0,0 100 000 + 100 1,19 KVÓTNÍ ZNAKY V DATECH kraj = Praha Count pohlaví muž 63 žena 68 věk 18-24 15 25-34 25 35-44 22 45-54 26 55-64 19 65+ 24 vzdělání základní sš bez maturity 41 sš s maturitou 46 vysokoškolské 29 velikost obce do 4999 5000-19999 20000-99999 100000+ 131 kraj Praha KVÓTA
VÁŽENÍ DAT w = w1*w2*w3*w4 WEIGHT CASES BY … SYNTAX compute w1=1. execute. if (pohlavi=1) w1=1.02. if (pohlavi=2) w1=1.09. if (vek=1) w2=1.01. if (vek=2) w2=1.06. if (vek=3) w2=1.02. if (vek=4) w2=1.01. if (vek=5) w2=0.92. if (vek=6) w2=1.18. if (vzdelani=1) w3=1.08. if (vzdelani=2) w3=1.03. if (vzdelani=3) w3=1.07. if (vzdelani=4) w3=0.99. if (velobce=1) w4=1.08. if (velobce=2) w4=1.55. if (velobce=3) w4=0.84. if (velobce=4) w4=0.99. compute w=w1*w2*w3*w4. weigh by w. FREQUENCIES VARIABLES=kraj pohlavi vek vzdelani velobce /ORDER= ANALYSIS
POMOCNÉ A AGREGOVANÉ PROMĚNNÉ Při zpracování zprávy si zřídkakdy vystačíme s proměnnými, které máme ve výchozí datové matici při zpracování často využijeme kategorizované proměnné s menším počtem variant zejména u třídících / nezávislých proměnných používaných při analýze jako univerzální třídící znaky v celé zprávě při kategorizaci zvažujme praktičnost vs hrozící ztrátu informací a detailů př. věk – z kardinální proměnné věk v letech vytvoříme ordinální s kategoriemi věk 18-25let, 26-35let atd.; obdobně u např. frekvence návštěv restaurací, délky pobytu v Olomouci týdně apod. (viz dotazník vašeho projektu) proměnné typu dummy využijeme pro rychlé rozdělení souboru - případy, kdy daný znak je / není přítomen; například nová proměnná „obed“ s variantami „obědvá pravidelně“, „neobědvá pravidelně“
POMOCNÉ A AGREGOVANÉ PROMĚNNÉ agregované proměnné – nově vytvořená proměnná za základě specifických kritérií a hodnot několika jiných proměnných příklady: socioekonomický status – stratifikuje respondenty podle délky vzdělání, pozice v zaměstnání a vybavení domácnosti segmenty – typologie respondentů na základě distinktivních znaků, které je spojují, resp. rozdělují nejčastěji na základě behaviorálních znaků (spotřebitelské chování a zvyklosti), mediálního chování (vnímání jednotlivých typů médií) a psychografie (sebepercepce , souhlas s výroky atp.)
ZPRÁVA Z VÝZKUMU Prvním krokem je zpracování osnovy pořadí otázek v dotazníku není zavazující pro zpracování zprávy pořadí otázek je dáno dramaturgií dotazníku, která má jiné priority než závěrečná zpráva na základě zadání / projektu stanovíme obsah a pořadí kapitol, následně vytvoříme podkapitoly s přiřazením otázek z dotazníku, které se ke kapitole váží hlavní zásadou je nevynechat v analýze některou z proměnných… přesto se vám to určitě dříve či později stane počítejte vždy s čtenářem jako naprostým laikem, v lepším případě poučeným laikem… na úvod zprávy jej seznamte s cíli výzkumu, metodou sběru a zpracování dat, případně i používanou terminologií u pokročilejších analýz alespoň stručně objasněte, jak pracují a čeho jejich použitím chcete dosáhnout
ZPRÁVA Z VÝZKUMU TITULNÍ STRANA měla by odpovídat corporate identity (tzn. vizuálně být navázána na firemní grafiku) – logo, logotyp, použité fonty jednoznačně referovat o obsahu zprávy – název, specifikace typu výzkumu, datum zpracování název a logo klienta přehledná, jednoduchá, srozumitelná, distinktivní téma i zpracovatel zprávy by měli být jasní na první pohled…
ZPRÁVA Z VÝZKUMU OBSAH METODA VÝZKUMU přehledný a detailní popis použitých metod na jakou skupinu výsledky vztahujeme (cílová populace) specifikace výběrového souboru a způsob výběru metodika sběru dat popis kontroly sběru dat „záruka věrohodnosti výsledků“ je vhodné doplnit údaj o intervalu spolehlivosti známe-li velikost cílové populace http://www.surveysystem.com/sscalc.htm
ZPRÁVA Z VÝZKUMU CÍLE VÝZKUMU HLAVNÍ ZÁVĚRY stručné shrnutí hlavních cílů na základě projektu výzkumu HLAVNÍ ZÁVĚRY shrnutí nejdůležitějších výsledků z analýzy provázání poznatků z dílčích kapitol doporučení pro klienta pro účely další publikace je možné je psát stylem tiskové zprávy; tzn. vyhnout se čast. použ. zkr. apod., podíly psát slovně spíše než % text je celistvý, lépe se čte, detailní informace nalezne čtenář na úvodu jednotlivých kapitol
ZPRÁVA Z VÝZKUMU PROFIL VÝBĚROVÉHO SOUBORU $$ prezentuje rozložení dat v rámci kvótních proměnných v grafu pro ilustraci dodržení kvóty můžeme zobrazit rozložení znaku v cílové populaci je vhodné jej doplnit i o další nezávislé proměnné, které budou ve zprávě používány $$ POZN. POPISKY U GRAFŮ jednoznačně specifikovat zda jde o %, průměry či absolutní četnosti specifikovat cílovou populaci, k níž se graf vztahuje včetně počtu respondentů, kteří na otázku odpovídali v případě bar chart grafů možno vedle každého sloupce vypsat počet respondentů v dané kategorii, kteří byli do grafu zahrnuti graf musí být srozumitelný a jasný bez dalších poznámek, doplnění a vysvětlení (oceníte při zpracování prezentace)
ZPRÁVA Z VÝZKUMU ZÁKLADNÍ OBECNÁ DOPORUČENÍ PRO TVORBU ZPRÁVY od obecného k detailnímu vždy začít s tématy (otázkami), ke kterým se vyjadřovali všichni respondenti detailní výstupy zobrazit v rámci zvolených nezávislých proměnných (zejména tedy sociodemografické charakteristiky respondentů + další vybrané nezávislé proměnné) zaměřit se na rozdíly ve výsledcích pro jednotlivé varianty nezávislých proměnných a interpretovat je; ověřit statistickou významnost zaznamenaných rozdílů nástroj AnswerTree v SPSS – třídění závislé proměnné na základě statistické významnosti vztahů s nezávislými proměnnými (procedura CHAID) v případě nedostatku času vždy posuzovat alespoň rozdíly na základě velikosti vzorku v podkategorii a ve výstupech upozornit / být opatrní při interpretaci (př. v rámci celku (N = 1000) preferuje výrobek 36 % dotázaných, mezi trojgeneračními domácnostmi 65 % - počet respondentů je však jen 22 …)
ZPRÁVA Z VÝZKUMU ZÁKLADNÍ OBECNÁ DOPORUČENÍ PRO TVORBU ZPRÁVY od podstatného k méně podstatnému pohlížejte na zprávu očima zadavatele výzkumu co je pro něj podstatné, o co bude mít při čtení zprávy největší zájem - podpořená a spontánní znalost značky XY , zaznamenání reklamy, zkušenost s výrobkem, hodnocení značky a konkurence… nebo spíše profil zákazníků, potencionálně oslovitelných spotřebitelů… nebo velikost populace s vyšší afinitou k některým výrobkům text sdružujte do větších logických celků pro orientaci ve výsledcích a celkový přehled o zjištěních z výzkumu je lepší interpretovat grafy a tabulky na úvod kapitoly než přímo u jednotlivých grafů preferujte zobrazení grafy před tabulkami grafy umožní rychlejší orientaci ve výsledcích; tabulky jsou vhodnější dát do přílohy v excelových listech k metodám zobrazení více viz Hendl „Přehled statistických metod…“, kap. 3.1
ZPRÁVA Z VÝZKUMU VOLBA NEZÁVISLÝCH PROMĚNNÝCH (TŘÍDÍCÍCH ZNAKŮ) v případě vašeho výzkumu omezení malým vzorkem (N = 100) demografické charakteristiky (pohlaví, věk) délka pobytu v Olomouc týdně kategorizovat např. na tři kategorie „1 den/týdně“; „2-4 dny/týdně“; „více dnů v týdnu“ další? kuřák /nekuřák? lze očekávat, že (ne)kuřáci budou preferovat odlišné typy restaurací a kaváren, rovněž jejich spokojenost s nabídkou (ne)kuřáckých restaurací se bude lišit kategorizace q20 – konzumace v restauraci ? např. „častý/á konzument/ka alkoholu“, „častý/á konzument/ka nealko nápojů“, „ častý/á konzument/ka kávy / čaje“ lze očekávat, že tyto skupiny spotřebitelů budou mít odlišné preference, jinou frekvenci návštěv restaurací –
ZPRÁVA Z VÝZKUMU VOLBA NEZÁVISLÝCH PROMĚNNÝCH (TŘÍDÍCÍCH ZNAKŮ) studijní charakteristiky (fakulta, ročník)? zvážit na základě dat, zda se stravovací návyky a preference liší mezi studenty různých fakult bude v jednotlivých kategoriích proměnných dostatečný počet respondentů? totéž u ročníku – opravdu se liší? a pokud ano, je to v rámci jednotlivých ročníků a nebo se liší „prváci“ (neznají město, mají jiný životní styl ovlivněný místem, kde dosud bydleli apod.) od zbytku? a nebo je to úplně jinak…?
ZPRÁVA Z VÝZKUMU NÁVRH OSNOVY (nezávazný, hrubý náčrt pro inspiraci…) NÁZEV VÝZKUMU: ………………….. CÍLE VÝZKUMU METODA VÝZKUMU HLAVNÍ ZÁVĚRY PROFIL VÝBĚROVÉHO SOUBORU STRAVOVACÍ ZVYKLOSTI STUDENTŮ OLOMOUCKÝCH VŠ Preferovaný typ stravy Snídaně Obědy Večeře PREFERENCE PŘI NÁVŠTĚVE RESTAURACÍ A KAVÁREN Konzumace jednotlivých typů nápojů frekvence konzumace, oblíbená značka piva Cenová citlivost (promyslet, zahrnout i výstup „obvykle vydaná cena - večeře…)“ vs „ochota vydat za večeři v restauraci“) menu nápoje OBLÍBENÝ PODNIK A HODNOCENÍ AKTUÁLNÍ NABÍDKY STRAVOVACÍCH ZAŘÍZENÍ HODNOCENÍ ZÁMĚRU NOVÉ RESTAURACE A JEJÍCH CHARAKTERISTIK
ZPRÁVA Z VÝZKUMU STRUKTURACE VÝSTUPŮ shrnutí na úvod kapitoly zahrnuje interpretaci všech následujících grafů a vybraných výstupů pro třídění druhého stupně (tedy výstupy v rámci třídění podle nezávislých proměnných pohlaví, věk, ?,?,?) graf z výstupu pro celou zkoumanou populaci koláčový graf v případě proměnné s jednou možností odpovědi
ZPRÁVA Z VÝZKUMU STRUKTURACE VÝSTUPŮ sloupcový u „multiple response“ (např. q13) nebo proměnných s velkým počte variant, případně chceme-li zdůraznit pořadí a odstup jednotlivých variant slopucový graf v případě baterie výroků s hodnocením na škále
ZPRÁVA Z VÝZKUMU STRUKTURACE VÝSTUPŮ spojnicový graf u kardinálních a ordinálních znaků – vhodný pro zobrazení cenové citlivosti atp.
ZPRÁVA Z VÝZKUMU STRUKTURACE VÝSTUPŮ graf s výstupy na základě třídění dle nezávislých proměnných řádková % pro každou nezávislou proměnnou v případě baterie výroků s hodnocením na škále je vhodné zobrazení průměrů v každé kategorii nezávislé proměnné tedy rozdíly dle věku, pohlaví atd. pozor na var. „neví“ – označována kódy 9 či 99; nezahrnout do výpočtu průměrů! (klasická chyba…)
ZPRÁVA Z VÝZKUMU STRUKTURACE VÝSTUPŮ graf s výstupy na základě třídění dle nezávislých proměnných možnost použít AnswerTree – procedura CHAID; rozděluje soubor podle odpovědí na otázku dle statisticky významných rozdílů v rámci nezávislých proměnných zobrazí jen statisticky významné rozdíly SPSS nabídka: Analyze/Classify/Tree logo
LITERATURA HENDL, J., 2006: Přehled statistických metod zpracování dat, Portál; kap. 2, 3, 15 BÁRTOVÁ, H., BÁRTA, V., KOUDELKA, J. . 2004: Chování spotřebitele a výzkum trhu. 2. přepr. vyd. Praha : VŠ DISMAN, M, 1993: Jak se vyrábí sociologická znalost, Karolinum, Praha PŘIBOVÁ, M., 1998: Analýza konkurence a trhu, Grada KOUDELKA, J., 2005: Segmentujeme spotřební trhy, Professional Publishing KALKA, J., ALLGAYER, F., 2008: Marketing podle cílových skupin, Computer Press AJAN S GAUR, SANJAYA S GAUR, 2005: Statistical Methods for Practice and Research, SAGE HAUGE, P., 2003: Průzkum trhu, Computer Press (kap. 12 a 13) SILVERMAN, D., 2005: Ako robiť kvalitatívny výskum, 2005 (kap. 10 – 21) DENZIN, N.K., LINCOLN, Y., 2005: Handbook of Qualitative Research, SAGE MEDIA GURU, Mediální slovník, http://www.mediaguru.cz/medialni-slovnik.html (leden ´10) ŘEZANKOVÁ, H, MAREK, L, VRABEC, M., 2000: IASTAT - Internetová učebnice statistiky http://iastat.vse.cz/ (leden ´10) STATSOFT: Elektronická učebnice statistiky http://www.statistica.cz/podpora/elektronicka-ucebnice-statistiky/ (leden ´10) SAMPLE SIZE CALCULATOR, http://www.surveysystem.com/sscalc.htm (leden ´10)
TÝMOVÁ PRÁCE V NÁSLEDUJÍCÍCH DNECH
Práce v týmech Zkontrolujte si datovou matici Zkontrolujte, zda data odpovídají kvótě Připravte si proměnné k analýze Vytvořte si osnovu zprávy a promyslete postup zpracování Rozdělte si práci na zprávě Vytvořte závěrečnou zprávu z připravených dat v PowerPointu DO PÁTKU 7.5.2010 a odešlete ji na adresu zaplatilek@focus-agency.cz
Co nás čeká příště? Další setkání: 11.5.2010 S dotazy a připomínkami se obracejte na adresu: zaplatilek@focus-agency.cz. Na dalším setkání se budeme věnovat hodnocení vašich zpráv a zaměříme se na zpracování prezentace.
POMŮCKA PRO PRVNÍ KONTAKT S SPSS více viz uživatelská příručka SPSS (odkaz v sekci „užitečné odkazy – SPSS“)
OTEVŘENÍ DATOVÉHO SOUBORU
VYTVOŘENÍ NOVÉ KATEGORIZOVANÉ PROMĚNNÉ
VYTVOŘENÍ PROMĚNNÉ PRO MULTIPLE RESPONSE
UŽITEČNÉ ODKAZY - SPSS www.spsstools.net www.spss.cz http://diplodocs.cz/annexe_BASE%20USERS%20GUIDE_SPSS_SPSS%2013-_E.htm – uživatelská příručka SPSS 13
Na viděnou! Martin ZAPLATÍLEK FOCUS, Centrum pro sociální a marketingovou analýzu zaplatilek@focus-agency.cz www.focus-agency.cz