Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA Doktorandský seminář Katedry sociologie FF UK 28. listopadu 2012, Sociologický ústav AV ČR Český sociálněvědní datový archiv Sociologického ústavu AV ČR, v.v.i. Jilská 1, Praha 1, Česká republika;
SDÍLENÍ DAT DATA A KONCEPCE VÝZKUMU MANAGEMENT DAT V PRŮBĚHU ŘEŠENÍ PROJEKTU
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 3 Literatura Humprey, Ch e-Science and the Life Cycle of Research. ICPSR Guide to Social Science Data Preparation and Archiving. Best Practice Throughout the Data Life Cycle. 5-th Edition. Ann Arbor:ICPSR Eynden, V., L. Corti, M. Woolard, L. Bishop, L. Horton Managing and Sharing Data. Colchester: UK Data Archive (UKDA). archive.ac.uk/media/2894/managingsharing.pdfhttp:// archive.ac.uk/media/2894/managingsharing.pdf Sekce Management dat na Webu ČSDA Sekce Sharing data na Webu CESSDA
Krejčí, J., Y. Leontiyeva (eds.) Praha: SLON (v tisku). ► I. MANAGEMENT DAT VE VÝZKUMNÉM PROJEKTU A ARCHIVACE DAT Koncepce správy dat a výzkumný projekt (Krejčí) Založení a správa datového souboru v průběhu výzkumného projektu (Krejčí) Standardy dokumentace a archivace dat (Krejčí a Vávra) Sociálněvědní datové archivy: jejich úloha, služby a nástroje (Vávra a Čížek) Standardizace proměnných v sociálněvědním výzkumu (Vávra a Leontiyeva) Mezinárodní klasifikace vzdělání a problémy při aplikaci (Soukup) Měření sociálního statusu a sociálních tříd na základě povolání (Šafr a Holý) ► II. ZDROJE DAT PRO SOCIÁLNĚVĚDNÍ VÝZKUM Mezinárodní sociálněvědní komparativní výzkum a ČR (Krejčí, Chylíková) Datová základna české sociologie (Čížek) Data z výzkumů volebního chování v České republice (Lyons) Data z komparativních politologických šetření (Lyons) Šetření ČSÚ a statistiky trhu práce (Mysíková) Přehled výzkumů o rodině (Hamplová) Mezinárodní výzkumy v oblasti vzdělávání (Soukup) Statistiky a výzkumy imigrantů aneb Jak srovnávat nesrovnatelné (Leontiyeva, Chytil) Výzkumy věnující se podobám religiozity v České republice po roce 1989 (Váně) Výzkum kriminality (Podaná)
Coming soon Lyons, P Theory, Data and Analysis. Data Resources for the Study of Politics in the Czech Republic. Praha: SOÚ. (In Print) ► Theories of Political Attitudes and Public Opinion ► Origins and Nature of Political Attitude Surveying ► Election Survey Research ► Comparative Survey Research ► Elite Survey Research ► Expert and Manifesto Data Research ► Interpretation of Political Survey Data ► Conceptualising Survey Data and Interpretation of Questionnaire Responses
SDÍLENÍ DAT
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 7 Data nejnižší úroveň abstrakce, z níž je odvozeno poznání mnoho druhů dat (různé terminologie) pouze digitální data / digitální i analogová data a materiály pořízeny za účelem analýzy k vytváření a validizaci původních výzkumných výsledků ► v určitém kontextu data, v jiném to nejsou data účely využití se mohou v průběhu života dat měnit primární data vs. odvozená data (různé chápání - datové matice, kódování inerview jako sekundární) ; primární vs. sekundární analýza
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 8 Sdílení dat dopad na proměnu výzkumného prostředí velké množství dat nové typy dat snadná dostupnost přes internet význam sekundární analýzy význam spolupráce ve výzkumu sdílení dat management dat ► při přípravě a vytváření databáze je třeba počítat se zveřejněním, sdílením a sekundární analýzou
Snímek 9 Formální rámec sdílení dat
Snímek 10 Otevřený přístup k výzkumným datům “otevřenost znamená přístup za rovných podmínek pro mezinárodní vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující mezní náklady distribuce. Otevřený přístup k výzkumným datům z veřejného financování by měl být snadný, časově nenáročný, uživatelsky přívětivý a nejlépe založený na Internetu.” (OECD Principles and Guidelines for Access to Research Data pouze výzkumná data vzniklá z veřejných fondů za účelem veřejně přístupného vědeckého výzkumu omezení ► ochrana soukromí osob a osobních údajů ► ochrana obchodních tajemství a duševního vlastnictví ► zajištění národní bezpečnosti ► ochrana ohrožených druhů ► nenarušení právních jednání (sub judice) ošetření autorských práv technické bariéry - chybějící infrastruktura...
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 11 Koncept - cyklus života dat
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 12 ICPSR - fáze managementu dat Zdroj: ICPSR 2009
DATA A KONCEPCE VÝZKUMU
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 14 Data management a projekt výzkumu využití existujících databází pro sekundární analýzu příprava vlastních výzkumných nástrojů ► dotazníky z dokumentace dat ► využití existujících dat při ověřování zajištění formálních a legálních předpokladů pořízení dat a práce s daty design správy dat; pořádek -> usnadnění analýzy, předcházení chybám
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 15 Review datových zdrojů při psaní projektu Existují data, která mohou odpovědět na naše výzkumné otázky? Je možné srovnání s existujícími daty? Pokud ano, jsou tato data dostupná a za jakých podmínek? Jsou tato data dostatečně srozumitelná, komplementární a kvalitní? Jaká data pro zodpovězení našich otázek postrádáme? Pokud jsou dostupná srovnatelná data, je potřeba záměry srovnávání zohlednit v našich metodikách? Byly již dříve realizovány podobné výzkumné záměry či metodické postupy nebo využity relevantní výzkumné nástroje? Pokud ano, je k nim dostupná nějaká dokumentace? Je možné tuto dokumentaci využít při koncipování našeho výzkumu?
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 16 Etika etické kodexy a normy (např. WAPOR, ESOMAR, ISO 20252: ) ► respondenty je třeba chránit před škodlivými dopady výzkumu i po skončení terénu - tj. při archivaci, zpřístupnění a sekundárním používání dat - informace individuálního charakteru jsou důvěrné; zvláště citlivé údaje ► respondenti jsou svéprávní, mají právo znát účel a způsob využití jimi poskytnutých informací a rozhodovat o možnostech jejich využití - tato rozhodnutí je pak nezbytné respektovat. ► vždy je třeba zajistit adekvátní využití získaných informací v souladu se stanoveným účelem - proto, aby úsilí respondentů nevyšlo vniveč; data pořízená z veřejných zdrojů je třeba maximální využít (-> sdílení dat)
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 17 Ochrana osobních údajů Zákon č. 101/2000 Sb. ► přímé, nepřímé identifikace ► osobní údaje, citlivé údaje ► informovaný souhlas respondenta ► registrace u Úřadu na ochranu osobních údajů projekt výzkumu ► bude potřeba informovaný souhlas respondentů? pokud ano, v jakém rozsahu? ► budeme data anonymizovat? Úřad pro ochranu osobních údajů (ÚOOÚ), MEDARD,
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 18 Informovaný souhlas respondenta participace dobrovolně a se znalostí a bez nepříznivých důsledků podrobné informace, jednoznačné k čemu se souhlas váže na základě přímého jednání ze zákona: v jakém rozsahu je poskytován komu a k jakému účelu na jaké období kdo jej poskytuje šetření: účel výzkumu co participace představuje k čemu je to dobré, jaká jsou rizika možnost odmítnout specifikace použití dat způsob zajištění důvěrnosti uchování dat kdo, jak a do kdy bude mít přístup k datům
Snímek 19 Autorská práva ochrana duševního vlastnictví (IPR) Zákon 121/2000 Sb. databáze ► uspořádání, způsob výběru... - autorské dílo souborné ► už v době vzniku (nemusí být označeno (c)) ► ochrana před ztrátou příjmu a morální újmou způsobenou neautorizovaným šířením ► ochraně podléhá dílo, nikoliv fakta v něm uvedená ► např. u hloubkového rozhovoru je držitelem práv na záznam výzkumník, ale k jednotlivým výrokům informant -> svolení ► práva jsou osobnostní - nepřenosná (právo osobovat si autorství, změny, dohled nad plněním povinností ) a majetková (rozmnožování, zveřejňování, vystavování, půjčování, zpřístupnění) ► postoupení licenční smlouvou (užití omezené/neomezené, jednotlivé/veškeré, výhradní/nevýhradní)
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 20...autorská práva ► lze citovat výňatky nebo celá drobná díla v odůvodněné míře pro účely kritiky, recenze, vědecké či odborné práce ► lze využít pro výukové, ilustrační účely (uvádět autora, název a pramen) ► držiteli autorských práv jsou všichni spoluautoři - tedy členové výzkumného týmu, nikoliv pouze hlavní řešitel projektu nikoliv pouze učitel, ale také všichni studenti (ale škola má právo na uzavření licenční smlouvy o užití školního díla) ► porady, technické a administr. či pomocné práce nevedou k autorství ► činnosti dané pracovní smlouvou => zaměstnavatel vykonává svým jménem autorova majetková práva k dílu ► studenti nejsou zaměstnanci univerzity, tj. majetková práva kompletně na univerzitu nepřecházejí ► akademické instituce majetková práva někdy přenechávají svým zaměstnancům ► licence typu Creative Commons (tvůrčí společenství)Creative Commons
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 21 Plán managementu dat systematický plán, jak budou data vytvořena a jak s nimi bude zacházeno během výzkumu (které kroky je třeba realizovat v jednotlivých fázích) i po jeho skončení ujasnění východisek výzkumu formalizovaný dokument pro grantovou agenturu vzory dostupné na Webu
Rozpočet projektu - co nezapomenout získání informovaného souhlasu anonymizace zabezpečení a přístup k datům digitalizace, transkripce (např. přepis rozhovorů) formátování a správa souborů popis dat a kódování čištění popis kontextu dat dokumentace (zjišťování dokumentace v průběhu procesu nebo dodatečně) metadata (vytváření popisu - dokumentace k datům) formáty souborů (náklady konverze audiovizuálních dat atp.) plánování, rozdělení rolí a odpovědnosti (spolupráce více institucí atp.) operacionalizace (plánování a implementace datového managementu) viz též UKDA/JISC Costing Tool:
MANAGEMENT DAT V PRŮBĚHU ŘEŠENÍ PROJEKTU
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 24 Cíle managementu dat integrita dat, kvalita dat - přesnost a správnost výzkumu srozumitelnost pro všechny potenciální uživatele efektivita výzkumné práce - čas a náklady autenticita dat - možnost replikace, opravy analýz zajištění legálních a formálních předpokladů výzkumu zabezpečení a zachování dat zpřístupnění dat
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 25 Pojmenování datových souborů systematicky, krátké názvy odkazující na obsah a/nebo vznik rozlišení sérií, verzí a edicí (viz dále) konzistentní formát nezávislost jména na lokaci a software ► nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy)... ► scalability (rozsah kódu odpovídá počtu verzí, y2k problem...) když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.: ► Ant Renamer ( ► RenameIT ( ► Bulk Rename Utility (
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 26 Struktura datového souboru flat file - obdélníkový datový soubor, datová matice hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností) relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)
Příklad: SHARE
Who answers what in the CAPI questionnaire? mergeid - unique identifier for all waves. “CC-hhhhhh-rr”, “CC” = country code, “hhhhhh”= household identifier, “rr” = respondent identifier within each household hhid identifies the household to which a person belonged when entering the panel hhidW identifies the household, where “W” refers to the specific wave
Snímek 29 Proměnné variable names, varible labels řazení a označení dotváří strukturu souboru ► vzájemné vztahy mezi proměnnými ► návaznost na další prvky výzkumu (různé zdroje dat, návaznost na dotazník, jiné soubory atp.) ► pomocné proměnné pro organizaci a správu souboru variable names = volací znaky v software (nezačínat číslem, 8 míst...) => převoditelnost formátu dat přehlednost prezentace dat systémy značení ► číselný kód (V001, V002...) ► kód odkazující na výzkumný nástroj (Q1a, Q1b... ► mnemotechnická jména (BIRTH, EDUC...) variable labels ► srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...), délka, diakritika formát proměnné (typ proměnné, počet znaků) ► možnosti analýzy, velikost souboru
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 31 Hodnoty proměnných naměřené hodnoty / odpovědi / audio / video / vzorky... numerické kódování - ve všech stat. softwarech => převoditelnost někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.) ► příklad ISCO (Harry Ganzeboom) kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech standardizace dokumentace, značení (value labels) kódování - samostatný proces u složitějších úloh
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 32 Doporučení ke kódování Identifikační proměnné na začátku záznamů - jednoznačnost Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd. Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma Přebírání kódovacích struktur z jiných šetření - standardizace
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 33
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 34 Chybějící hodnoty Žádná odpověď (No Answer, NA) Odmítnutí (Refusal) Neví (Do not Know, DK) Chyba zpracování (Processing Error) Nehodí se (Not Applicable/Inapplicable, NAP, INAP) Chybí přiřazená hodnota (No Match) Chybí údaj jednotný systém kódování
Snímek 35 ESS 4
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 36
Snímek 37 Zajištění integrity vkládání dat - programování software (data-entry, CATI/CAPI) vývoj technologií a změny koncepce designu doporučení ► nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy ► méně kroků - redukce možností vzniku chyb ► specializovaný software umožňuje nastavit platné hodnoty a filtry ► dvojí vkládání a srovnání výsledků. ► provést kontrolu úplnosti záznamů. ► provést logickou kontrolu a kontrolu konzistence dat, např.: kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný), kontrola nejnižších a nejvyšších hodnot a extrémů, kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk), srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.). ► řadu kontrol lze provádět automaticky za pomoci počítače ► určité procento, např %, by mělo projít podrobnou hlubší kontrolou ► změny by měly být dokumentovány a původní data obnovitelná
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 38 Anonymizace ochrana osobních údajů odstranění přímých identifikací - anonymní kódy malé skupiny, nepřímé identifikace ► odstranění ► agregace údajů, redukce podrobnosti geografické a časové informace ► ošetření extrémních hodnot
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 39 Vážení Jsou v souboru váhy? Mám je použít? ► typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!) ► jaký je výsledek s váhou a bez váhy? Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi) Kombinované, celkové váhy
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 40
Snímek 41
Snímek 42 Dokumentace metadata porozumění - interpretace ► výzkumný tým ► ostatní výzkumníci pravidla, standardy ► ESOMAR, WAPOR/AAPOR... elementy dokumentace předem, protože pořízení podkladů v průběhu celého výzkumu formát dokumentace ► výzkumné nástroje, codebook, syntax, technická/metodologická zpráva, protokol o experimentu, popis transformací, schéma databáze ► mezinárodní standard DDI - standardizovaná struktura, XML formát tři základní úrovně ► projekt ► databáze ► proměnné a případy
43 Informace o projektu původ datového souboru ► název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...) ► institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...) ► abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty popis a metody sběru dat ► popis všech zdrojů, z nichž jsou data získána ► časové vymezení sběru dat ► časové a geografické pokrytí ► cílová populace ► jednotky pozorování ► popis výběrového designu včetně opory ► metody sběru dat ► původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.) ► použitá klasifikační schémata a koncepty ► návratnost a další vyhodnocení (např. známé odchylky od populace) ► identifikace změn metodiky u časových sérií a longitudiálních výzkumů
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 44 Informace o databázi popis datových souborů ► specifikace verze a edice souboru (pokud jich je víc) ► struktura souborů ► specifikace vztahů a propojení ► informace o rozsahu (počet záznamů a proměnných) ► informace o formátech a kompatibilitě. editace a modifikace dat ► metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.) ► anonymizace ► transformace a konstrukce odvozených proměnných ► vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce)
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 45...informace o databázi přístup k datům ► vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů katalogizační a citační informace ► bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje odkazy na související materiály a zdroje, pokud je to relevantní
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 46 Informace o proměnných a případech informace o proměnných v souboru ► jména proměnných ► označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných ► k dispozici by mělo být přesné původní znění otázky ► frekvence, základní třídění apod. (?) informace o případech v souboru ► specifikace případů, pokud je to relevantní
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 47 Verze a edice databáze správa dat, analýzy => více verzí a edicí => strategie jejich správy ► jednoznačná identifikace verzí a edicí, přehled o rozdílech ► zajištění autenticity (zabránit neautorizovaným zásahům) doporučení ► stanovit podmínky používání dat a seznámit s nimi uživatele ► rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců ► zavést jednoznačné a systematické značení verzí a edicí datového souboru ► vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích ► dokumentovat provedené změny ► zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax) ► stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět ► pokud je více kopií stejné verze, kontrolovat jejich shodnost
Krejčí: Úvod do managementu dat; listopad 2012 Snímek 48 Zálohování, formáty a média proces - pravidelné zálohování a obnova ► digitální média z principu nespolehlivá ► software, instituce atd. procházejí změnami + další rizika kratší čas - operabilita ► formáty navázané na kokrétní software, ale lépe jejich transportní verze (SPSS: *.por) ► diakritika => kódování znaků (UTF 8) delší čas ► jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace ► PDF/A (archivační verze PDF definovaná ISO) média ► nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození ► nejméně dvě různé formy archivace ► pravidelné přehrávání na nová média
Snímek 49 Děkuji za pozornost a prosím o Vaše otázky