Management dat: založení a správa datového souboru Jindřich Krejčí Management sociálních dat a datové archivy Kurz ISS FSV UK.

Slides:



Advertisements
Podobné prezentace
Typy otázek v dotazníku
Advertisements

Cíle a postupy empirického výzkumu
METODY A TECHNIKY VÝZKUMU
Analýza kvantitativních dat I./II. Typy dat Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 26/2/2012 UK FHS Historická sociologie, Řízení a supervize.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Sociologie – metody a techniky sociologického výzkumu
Co má obsahovat prezentace
Reprezentativita: chyba pokrytí populace (coverage error) Jindřich Krejčí Management sociálních dat a datové archivy Kurz ISS FSV UK.
Databáze Jiří Kalousek.
ISS Úvodní informace o kurzu Sekundární analýza Management sociálních dat a datové archivy Jindřich Krejčí.
Etapy práce na sociologickém výzkumu. 2 I. Formulace problému II. Rozhodnutí o populaci a vzorku III. Pilotní studie IV. Rozhodnutí o technice sběru dat.
Výukový materiál zpracován v rámci projektu EU peníze školám
Standardy kvality SIMAR – sdružení agentur pro výzkum trhu a veřejného mínění Po vzoru ESOMAR –European Society for Opinion and Marketing Research (založen.
Bakalářský seminář Úvod BP Závěr BP.
Verze Modul OCENĚNÍ DaMaSk
Mgr. Alena Lukáčová, Ph.D., Dr. Ján Šugár, CSc.
Teorie psychodiagnostiky a psychometrie
Varianty výzkumu Kroky výzkumu Výběrový soubor
Analýza kvantitativních dat I.
Analýza dat.
Kvantitativní metody výzkumu v praxi (KMVP) 0. Poučení z minulých ročníků a novinky od ZS 2013 (2011) poslední aktualizace Jiří Šafr jiri.safr(at)seznam.cz.
Úvod do m anagementu dat Jindřich Krejčí Sociologický ústav AV ČR, ČSDA Doktorandský seminář Katedry sociologie FF UK 28. listopadu.
Auditorské postupy Činnosti před uzavřením smlouvy
Sociologický výzkum.
PROJEKT R E G M E T TEMPLATE DOPORUČENÍ PRO SPRÁVNOU LEGISLATIVNÍ PRAXI Z HLEDISKA METROLOGIE.
Relační databáze.
zpracování dat pomocí atlas.tI
1 © Mediaresearch, a.s., 2008 NetMonitor a AdMonitoring Výsledky za říjen 2008.
Srovnání standardů CEN, FGDC a ISO pro metadata Ing. Jan Růžička Institut ekonomiky a systémů řízení, odd.GIS VŠB-TU Ostrava, HGF tř. 17.listopadu
Dokumentace informačního systému
Zásady experimentální práce (především v biologii)
Úvod: Vytvoření datové matice a pořízení dat Výzkum TV & knihy Jiří Šafr FHS UK, HiSo a ŘS Analýza kvantitativních dat AKD I. (II.) / Praktikum LS 2011,
ISS Chybějící hodnoty, standardizace Semináře ke kurzu Analytické metody výzkumu Jindřich Krejčí.
Realizační tým ICZ duben 2005
NÁRODNÍ DIGITÁLNÍ ARCHIV
DKV část 31 Design kvantitativního výzkumu 4. část ( ) Jiří Šafr UK FHS Historická sociologie (LS 2010)
Databázové modelování
B i o c y b e r n e t i c s G r o u p Vztah výpočetní techniky a biomedicíny  počítač - nástroj pro vývoj nových přístrojů  počítač - součást přístrojových.
1 Tisková konference Newton House, Praha, Prezentace výsledků projektu: Výzkum chování potencionálních zákazníků na digitálním trhu v ČR "Digitalizace.
Skupinové interview (Focus group)
Metrologie   Přednáška č. 5 Nejistoty měření.
1 Tazatelé a dotazovací situace Jan Hartl. 2 CO a JAK?
Srovnání standardů CEN, FGDC ISO a ISVS pro metadata Ing. Jan Růžička Institut ekonomiky a systémů řízení, odd.GIS VŠB-TU Ostrava, HGF tř. 17.listopadu.
Analýza informačního systému. Podrobně zdokumentovaný cílový stav Paramentry spojené s provozem systému – Cena – Přínosy – Náklady a úspory – …
TECHNIKY SBĚRU DAT KVANTITATIVNÍ KVALITATIVNÍ VÝZKUM VÝZKUM
Kvantitativní metody výzkumu v praxi
Výzkum veřejného mínění a jeho realizace
Marketingový průzkum Milan Mrázek Matematika & Business
Reprezentativita: chyba výběru Jindřich Krejčí Management sociálních dat a datové archivy Kurz ISS FSV UK.
Metody sociálního výzkumu 5. blok Denní studium LS 2007/
S využitím prezentací Mgr. Pavlíny Mazáčové, Ph.D.:  Jak napsat dobrý odborný článek  Tvorba odborného textu.
Postup při empirickém kvantitativním výzkumu
Typy výzkumu  Kvantitativní  Kvalitativní  Smíšený  První zkoumá kolik lidí si co myslí atd …  Druhý co přesně si lidé myslí  Třetí je kombinací.
Online nástroje pro sběr a administraci dotazníků Ladislava Suchá , Brno Zdroj obrázku: bredmaker, Sxc.hu.
Geografické informační systémy pojetí, definice, součásti
ŠkolaStřední průmyslová škola Zlín Název projektu, reg. č.Inovace výuky prostřednictvím ICT v SPŠ Zlín, CZ.1.07/1.5.00/ Vzdělávací.
PRINCeGON – metodika řízení projektů Ministerstva vnitra
ČESKÝ STATISTICKÝ ÚŘAD Na padesátém 81, Praha 10 POČÍTAČE A INTERNET V ČESKÉ SPOLEČNOSTI DOMÁCNOSTI A JEDNOTLIVCI Využívání informačních.
Logistické procesy ve stavebnictví Autor diplomové práce: Bc. Lukáš Hlaváč Vedoucí diplomové práce: Ing. Terezie Vondráčková, Ph.D. České Budějovice, červen.
Tomáš Čížek Systém NESSTAR pro ukládání,prezentaci a analýzu sociálně-vědních dat Sociologická data a datové archivy.
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
Ukládání dat biodiverzity a jejich vizualizace
Varianty výzkumu Kroky výzkumu Výběrový soubor
Reprezentativita: chyba výběru Jindřich Krejčí
Kvantitativní metody výzkumu v praxi PRAKTIKUM
Sociologický výzkum II.
Metodologie pro ISK 2 Úvod do práce s daty
Metody a techniky výzkumu II.
Základy statistiky.
Transkript prezentace:

Management dat: založení a správa datového souboru Jindřich Krejčí Management sociálních dat a datové archivy Kurz ISS FSV UK

K předminulé hodině: měření příjmů Večerník, Jiří „Konzumní společnost - vstup do ráje hojnosti a manipulace.“ Pp in Maříková, H., Kostelecký, T., Lebeda, T., Škodová, M. (eds.). Jaká je naše společnost? Otázky, které si často klademe. Praha: Sociologické nakladatelství SLON. Večerník, Jiří „The changing role of education in the distribution of earnings and household income.“ Economics of Transition 21 (1): Večerník, Jiří „Earnings disparities and income inequality in CEE countries: an analysis of development and relationships.“ Eastern European Economics 50 (3): ISPV Mzdové statistiky ČSÚ Management dat II. Snímek 2

Dotazování příjmů ???? Uveďte prosím, kolik činil v minulém kalendářním roce Váš celkový hrubý, resp. čistý roční příjem ze všech zaměstnání (tj. z hlavního i vedlejšího závislého pracovního poměru, z dohod o provedení práce nebo dohod o pracovní činnosti, včetně všech příplatků a mimořádných příjmů). Pomohlo by, kdybyste mohl(a) využít dokumenty, jako je např. daňové přiznání. !!!! ???? !!!! Management dat II. Snímek 3

Management dat II. Snímek 4 Cíle managementu dat integrita dat, kvalita dat - přesnost a správnost výzkumu srozumitelnost pro všechny potenciální uživatele efektivita výzkumné práce - čas a náklady autenticita dat - možnost replikace, opravy analýz zajištění legálních a formálních předpokladů výzkumu zabezpečení a zachování dat zpřístupnění dat

Management dat II. Snímek 5 Pojmenování datových souborů systematicky, krátké názvy odkazující na obsah a/nebo vznik rozlišení sérií, verzí a edicí (viz dále) konzistentní formát nezávislost jména na umístění a software ► nepoužívat speciální znaky, místo mezer podtržítka, velká/malá písmena mohou být při převodu nestabilní (převoditelnost mezi systémy)... ► scalability (rozsah kódu odpovídá počtu verzí, y2k problem...) když hodně souborů (např. fotografie) lze použít nástroje na automatické přejmenování (batch renaming), např.: ► Ant Renamer ( ► RenameIT ( ► Bulk Rename Utility (

Management dat II. Snímek 6 Struktura datového souboru flat file - obdélníkový datový soubor, datová matice hiearchický soubor: záznamy vyššího a nižšího řádu uspořádány v hiearchické struktuře (např. data z šetření domácností, kde v jedné úrovni jsou zaznamenány údaje o domácnostech a v další úrovni údaje o jednotlivých členech domácností) relační databáze: systém datových tabulek a asociací mezi nimi. např. výzkum domácností, kdy údaje členů domácnosti jsou zaznamenány v samostatných tabulkách propojených parametrem reprezentujícím sounáležitost a vztah mezi členy domácnosti (lze např. vyhledávat řádky se shodnými atributy a vytvářet podsoubory)

Management dat II. Snímek 7 Příklad: SHARE

Management dat II. Snímek 8 Who answers what in the CAPI questionnaire? mergeid - unique identifier for all waves. “CC-hhhhhh-rr”, “CC” = country code, “hhhhhh”= household identifier, “rr” = respondent identifier within each household hhid identifies the household to which a person belonged when entering the panel hhidW identifies the household, where “W” refers to the specific wave

Management dat II. Snímek 9 Proměnné variable names, varible labels řazení a označení dotváří strukturu souboru ► vzájemné vztahy mezi proměnnými ► návaznost na další prvky výzkumu (různé zdroje dat, návaznost na dotazník, jiné soubory atp.) ► pomocné proměnné pro organizaci a správu souboru variable names = volací znaky v software (nezačínat číslem, 8 míst...) => převoditelnost formátu dat přehlednost prezentace dat systémy značení ► číselný kód (V001, V002...) ► kód odkazující na výzkumný nástroj (Q1a, Q1b... ► mnemotechnická jména (BIRTH, EDUC...) variable labels ► srozumitelnost, návaznost na prvky výzkumu (kódy otázek, zdroje dat...), délka, diakritika formát proměnné (typ proměnné, počet znaků) ► možnosti analýzy, velikost souboru

Management dat II. Snímek 10

Management dat II. Snímek 11 Hodnoty proměnných naměřené hodnoty / odpovědi / audio / video / vzorky... numerické kódování - ve všech stat. softwarech => převoditelnost někdy komplikovaný kognitivní proces (teoreticky a analyticky zal.) ► příklad ISCO (Harry) kódované kategorie by měly být vztaženy k obsahu testovaných hypotéz, nicméně kódovací struktury jsou využitelné ve více výzkumech standardizace dokumentace, značení (value labels) kódování - samostatný proces u složitějších úloh

Management dat II. Snímek 12 Doporučení ke kódování Identifikační proměnné na začátku záznamů - jednoznačnost Kódy kategorií vzájemně exkluzivní, vyčerpávající a přesně definované Kódujte v největší možné podrobnosti. Informaci pak lze převést na méně podrobnou, opačně to nejde Uzavřené otázky: kódovací schéma v digitálním formátu, kvůli zabránění omylům Otevřené otázky: jakékoliv kódovací schéma je třeba uvést v dokumentaci Úplné odpovědi v textovém formátu: posouzení dat z hlediska ochrany osobních údajů Kontrola kódování: opětovné zakódování nezávislým kodérem - ověření práce kodéra i kódovacího schématu Série odpovědí: jestliže série odpovědí vyžadují více než jedno místo, je vhodné aplikovat společné kódovací schéma rozlišující hlavní a sekundární kategorie atd. Shodné kódovací struktury pro více znaků - systematicky vytvořené kódovací schéma Přebírání kódovacích struktur z jiných šetření - standardizace

Management dat II. Snímek 13

TAZATEL: FILTR - PTEJTE SE POKUD JE NEBO BYL/A RESPONDENT(KA) VÝDĚLEČNĚ ČINNÝ/Á (C4=1 NEBO 2) C11. Jaké je (bylo) Vaše současné (poslední) zaměstnání, jakou činnost při něm vykonáváte /jste vykonával/a? Uveďte název zaměstnání, stručně popište pracovní činnost, kterou (jste) v tomto zaměstnání děláte (dělal/a) a co je (bylo) hlavní náplní činnosti organizace, v níž pracujete (jste pracoval). TAZATEL: ODPOVĚĎ ZAZNAMENEJTE CO NEJPODROBNĚJI. U SOUKROMÝCH PODNIKATELŮ SPECIFIKUJTE OBOR / ČINNOST PODNIKÁNÍ. POKUD MÁ / MĚL RESPONDENT VÍCE ZAMĚSTNÁNÍ, PTEJTE SE NA HLAVNÍ = TO, V KTERÉM TRÁVÍ NEJVÍCE ČASU. NEVÍ – 998, ODMÍTL/A ODPOVĚDĚT– 999. Název zaměstnání (vypište) ………....…………………………………………………………………………………… Popis práce (vypište) ……………………………………………………………………………………………… Hlavní naplň činnosti organizace (vypište) ……………………………………………………………………………………………… Management dat II. Snímek 14

Management dat II. Snímek 15 Chybějící hodnoty Žádná odpověď (No Answer, NA) Odmítnutí (Refusal) Neví (Do not Know, DK) Chyba zpracování (Processing Error) Nehodí se (Not Applicable/Inapplicable, NAP, INAP) Chybí přiřazená hodnota (No Match) Chybí údaj jednotný systém kódování

Management dat II. Snímek 16 ESS 4

Management dat II. Snímek 17

Management dat II. Snímek 18 Zajištění integrity vkládání dat - programování software (data-entry, CATI/CAPI) vývoj technologií a změny koncepce designu doporučení ► nepřetěžovat operátory - kódování a vkládání jako samostatné úlohy ► méně kroků - redukce možností vzniku chyb ► specializovaný software umožňuje nastavit platné hodnoty a filtry ► dvojí vkládání a srovnání výsledků. ► provést kontrolu úplnosti záznamů. ► provést logickou kontrolu a kontrolu konzistence dat, např.: kontrola rozsahu hodnot (např. věk respondenta vyšší než 100 let je nepravděpodobný), kontrola nejnižších a nejvyšších hodnot a extrémů, kontrola poměrů souvisejících proměnných (např. dosaženému stupni vzdělání by měl odpovídat věk), srovnání s historickými daty (např. počet členů domácnosti mezi dvěma vlnami panel. výzk.). ► řadu kontrol lze provádět automaticky za pomoci počítače ► určité procento, např %, by mělo projít podrobnou hlubší kontrolou ► změny by měly být dokumentovány a původní data obnovitelná

Management dat II. Snímek 19 Anonymizace ochrana osobních údajů odstranění přímých identifikací - anonymní kódy malé skupiny, nepřímé identifikace ► odstranění ► agregace údajů, redukce podrobnosti geografické a časové informace ► ošetření extrémních hodnot

Management dat II. Snímek 20 Vážení Jsou v souboru váhy? Mám je použít? ► typ vah, popis vah (algoritmus), rozsah a průběh (DOKUMENTACE!) ► jaký je výsledek s váhou a bez váhy? Designové váhy: kompenzce rozdílu pravděpodobností výběru jednotek v souboru Vážení výpadků návratnosti: kompenzace rozdílů návratnosti u různých skupin Poststratifikační váhy: dosažení shody rozložení podle známých charakteristik populace Přizpůsobení poměrů skupin: různé skupiny mohou být zastoupené odlišně vzhledem k reálným poměrům (např. kvůli analýze větších celků (Evropa) v mezinárodní databázi) Kombinované, celkové váhy

Management dat II. Snímek 21

Management dat II. Snímek 22

Management dat II. Snímek 23 Dokumentace metadata porozumění - interpretace ► výzkumný tým ► ostatní výzkumníci pravidla, standardy ► ESOMAR, WAPOR/AAPOR... elementy dokumentace předem, protože pořízení podkladů v průběhu celého výzkumu formát dokumentace ► výzkumné nástroje, codebook, syntax, technická/metodologická zpráva, protokol o experimentu, popis transformací, schéma databáze ► mezinárodní standard DDI - standardizovaná struktura, XML formát tři základní úrovně ► projekt ► databáze ► proměnné a případy

Management dat II. Snímek 24 Informace o projektu původ datového souboru ► název výzkumu (včetně zkratek, alternativních, cizojazyčných názvů...) ► institucionální informace (autoři, instituce, sponzoři a čísla grantů, zadavatelé...) ► abstrakt projektu, cíle, koncepty, hypotézy, odkazy na navazující projekty popis a metody sběru dat ► popis všech zdrojů, z nichž jsou data získána ► časové vymezení sběru dat ► časové a geografické pokrytí ► cílová populace ► jednotky pozorování ► popis výběrového designu včetně opory ► metody sběru dat ► původní výzkumný instrument a další materiály použité při sběru dat (zvací dopisy, pokyny pro tazatele atp.) ► použitá klasifikační schémata a koncepty ► návratnost a další vyhodnocení (např. známé odchylky od populace) ► identifikace změn metodiky u časových sérií a longitudiálních výzkumů

Management dat II. Snímek 25 Informace o databázi popis datových souborů ► specifikace verze a edice souboru (pokud jich je víc) ► struktura souborů ► specifikace vztahů a propojení ► informace o rozsahu (počet záznamů a proměnných) ► informace o formátech a kompatibilitě. editace a modifikace dat ► metody a výsledky kontrol integrity, validizace, čištění dat, příp. dalších postupů ošetření kvality dat (kalibrace, imputace chybějících hodnot, okontrola a opravy přepisu atp.) ► anonymizace ► transformace a konstrukce odvozených proměnných ► vážení (identifikace proměnných pro vážení a popis metod a jejich konstrukce)

Management dat II. Snímek 26...informace o databázi přístup k datům ► vymezení přístupnosti, specifikace podmínek používání, informace o ochraně osobních údajů katalogizační a citační informace ► bibliografická informace, doporučená citace, klíčová slova, katagolizační údaje odkazy na související materiály a zdroje, pokud je to relevantní

Management dat II. Snímek 27 Informace o proměnných a případech informace o proměnných v souboru ► jména proměnných ► označení a popis proměnných a jejich hodnot včetně popisu odvozených proměnných ► k dispozici by mělo být přesné původní znění otázky ► frekvence, základní třídění apod. (?) informace o případech v souboru ► specifikace případů, pokud je to relevantní

Management dat II. Snímek 28 Verze a edice databáze správa dat, analýzy => více verzí a edicí => strategie jejich správy ► jednoznačná identifikace verzí a edicí, přehled o rozdílech ► zajištění autenticity (zabránit neautorizovaným zásahům) doporučení ► stanovit podmínky používání dat a seznámit s nimi uživatele ► rozlišovat mezi verzemi sdílenými více výzkumníky a prac. verzemi jednotlivců ► zavést jednoznačné a systematické značení verzí a edicí datového souboru ► vést záznamy o vytváření verzí a edicí, jejich obsahu a vzájemných vztazích ► dokumentovat provedené změny ► zachovávat původní verze datových souborů, resp. materiály umožňující rekonstrukce původních souborů (např. syntax) ► stanovit „master file“ a přijmout opatření k zachování jeho autenticity, tj. vhodně jej umístit a vymezit přístupová práva a odpovědnosti, kdo a jaké změny smí provádět ► pokud je více kopií stejné verze, kontrolovat jejich shodnost

Management dat II. Snímek 29 Zálohování, formáty a média proces - pravidelné zálohování a obnova ► digitální média z principu nespolehlivá ► software, instituce atd. procházejí změnami + další rizika kratší čas - operabilita ► formáty navázané na kokrétní software, ale lépe jejich transportní verze (SPSS: *.por) ► diakritika => kódování znaků (UTF 8) delší čas ► jednoduché textové formáty (ASCII - fixní/volné) + strukturovaná dokumentace ► PDF/A (archivační verze PDF definovaná ISO) média ► nezáleží jen na typu, ale i kvalitě; náchylnost k fyzickému poškození ► nejméně dvě různé formy archivace ► pravidelné přehrávání na nová média

Management dat II. Snímek 30 Děkuji za pozornost a prosím o Vaše otázky