Úvodní informace o kurzu Sekundární analýza dat Sdílení dat Management sociálních dat a datové archivy Kurz ISS FSV UK Úvodní informace o kurzu Sekundární analýza dat Sdílení dat Výzkumná infrastruktura Jindřich Krejčí
Základní údaje o kurzu Management sociálních dat a datové archivy, JSM033 úterý 15:30 - 16:50, místnost VPL 2074 Jindřich Krejčí Sociologický ústav AV ČR, Český sociálněvědní datový archiv (ČSDA), Jilská 1, Praha 1, místnost 23b; jindrich.krejci@soc.cas.cz konzultační hodiny po předchozí domluvě: Jinonice: úterý 17:00 nebo SOÚ dle domluvy WEB: http://archiv.soc.cas.cz/management-sociologickych-dat-datove-archivy-fsv-uk nebo http://archiv.soc.cas.cz/ -> PRÁCE S DATY -> KURZ MANAGEMENT DAT Klasifikovaný zápočet: semestrální práce, test Předpoklady: metody analýzy dat, SPSS nebo pod., angličtina Úvod; sekundární analýza dat
Obsah kurzu Zdroje dat Management dat Kvalita dat Datové archivy, data pro mezinárodní komparaci, CHPS, mezinárodní organizace, statistické úřady a další zdroje dat Nové formy dat Datová infrastruktura pro kvalitativní výzkum Software pro vyhledávání a analýzu dat přes internet, NESSTAR Management dat Koncepce správy dat, ochrana osobních údajů, autorská práva, plán managementu dat... Management dat v průběhu výzkumu, struktura souboru, integrita dat, anonymizace, vážení, dokumentace, správa verzí, formáty... Kvalita dat Koncepce kvality ve výběrových šetřeních; standardy kvality Reprezentativita: pokrytí populace, chyba výběru, návratnost Chyby měření, kognitivní psychologie Úvod; sekundární analýza dat
Sdílení dat internet; datové archivy proměna prostředí pro analytický výzkum velké množství snadno dostupných dat rychlost a technologie zpracování dělba práce - ale i fragmentace, povrchnost, neznalost kontextu, chyby růst významu sekundární analýzy spolupráce -> komparativní databáze, kontinuální programy politika otevřeného přístupu k datům; požadavek sdílet data -> význam managementu dat nové typy dat -> nové nároky na práci s daty autorská práva, ochrana osobních údajů, etika výzkumu Úvod; sekundární analýza dat
Přínosy přenos a kumulativní vytváření poznání možnosti kombinovat různé datové zdroje zvyšování informační hodnoty, komparace v čase, mezinárodní komparace sekundární analýza, dostupnost dat -> metody analýzy organizace výzkumné práce, spolupráce týmů (mezinár. spol.) metodologický výzkum, testování nástrojů, nové projekty dostupnost dat pro výuku archivace -> zabezpečení, zachování ověření výsledků, transparentnost výzkumu systematičnost, prosazování kvality efektivita veřejných investic - maximalizace využití Úvod; sekundární analýza dat
Rizika oddělení fází produkce a analýzy dat nedostupnost „vhodných dat“ dat -> modifikace výzk. záměrů nedostatečná dokumentace -> problematické/chybné využití znalost původního konceptu? znalost kontextu výzkumu? znalost průběhu sběru dat? srozumitelnost modifikací provedených v datech? kompatibilita kombinovaných datových zdrojů?... netransparentnost kvality - nezájem o kvalitu dat, neschopnost ji vyhodnotit nekompatibilita konceptů omezení přístupu k datům nekompatibilita formátů a technické problémy zpracování Úvod; sekundární analýza dat
Sekundární analýza není rutinní úloha ! využití dat koncepce výzkumu vyhledání a identifikace dat studium metadat a širšího kontextu původního výzkumu prozkoumání dat, zhodnocení a verifikace úpravy, transformace dat analýza, interpretace dokumentace použitých dat v publikované práci produkce dat systematický management dat s ohledem na sekundární využití při realizaci šetření i při sekundární analýze Úvod; sekundární analýza dat
Otevřený přístup k výzkumným datům podmínkou sdílení dat je spolupráce výzkumníků ??? odlišné kultury sdílení dat ??? nebo to může být povinnost -> politika OA různé kontexty, různé terminologie co jsou výzkumná data všechna data použitelná pro výzkum - tj. data z výzkumů i z veřejného sektoru a státní administrativy data z výzkumů (včetně metadat) různé politiky - Open Data / Open Research Data / Open Access to Research Data (from Public Funding) Úvod; sekundární analýza dat
1) Otevřený přístup k informacím veřejného sektoru sekundární využití na digitálním trhu, transparentní vládnutí (využitelnost pro výzkum) Open Data; definice, např.:"Open means anyone can freely access, use, modify, and share for any purpose (subject, at most, to requirements that preserve provenance and openness).” http://opendefinition.org/ -> kdokoliv, zadarmo, pro jakýkoliv účel EU PSI Directive (2013/37/EU - 2003/98/ES) výzkumná data chápána jinak a ošetřena jinde komerční i nekomerční využití stanoveny prioritní oblasti dat (PSČ, mapy, počasí, životní prostředí, doprava, ekon. ukazatele, obchodní registry...) zvážení výhod free/marginal costs approach využitelnost, dostupnost, kvalita Úvod; sekundární analýza dat
Národní katalog otevřených dat (NKOD) Otevřená data: https://opendata Management dat I.
http://data.europa.eu/euodp/en/data/
2) Otevřený přístup k publikacím otevřený přístup k vědeckým publikacím data chápána jako součást publikace transparentnost => zveřejnit data a script spolu s publikací veřejně přístupný repozitář - publikace + data / odkaz projekt Open Aire https://guidelines.openaire.eu/en/latest/index.html metadata repozitář cíl: ověření výsledků, transparentnost výzkumu (vs. opětovné použití dat ve výzkumu) Úvod; sekundární analýza dat
Institucionální repozitář AV ČR (Green Access) https://www.lib.cas.cz/asep/repozitar-asep/ Úvod; sekundární analýza dat
3) Otevřený přístup k datům z výzkumů OECD: 2004 mezinárodní deklarace; 2007 principy EU: otevřený přístupu k vědeckým informacím = OA k publikacím + OA k výzkumným datům "otevřenost znamená přístup za rovných podmínek pro mezinárodní vědeckou komunitu za nejnižší možnou cenu, nejlépe nepřesahující mezní náklady distribuce. Otevřený přístup k výzkumným datům z veřejného financování by měl být snadný, časově nenáročný, uživatelsky přívětivý a nejlépe založený na Internetu.” OECD Principles and Guidelines for Access to Research Data ... pro vědeckou komunitu vs. Open Data: pro kohokoliv rovné podmínky vs. Open Data: neomezený přístup marginální náklady vs. Open Data: zadarmo Úvod; sekundární analýza dat
Omezení dostupnosti "pouze výzkumná data vzniklá z veřejných fondů za účelem veřejně přístupného vědeckého výzkumu" (ne: soukromý sektor, výzkum pro komercionalizaci...) omezení národní bezpečnost ochrana soukromí osob a osobních údajů ochrana obchodních tajemství a duševního vlastnictví ochrana přírody nenarušení právních jednání (sub judice) dosažení cílů projektu technická a kapacitní omezení, efektivita licence, rovné podmínky (vs. „neomezený přístup“) ošetření autorských práv Úvod; sekundární analýza dat
FAIR data Findable: easy to find for both humans and computers, with metadata that facilitate searching for specific datasets, Accessible: stored for long term so that they can easily be accessed and/or downloaded with well-defined license and access conditions (open access when possible), whether at the level of metadata, or at the level of the actual data, Interoperable: ready to be combined with other datasets by humans or computers, Reusable: ready to be used for future research and to be further processed using computational methods. Úvod; sekundární analýza dat
Podmínky pro sekundární využití dat výzkumná infrastruktura technické aspekty způsob zpřístupnění -> využití formáty, verze, edice - archivace je proces, nikoliv stav dokumentace (metadata) umožňující využití ... kultura sdílení dat (management dat, archivace, uznání přínosu, citace...) komunikace s komunitou producentů a uživatelů pokrytí nakládů na straně producentů/depozitorů dat Úvod; sekundární analýza dat
Open Science: extending the principles of openness to the whole research cycle Úvod; sekundární analýza dat Open Science and Research Initiative, 2014
OA k datům - implementace mezinárodní -> národní OA politika - obecná implementace u poskytovatelů podpory: konkrétní datová politika pro danou oblast výzkumu plán managementu dat součástí grantové aplikace peer-review: posouzení souladu plánu a datové politiky smlouva: povinnost dodržet Horizon 2020 národní OA politiky, instituce - univerzity, implementace u (některých) poskytovatelů Denmark, Finland, France, Germany, Ireland, Lithuania, the Netherlands, Norway, Slovenia, the United Kingdom.... Úvod; sekundární analýza dat
Úvod; sekundární analýza dat
HORIZON 2020 AGA: Art. 29.2 & 29.3 Úvod; sekundární analýza dat
HORIZON 2020 Úvod; sekundární analýza dat
Česká republika signatář deklarace, dosud žádná opatření neznalost, zmatek v definicích a cílech, nepochopení, odpor výzkumné komunity Národní strategie otevřeného přístupu k vědeckým informacím rizika: - konflikty - nákladné řešení nefunkční pro účely sekundárního využití, bez deklarovaných výhod Úvod; sekundární analýza dat Zdroj: Simon Musgrave (UKDA), Jostein Ryssevik (NSD)
Horizon 2020: Pilot on open access to research data AGA – Annotated Model Grant Agreement. ART. 29.2 & 29.3 2016/2017: all thematic areas of Horizon 2020 možnost rozhodnout o neúčasti (i zpětně): "Projects can ... opt out at any stage ... and so free themselves retroactively from the obligations .... – if: - participation is incompatible with the obligation to protect results that can reasonably be expected to be commercially or industrially exploited - participation is incompatible with the need for confidentiality in connection with security issues - participation is incompatible with rules on protecting personal data - participation would mean that the project's main aim might not be achieved - the project will not generate / collect any research data or - there are other legitimate reasons (you can enter these in a free-text box at the proposal stage). " Guidelines on Open Access to Scientific Publications and Research Data in Horizon 2020. http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf
29.2 Open access to scientific publications H2020 Programme, AGA – Annotated Model Grant Agreement. ART. 29 - DISSEMINATION OF RESULTS - OPEN ACCESS - VISIBILITY OF EU FUNDING 29.2 Open access to scientific publications "Each beneficiary must ensure open access (free of charge, online access for any user) to all peer-reviewed scientific publications relating to its results. In particular, it must: (a) as soon as possible and at the latest on publication, deposit a machine-readable electronic copy of the published version or final peer-reviewed manuscript accepted for publication in a repository for scientific publications; Moreover, the beneficiary must aim to deposit at the same time the research data needed to validate the results presented in the deposited scientific publications. (b) ensure open access to the deposited publication — via the repository — at the latest: (i) on publication, if an electronic version is available for free via the publisher, or (ii) within six months of publication (twelve months for publications in the social sciences and"... "(c) ensure open access — via the repository — to the bibliographic metadata that identify the deposited publication."... Úvod; sekundární analýza dat
29.3 Open access to research data "[OPTION for actions participating in the open Research Data Pilot: Regarding the digital research data generated in the action (‘data’), the beneficiaries must: (a) deposit in a research data repository and take measures to make it possible for third parties to access, mine, exploit, reproduce and disseminate — free of charge for any user — the following: (i) the data, including associated metadata, needed to validate the results presented in scientific publications as soon as possible; (ii) other data, including associated metadata, as specified and within the deadlines laid down in the ‘data management plan’ (see Annex 1); (b) provide information — via the repository — about tools and instruments at the disposal of the beneficiaries and necessary for validating the results (and — where possible — provide the tools and instruments themselves). This does not change the obligation to protect results in Article 27, the confidentiality obligations in Article 36, the security obligations in Article 37 or the obligations to protect personal data in Article 39, all of which still apply. As an exception, the beneficiaries do not have to ensure open access to specific parts of their research data if the achievement of the action’s main objective, as described in Annex 1, would be jeopardised by making those specific parts of the research data openly accessible. In this case, the data management plan must contain the reasons for not giving access.] [OPTION: Not applicable]"
Výzkumná infrastruktura Úvod; sekundární analýza dat
Výzkumná infrastruktura - definice "velká výzkumná infrastruktura" všechny vědní oblasti; poskytuje zdroje a/nebo služby vědecké komunitě; otevřený přístup; významná a unikátní; mezinárodní zapojení; různé formy: fyzicky umístěná (single- sited)/distribuovaná/ virtuální... sociální vědy: digitální data, digitalizace, vývoj společnosti - dlouhodobý kontinuální výzkum, podpora výuky (vs. tradiční - knihovny, archivy; vs. roztříštěnost) Evropa: European Strategy Forum on Research Infrastructures (ESFRI), Roadmap http://www.esfri.eu/roadmap-2016 ČR: MŠMT, Cestovní mapa http://www.msmt.cz/vyzkum-a-vyvoj- 2/cestovni-mapa-cr-velkych-infrastruktur-pro-výzkum Úvod; sekundární analýza dat
ESFRI landmarks (úspěšně dokončené projekty) ESFRI projekt ESFRI "emerging project" Česká cestovní mapa Úvod; sekundární analýza dat
Výzkumná infrastruktura v sociálních vědách Knihovny, klasické archivy ... Digitální data a jejich analýza zdroje dat: datové archivy, statistické úřady, veřejně přístupné databáze, mezinárodní organizace ... pořizování dat: např. šetření typu General Social Survey zdroje pro přípravu vlastních výzkumů: databáze indikátorů, dotazníky a otázky z dotazníků, klasifikace, převodníky ... výuková centra a programy: výuka metod analýzy dat metodologická centra: konzultační a analytické služby, standardizace a harmonizace dat, kvalita dat, metavýzkum informační služby: přehledy a databáze projektů, výsledků, výzkumníků, platformy pro výměnu informací... Úvod; sekundární analýza dat