Funguje to, co děláme? aneb možnosti kontrafaktuálních evaluačních přístupů ke zjišťování skutečných účinků veřejných politik. (V prezentaci je použita.

Funguje to, co děláme? aneb možnosti kontrafaktuálních evaluačních přístupů ke zjišťování skutečných účinků veřejných politik. (V prezentaci je použita část materiálů z letní školy ve Fenestrele 1.-12.9.2010, vedené Albertem Martinim)

Jazyková terminologická poznámka Terminologie Counterfactual impact evaluation v současné době nemá ustálenou českou podobu (případně nemá žádnou českou podobu). Rozvoj českého pojmosloví je jedním z vedlejších cílů evaluačního projektu, v jehož rámci se koná tento seminář. Ve svém vystoupení tak budu užívat jak anglických termínů, tak budu experimentovat s možnými odpovídajícími českými pojmy. Zpětnou vazbu k pojmosloví vítáme!

Cíl workshopu Seznámit s konceptem Counterfactual Impact Evaluation (?srovnávacího hodnocení dopadů?), možnostmi a limity použití použití jednotlivých metod. Ambice je v posunu účastníků ze stavu „nevím, co nevím“ do stavu „vím, co nevím“ (nenaučím vás CIE). Připravit předmostí pro častější používání kvantitativních metod v prostředí českých strukturálních fondů. Přinést úvod do problematiky před navazujícím workshopem, který se věnuje aplikaci metod CIE na oblast podpory 1.1 OP LZZ – „Adaptabilita“

Co to je ta Counterfactual impact evaluation Nejprve se pustíme vysvětlení klíčových pojmů: counterfactual a impact O vysvětlení pojmu evaluace se raději pokoušet nebudu…

Kontext Při hodnocení programů strukturálních fondů existují tři základní otázky: „Manažerská“: Plním plán? –Na tuto otázku více-méně odpovídá monitoring „Politická“: Přináší to výsledky dostatečné, abych byl opět zvolen? (Accountability) –Pokrok metodou pokusů a omylů? „Vědecká“: Co funguje, jak a proč? –Intuice se může mýlit, co platí jsou důkazy. –Kauzalita se nemůže jen předpokládat, musí se prokázat (snižují rekvalifikace nezaměstnanost?). V současná (česká/evropská) evaluační praxe stojí hodně na názorech expertů a málo na rigorózních důkazech, často se píše o tom, jak a proč něco funguje, aniž by se věrohodně prokázalo, že to vůbec funguje.

Counterfactual impact evaluation Counterfactual impact evaluation je důsledně vědecký převážně kvantitativní přístup opírající se experimenty a kvaziexperimenty (kontrolní a srovnávací skupiny / control & comparison groups). Není to jediný správný přístup (průzkumy, případové studie, ekonometrické modelování, kvalitativní metody obecně jsou také důležité). Není vždy použitelný (vyžaduje velké „N“, dostatek dat, určitý typ intervence…). Pomocí CIE nelze hodnotit program jako celek (příliš složitý komplex), ale velmi dobře některé projekty, výzvy či oblasti podpory. Ale pokud jde použít, představuje „zlatý standard“ kvality důkazů. V rigorózním designu CIE se snadno hledají chyby (pro toho, kdo tomu rozumí), protože je velmi transparentní. CIE evaluátoři jsou nazí evaluátoři.

What the hell is „Counterfactual“!? „Český“ pojem kontrafaktuál není nic moc. Nenapadá mě výstižnější než „co-by-kdyby“. Counterfactual tedy označuje hypotetickou situaci, která by nastala, pokud by intervence nebyla realizována. Jde o stav cílové oblasti v případě alternativní historie. Counterfactual nelze pozorovat, jde o fikci, ideu. V řadě případů však lze pomocí statistických metod a za explicitně vyjádřených předpokladů counterfactual věrohodně odhadnout (estimate). Odhad kontrafaktuálu (?nulové varianty?) je ústředním problémem Counterfactual impact evaluation – CIE.

Intermezzo I Terminologická vsuvka Pozorovatelnost Observability Je principiální, teoretická. Dostupnost dat Data accessibility Je praktická záležitost, dostupnost může být limitována rozpočtem, (ne)existencí záznamů atd.

Dekonstrukce pojmu Impact Impact, česky dopad je v žargonu strukturálních fondů (vzor 2007-2013) zpravidla chápán v souvislosti s logickým rámcem (logframe, logical framework) jako nějaký finální výsledek, dlouhodobý efekt intervence kdesi na konci tradiční kauzální linie vstup => aktivita => výstup => výsledek => dopad

Stylizovaný logframe vstupy výsledky aktivity výstupy dopady cíle Jak se toto sleduje? specifickéglobání indikátory operativní

Indikátory dopadu Současné (2007-2013) metodiky EK říkají: “The ultimate objective of Structural Funds and Cohesion Fund assistance is a certain impact, measured as far as possible by impact indicators” Indikátory mají různá označení, která pomáhají uchopit jejich význam. Máme indikátory vstupů (input indicators), indikátory výstupů (output indicators), … indikátory dopadů (impact indicators), indikátory kontextu (contextual indicators),… Pokud indikátory výstupů měří výstupy, pak indikátory dopadů měří dopady. Pokud indikátory výstupů měří výstupy, pak indikátory dopadů měří dopady???

NE! Protože to by znamenalo, že impact je pozorovatelný a stav cílové oblasti po intervenci je ovlivněn pouze intervencí samotnou.

Klíčovou otázkou je, zda indikátory samy o sobě mohou měřit impact/dopad. Aby bylo jasno: Na indikátorech není nic špatného. Něco shnilého ve státě dánském je však s indikátory pokud jde o přičitatelnost (attribution).

Intermezzo II Dva často zaměňované pojmy Contribution (česky = přispění?) Užívá se pro vyjádření, že zkoumaná intervence má nějaký účinek na cílovou oblast, tj. je schopna dění v cílové oblasti (nějak) ovlivnit. Neboli: je intervence jedním z faktorů ovlivňujících cílovou oblast? Na „contribution“ lze usuzovat z konstrukce teorie změny (popisu kauzálních vztahů intervence) a zkoumáním naplnění jejích předpokladů. Attribution (česky = přičitatelnost?) Označuje skutečný příspěvek intervence ke stavu cílové oblasti. Co intervence skutečně způsobila? Jakou změnu cílové oblasti lze přičíst jen intervenci po očištění dalších vlivů? „Attribution“ lze odhadnout pomocí metod „Counterfactual impact evaluation (CIE)“.

Odlišné významy Impact V kontextu logického rámce (a EK 2007-2013) Pozorovatelná proměnná Stav, který plánujeme, nebo si přejeme, aby nastal V kontextu counterfactual impact evaluation (a snad EK 2014+) Nepozorovatelný rozdíl mezi pozorovatelnou skutečností a hypotetickým stavem Skutečný účinek intervence

Na logických rámcích není nic špatného Jsou nenahraditelné pro plánování (Kéž by každý program či projekt měl už v základním dokumentu namalovanou teorii změny!) Jsou důležité pro monitoring Jsou užitečné pro evaluace Ale nemohou dost dobře odpovědět na základní otázku: „FUNGUJE TO?“

Impact v kontextu CIE Sociální vědy definují impact/dopad jako “the difference between a situation observed after a stimulus has been applied and the situation that would have occurred without such stimulus” „rozdíl mezi situací pozorovanou po provedené intervenci a situací, která by nastala bez takové intervence“.

Co je tedy impact? Impact lze definovat pouze, pokud víme: Dopad čeho zkoumáme (intervence/treatment) Dopad pro koho (a ve srovnání s kým) zkoumáme (pro podpořené osoby, firmy) Dopad na co zkoumáme (na konkrétní proměnnou – tržby, zaměstnanost, výdělek…) Otázka jaké jsou dopady OP LZZ proto bez dalšího upřesnění nedává smysl.

Co je tedy impact? Dopad/impact je definován jako rozdíl v hodnotě zkoumaného indikátoru (Y) v situaci s intervencí (Y 1 ) a v situaci bez intervence (Y 0 ). Tedy, impact = Y 1 – Y 0 Impact lze v tomto kontextu použít jako synonymum slov efekt, účinek, dopad. Nemá smysl se zabývat tím, zda jde o efekt krátkodobý či dlouhodobý.

Co je tedy contrafactual impact evaluation? “An impact evaluation is a study which tackles the issue of attribution by identifying the counterfactual value of Y (Y 0 ) in a rigorous manner“ CIE je studie, která řeší problém přičitatelnosti (attribution) pomocí hledání kontrafaktuální hodnoty Y (Y 0 ) rigorózním, vědeckým způsobem. CIE není umění. Je to věda. No dobře, je to věda, při které se občas hodí trocha intuice.

Ideální postup evaluace 1.Kvalitativní přípravná studie s cílem porozumět zkoumané intervenci (klíčové je přesné zmapování procesu výběru účastníků/participants). 2.Kvantitativní evaluace - konstrukce kontrafaktálu (získáme odpověď na otázku FUNGUJE TO?) (CIE) 3.Pokud to statistické parametry (velikost vzorku apod.) dovolí, lze zkoumat otázku PRO KOHO TO FUNGUJE LÉPE? (CIE) (Ryzí kvantitativci mohou skončit zde.) 4. Kvalitativní studie (např. případové studie) s cílem vysvětlit PROČ TO (NE)FUNGUJE? (Theory based evaluation, case studies)

Jak účinkuje intervence Zjednodušený příklad Předpokládejme, že náš program (treatment) spočívá v možnosti získat grant v jednotné výši 50.000 Kč na vytvoření jednoho pracovního místa. Jde o binární proměnou, buď T=1 (existuje možnost grantu) nebo T=0 (neexistuje možnost grantu). Pro zjednodušení: každý, kdo grant dostane, pracovní místo i vytvoří. Výsledek je také binární, buď se vytvoří místo (Y=1) nebo nevytvoří (Y=0).

Compliers/ ovlivnitelní : 1 0 Always takers/ pilní : 1 1 Defiers (kverulanti) : 0 1 Never takers/ líní : 00 = 1 = 0 = -1 Co může v tomto jednoduchém světě nastat? ( také se jim říká puberťáci ) Počet vytvořených míst S intervencí Bez intervence Dopad (Y|T=1)(Y|T=0) (Y|T=1) - (Y|T=0)

T=1 T=0 0 1 1 DEFIERS ALWAYS-TAKERS COMPLIERS NEVER TAKERS  = -1  = 1 Možné výsledky  = 0 Pozitivní dopad je jen mezi ovlivnitelnými, je však obtížné je identifikovat

0 1 1 ALWAYS-TAKERS COMPLIERS  = 1  = 0 NEVER TAKERS  = 0 DEFIERS (Pokud existují)  = -1 Řekněme, že neexistují (nebo jich je zanedbatelný počet – jsou fakt divní). T=1 T=0

0 1 ALWAYS-TAKERS COMPLIERS  = 1  = 0 NEVER TAKERS  = 0 Jsou pozorovatelní: Ti, kteří si grant mohli vzít, ale nevzali. T=1 T=0

0 1 1 ALWAYS-TAKERS COMPLIERS  = 1  = 0 Vzali si grant a změnili své chování Vzali si grant, ale nové místo by vytvořil i bez něj T=1 T=0

0 1 1 ALWAYS-TAKERS COMPLIERS  = 1  = 0 Neexistuje zjevný způsob jak je odlišit T=1 T=0

Compliers (ovlivnitelní): 1 0 Always takers (pilní) : 1 1 Defiers (kverulanti) : 0 1 Never takers (líní) : 00 = 1 = 0 = -1 Co může v tomto jednoduchém světě nastat? ( také se jim říká puberťáci ) S intervencí Bez intervenceImpact (Y|T=1)(Y|T=0) (Y|T=1) - (Y|T=0)

Compliers: Y = 1 Always takers : Y = 1 Never takers : Y = 0 Se všemi daty (a se všemi myslitelnými indikátory) nemůžeme určit, které z 1000 podpořených firem by vytvořily pracovní místo i bez obdrženého grantu. Takže zatím nevíme, jaký byl dopad naší politiky To je vše co lze pozorovat!

A také zde narážíme na jeden další pojem – Mrtvá váha DEADWEIGHT není nic jiného než maskovaný counterfactual; DEADWEIGHT je výsledek always-takerů; DEADWEIGHT není efekt, který by se měl odečíst, spíše ukazuje na absenci zamýšleného efektu zkoumané politiky; DEADWEIGHT je zpravidla uvažován, jen pokud stojí peníze, jinak nikoho nezajímá (přitom čistě logicky mrtvá váha politiky nařizující snížení rychlosti na silnici jsou ti, kteří jezdí pomalu sami od sebe); DEADWEIGHT pohřbíme na Hřbitov Zbytečných Pojmů, protože –Je nepozorovatelný, a proto nepoužitelný v monitoringu –Je redundantní v konceptu CIE

Occamova břitva “entia non sunt multiplicanda praeter necessitatem” „pojem nemá být vytvořen pokud to není nezbytně nutné“. † Deadweight † Hrubý dopad † Čistý dopad † Indikátory dopadu † Účelnost / Effectiveness † (Účinnost / Efficiency) Hřbitov zbytečných pojmů

Odlišit compliers a always takers je stejný problém jako odlišit impact a counterfactual (nebo †deadweight) Potřebujeme další data a (netestovatelné) předpoklady, abychom mohli impact odhadnout. Potřebujeme identifikační strategii (identification strategy)

Přehled identifikačních strategií (designů CIE) Existuje několik základních přístupů, které vyžadují různě silné předpoklady. Neexistuje univerzálně nejlepší přístup. Některé ale vyžadují tak silné předpoklady, že jsou v praxi neužívané (ale svojí jednoduchostí se hodí k pochopení těch složitějších). Zpravidla mají velmi silnou interní validitu, avšak často slabší externí validitu.

Intermezzo III Terminologická vsuvka Vnitřní platnost Internal validity Vnitřní čistota vědeckého postupu, kdy ze samotné jeho konstrukce vyplývá platnost závěrů pro konkrétní zkoumaný jev. Vnější platnost External validity Souvisí se zobecnitelností závěrů. Např.: pokud prokáži s velkou interní validitou, že impact OP LZZ na zaměstnanost podpořených žen v jihočeském kraji ve srování s nepodpořenými byl velký, mohu usuzovat, že OP LZZ bude fungovat i na muže v moravskoslezském kraji?

Interní a externí validita Slabou interní validitu má např. fokusní skupina vybraná metodou sněhové koule. Slabiny CIE metod v externí validitě lze odstranit opakováním velkého množství evaluací obdobných intervencí nebo kombinací s kvalitativními metodami (mixed methods), kdy poté, co díky CIE zjistím, jak moc intervence funguje, mi např. Theory based impact evaluation může osvětlit, proč to funguje.

Design či metodaPředpoklad 1Pre & Post Před a po bez kontrolní skupiny Neexistuje přirozená dynamika (natural dynamics) 2With & Without Randomized control trial (pokus s náhodný přiřazením účastníků) Regression discontinuity design (regresní diskontinuita) Podpořená a nepodpořená skupina jsou ekvivalentní 3Pre & Post v kombinaci s With & Without Metoda „Difference-in- difference“ – Dvojí diference Na obě skupiny působí externí faktory stejně 4Využití informací o proměnných ovlivňující participaci Regresní analýza Propensity score matching Všechny rozdíly mezi skupinami jsou pozorovatelné 5Instrumental variable (instrumentální proměnná) Existuje něco, co ovlivňuje účast v podpoře, avšak nikoliv výsledek

PRE & POST Měříme pouze situaci účastníků před intervencí a po intervenci. Tzv. one group pretest posttest design (Před a po bez kontrolní skupiny) Základní předpoklad: neexistuje přirozená dynamika, tj. bez politiky by zůstal původní stav Takto lze např. zjišťovat „Dopad stavebních aktivit ŘSD v roce 2010 na délku dálniční sítě v ČR“

PRE & POST Problém je v akceptovatelnosti předpokladu, že neexistuje přirozená dynamiky, protože věci se, jak známo, mění samy od sebe. Pokud přirozená dynamika je nulová, pak je dopad skutečně roven rozdílu mezi konečnou a výchozí situací. Pokud však je přirozená dynamika pozitivní (věci se samovolně zlepšuji), pak by byl dopad nadhodnocen. Pokud je přirozená dynamika negativní (věci se zhoršují), pak by byl dopad podhodnocen.

PRE & POST Možností rozvinutí tohoto přístupu je získání dalších pozorování – časové řady One group interupted time-series design Začátek intervence Impact?

PRE & POST Předpoklad absence přirozené dynamiky se mění na předpoklad neměnnosti trendu. Stále velmi silný předpoklad (Můžete se třeba pokusit vyloučit všechna alternativní vysvětlení, proč by se trend mohl změnit.)

Intuitivní příklad? Ve třídě nabídneme doučování z matematiky. Část žáků se přihlásí, část nikoliv. Na konci roku je průměrná známka z matematiky ve skupině doučovaných 3,2 a ve skupině nedoučovaných 2,7. Bylo doučování prospěšné? Jaký je impact/dopad doučování? Jak probíhal proces výběru (selection process)?

WITH & WITHOUT Měříme situaci účastníků po intervenci a situaci neúčastníků po intervenci, rozdíl považujeme za dopad. Základní předpoklad: neexistují předintervenční rozdíly mezi skupinami způsobené procesem výběru účastníků Nebo jinak: pokud by ani jedna skupina nebyla podpořena, jejich výsledky by byly stejné.

Diskuse Navrhněte způsob, jak změřit účinek (impact) doučování žáků z matematiky.

Jak zajistit totožnost (tedy porovnatelnost) skupiny účastníků a neúčastníků, tj. nulový selection bias – nulové zkreslení výběrem účastníků? Tady aby výsledek účastníků a neúčastníků v situaci bez intervence byl totožný? 48 NEJLEPŠÍ ZNÁMÝ ZPŮSOB JE PROVÉST NÁHODNÉ PŘIŘAZENÍ (RANDOM ASSIGNMENT)

Experimentální metody Randomized control trials Experimentální design používá náhodně vybranou skupinu účastníků (treated group) a kontrolní skupinu (control group). Při použití náhodného přiřazení centrální limitní věta (a dostatečná velikost obou skupin) zajistí, že obě skupiny jsou ekvivalentní ve svých pozorovatelných i nepozorovatelných charakteristikách. Tento přístup má silnou interní validitu (byť existují problémy, zvláště pokud se ví, kdo je v jaké skupině – viz tzv. Hawthrone effect), ale omezenou možnost zobecnění.

Výběr ve skutečném světě strukturálních fondů 1. Oprávněnost Oprávněnost je dána na základě pozorovatelných, zpravidla objektivních veličin (působí to selecion bias?). 2. Rozhodnutí o účasti Ne všichni oprávnění podají žádost, rozhodují o tom nepozorovatelné jevy (působí to selection bias?). 3. Výběr Rozhodování o tom, koho podpořit, probíhá na základě pozorovatelných objektivních i subjektivních veličin, s určitou dávkou náhodnosti (působí to selection bias?).

Výběr ve skutečném světě strukturálních fondů Složitý proces výběru také přináší otázku, jaký impact sledovat: –Podpořené projekty ve srovnání s nepodpořenými? –Podpořené projekty ve srovnání s těmi, co se nepřihlásili? –Podpořené projekty ve srovnání s neoprávněnými? Vše přináší určitou informaci, ne všechno je v praxi stejně snadné.

Zpět k experimentům Přestože je možnost experimentálního designu pro evaluaci strukturálních fondů velmi nepravděpodobná, není to tak nesmyslné, jak se na první pohled zdá.

Zpět k experimentům Etická námitka: Nemůžete přeci losovat, kdo dostane podporu a kdo ne, jak k tomu ti nepodpoření přijdou? Pokud jsme si jistí, že to funguje a nepodpoření mají újmu, tak proč evaluovat? Pokud si nejsme jistí, že to funguje, jaká újma? Podívejte na lékaře, ti v experimentech zabíjejí lidi (určitě mnoho lidí zemřelo jen proto, že byly v kontrolní skupině), kvůli nám nikdo neumře.

Co by mohlo být možné (pokud vůbec něco) Pipeline approach – pokud je poptávka větší než kapacita poskytovatele dotací a nelze všem dát hned, nabízí se možnost losovat kdy na konkrétní projekt dojde (teď nebo za dva roky?), což přináší možnost evaluovat rozdíly ve vývoji po dobu dvou let (častý přístup v rozvojové pomoci). Různá podpora – např. část projektů dostane úvěr, část grant. CIE pak hodnotí, která z intervencí je lepší (darwinovský přístup k vývoji politik). Random encouragement (více u Instrumental variable design).

Regression discontinuity design Využití situace přirozeného experimentu (natural experiment).

Regresní diskontinuita Předpoklady Existuje nějaká spojitá proměnná, která skokově ovlivňuje pravděpodobnost účasti v podpoře. 1 p(T=1) 0 Proměnná X 10 20 30 40 50 60 70 80 90 Funkce p(T=1) „ostrá/sharp“ varianta Funkce p(T=1) „neostrá/fuzzy“ varianta Úsek, kde funkce p(T=1) nemá definovanou derivaci Cut off point

Regression discontinuity design Nějaký příklad? Počet bodů z věcného hodnocení projektové žádosti. 1 0 Pravděpodobnost podpory projektu Počet bodů 10 20 30 40 50 60 70 80 90

Regression discontinuity design Na čem počet bodů závisí? Na mnoha věcech, které neumíme operacionalizovat. To ale nevadí. Lze přijmout předpoklad, že projekty „těsně“ nad čarou, jsou stejně dobré jako projekty „těsně“ pod čarou. Pro projekty blízko hranice platí, že to, zda jsou nad čarou nebo pod čarou je svým způsobem téměř náhodné.

Regression discontinuity design U sledovaného indikátoru pozorujeme v závislosti na počtu bodů např. toto rozložení (modře výsledky nepodpořených projektů, zeleně podpořených). Vysvětlíme-li závislost jednoduchou regresí zvlášť pro obě části, dostaneme toto: Impact

Regression discontinuity design Impact lze odhadnout jako rozdíl mezi vnitřními krajními body obou regresních funkcí. Tento přístup má silnou interní validitu a omezenou externí validitu (omezenou vypovídací schopnost). Ukazuje pouze na dopad podpořených vs. nepodpořených projektů v „blízkosti čáry“. Nevíme nic o dopadu pro projekty s maximem bodů nebo pro nepodpořené projekty s málo body (natož pro ty, co nejsou eligible…).

Pre & Post + With & Without (Two group pretest posttest design) Máme alespoň 4 pozorování: účastníci před a po a neúčastníci před a po. Základní předpoklad: externí faktory působí na obě skupiny stejně. Metoda: Difference in Difference (DD), „rozdíl rozdílů, dvojitá diference“

PRE DIFFE- RENCE POST DIFFE- RENCE counterfactual 70.000 POST difference (10.000) - PRE difference (5.000) = Impact = 5.000 IMPACT ?

Nutné předpoklady 1.Kontrafaktuální trend je rovnoběžný s trendem neúčastníků. 2.Všechny nepozorovatelné rozdíly mezi účastníky a neúčastníky jsou konstantní v čase. 3.Selection bias spočívá pouze ve výchozí úrovni, nikoliv v trendu.

Vzhledem k těmto předpokladům může být odhad impactu pomocí DD přibližný, špatný nebo naprosto zcestný. Oprávněnost použití metody závisí na kvalitativní znalosti kontextu zkoumané intervence. Část předpokladů (rovnoběžnost trendu) můžeme testovat za předpokladu, že máme k dispozici další data – časovou řadu pro obě skupiny v PRE období.

Ošetření proměnných ovlivňujících participaci X (vzdělání) Y (zaměstnanost) T (podpora) Ústřední problém: existuje mnoho jevů, které současně ovlivňují pravděpodobnost, že se osoba bude účastnit naší podpory a sledovanou výslednou proměnnou (např. osoby s nižším vzděláním budeme častěji rekvalifikovat než vysokoškoláky a zároveň má osoba s nižším vzděláním menší pravděpodobnost nalézt zaměstnání než vysokoškolák).

Základním princip Základním principem je porovnávání účastníka s co nejpodobnějším neúčastníkem. (Vysokoškoláky s vysokoškoláky, zdravotně postižené se zdravotně postiženými). V praxi se používají statistické metody odvozené od regresní analýzy.

„párování“ Účastníci Neúčastníci

Předpoklady Mám informace o charakteristikách účastníků i neúčastníků, které ovlivňují účast i výsledky a mám důvod věřit, že ostatní charakteristiky (k nimž nemám data) jsou v obou skupinách shodně rozvrstveny. Obě skupiny jsou dostatečně velké (ne o mnoho méně než tisíc) Existují „podobní“ ve skupině účastníků i neúčastníků

Propensity score matching Statistická metoda, která umí veškeré charakteristiky (ne)účastníka interpretovat jedním číslem (propensity score), následně porovnává páry s nejbližším propensity score. Jako by se zkoumané subjekty lišili jen svojí výškou.

Propensity score matching – možnost rozšíření modelu Máme-li k dispozici daje z doby před intervencí i po intervenci (panelová data), lze použít kombinaci metody Difference-in- Difference a PSM. Vysvětlovanou proměnnou zde pak není hodnota Y, nýbrž její první derivace, což eliminuje všechny pozorovatelné i nepozorovatelné veličiny ovlivňující výchozí úroveň Y a selection bias může zbýt pouze v rozdílném trendu. Máme-li panelová data i pro vysvětlující veličiny, můžeme eliminovat i proměnlivé trend jednotlivých vysvětlujících proměnných.

Instrumentální proměnná Instrumental variable X (IV) Y (výsledek) T (podpora) Co když existuje proměnná, která ovlivňuje participaci v intervenci, ale která (významně) neovlivňuje výsledek?

Skupinová úloha 2 (jako průprava pro použití instrumentálních proměnných) Cisterna se studenou vodou Cisterna, kterou jsme se pokoušeli ohřát Nádoba s teploměrem Navrhněte metodu, jak zjistit rozdíl teploty vody v cisternách. Špatně fungující baterie neumožňuje zcela uzavřít jeden zdroj vody, ale umožňuje namíchat směs v různých známých poměrech. Rozbitá baterie (umožňuje míchat vodu v poměru 25:75 až 75:25)

Úloha z matematiky (jako průprava pro použití instrumentálních proměnných) Natočím si jednu směs (např. 0,25 teplé a 0,75 studené) a změřím teplotu (např. 30 °C). Natočím si jinou směs (např. 0,65 teplé a 0,35 studené) a změřím teplotu (např. 40 °C). Je rozdíl v měření (10 °C) rozdílem teplot v cisternách? NE. Jak spočítám rozdíl? T-S = 10 °C / 0,4 T-S = 25 °C

Úloha z matematiky (jako průprava pro použití instrumentálních proměnných) 0,25 T + 0,75 S = 30 °C 0,65 T + 0,35 S = 40 °C 10 °C = (0,65 T + 0,35 S) – (0,25 T + 0,75 S) 10 °C = 0,4 T – 0,4 S 10 °C = 0,4 (T – S) 10 °C / 0,4 = T – S 25 °C = T – S

Instrumentální proměnná Instrumentální proměnná funguje podobně jako „částečně funkční směšovací baterie“ v předchozím příkladu. Potřebuji nějaký instrument, o kterém vím, že (i) ovlivňuje účast, (ii) neovlivňuje výsledky. Kde ale něco takového najít? První možností je mít štěstí a identifikovat přirozenou IV (např. diskontinuitu v metodikách, administrativní hranice), u které lze úspěšně argumentovat, že ovlivňuje participaci a zároveň neovlivňuje výsledek intervence. U „našeho“ evaluačního projektu je to kvalita hodnotitelů – to, zda projekt dostane přísného nebo shovívavého hodnotitele je náhodné, tato náhoda ovlivňuje šanci, zda bude realizovat projektu, ale neovlivňuje dispozice projektu mít dobré nebo špatné výsledky. Druhou možností je ji uměle vytvořit, často zmiňovaná je možnost, tzv. randomized encouragement / náhodného oslovení.

Náhodné oslovení Mějme pilotní projekt na zlepšení finanční gramotnost. Cílem je zjistit, nakolik naše vzdělávání ve finanční gramotnosti funguje. Postup by byl tento: 1.Uchazeči o zaměstnání na ÚP se mohou účastnit vzdělávání FG. 2.Na tuto možnost jsou však úředníkem aktivně upozorněni pouze uchazeči, kteří se narodili v lichý den. (Umělá instrumentální proměnná). 3.Pochopitelně, uchazeč může účast odmítnout a naopak, ÚP nemůže odmítnout uchazeče narozeného v sudý den, který se o FG vzdělávání doslechl od souseda nebo z médií. 4.Můžeme oprávněně předpokládat, že lidé narození v lichý den jsou stejní jako ti, narození v sudý den. Kdy přišli na svět je náhoda. 5.Pokud naše náhodné oslovení mělo účinek, pak např. ze všech „lichých“ uchazečů se vzdělávání zúčastní 55 % a ze všech „sudých“ jen 15 %.

Náhodné oslovení 6.Po čase např. zjistíme, že z „lichých“ uchazečů 20 % skončilo v registru dlužníků (směs 55% účastníků a 45% neúčastníků). Ze sudých to je 35 % (směs 15% účastníků a 85% neúčastníků). 7.Snadno spočítáme, že účastí na vzdělávání se sníží pravděpodobnost, že uchazeč skončí v registru dlužníků o 0,375. (Průměrný účastník vzdělávání skončí v registru dlužníků s pravděpodobností 3,1 %, totožný průměrný neúčastník s pravděpodobností 40,6 %) => Náš kurs finanční gramotnosti musí být naprosto geniální.

Instrumentální proměnné Omezení designu: IV přístup má silnou vnitřní logiku, avšak za cenu malé přesnosti (čím menší vliv má instrumentální proměnná na participaci v intervenci, tím se výpočet kontrafaktuálu limitně blíží výrazu 0/0 a nelze prokázat statistickou významnost; je to „drahá“ metoda z hlediska potřebné velikosti vzorku. IV přístup má omezenou externí validitu, protože zachycuje (nevychýleně) impact pouze pro skupinu compliers.(Tedy přesně měří efekty na tu skupinu, která se nechala ovlivnit naší náhodně cílenou propagací intervence).

Shrnutí – jak vybrat design podle povahy intervence Jde o univerzální nebo neuniverzální intervenci? Univerzální (např. povinná), existují pouze účastníci. Data jen o účastnících. Neuniverzální, existují účastníci i neúčastníci. Data mám i o neúčastnících. One group design Analýza časových řad (Interupted time series analysis) Comparison group design

Mám panelová data nebo využitelný přirozený experiment? NE. Musím očistit vliv pozorovatelných kontrolních proměnných ANO Propensity score matching NE Využitelný přirozený experiment? ANO Regresní diskontinuity (RDD) nebo Geografický experiment

Mám panelová data pro výsledek (Y) nebo i pro kontrolní proměnné (X)? Jen indikátor Y I kontrolní proměnné (X) Difference-in-difference (DD) nebo DDD Propensity score matching v kombinaci s Difference-in-difference (tj. pomocí PSM vysvětluji derivaci Y nikoliv Y samotné)

Výběr metody Pokud je to možné, je vhodné použít více metod současně jako nástroj testování stability odhadu kontrafaktuálu / impactu. Výstup dobré CIE není jedno číslo se čtyřmi desetinnými místy, ale spíše interval vzniklý na základě testování stability.

Zdroje dalších informací K metodologii CIE pro intervence typu podpora podniků Bondonio, Daniele. Impact identification strategies for evaluating business incentive programs. Dipartimento di Politiche Pubbliche e Scelte Collettive – POLIS Working Paper n. 145, June 2009 [online]. URL:.http://polis.unipmn.it/pubbl/RePEc/uca/ucapdv/bondonio145.pdf Studie věnovaná determinantům účasti v programu (užitečná v případě volby metody propensity score matching jako použité identification strategy): Tanayama, Tanja. Eligibility, awareness and the application decision: An empirical study of firm participation in an R&D subsidy program. Discussion Paper No. 161, April 2007 [online]. University of Helsinki and HECER. ISSN 1795-0562. URL:.http://helda.helsinki.fi/handle/10138/16581

Zdroje dalších informací Příklady zajímavých evaluací: Gadd, Håkan – Hansson, Gustav – Månsson, Jonas. Evaluating the impact of firm subsidy using a multilevel propensity score approach. Working Paper Series Nr 3, 2009 [on-line]. Centre for Labour Market Policy Research. ISSN 1653-638X. URL:.http://www.vxu.se/ehv/filer/forskning/cafo/wps/Nek_wp3_09.pdf Serrano-Velarde, Nicolas. The Financing Structure of Corporate R&D – Evidence from Regression Discontinuity Design. European University Institute [online]. URL:.http://www.fma.org/Prague/Papers/RnDSubsidies- RevisedDraft.pdf Einiö, Elias. The effect of government subsidies on private R&D: evidence from geographic variation in support program funding. Discussion Paper No. 263, May 2009 [online]. University of Helsinki and HECER. ISSN 1795- 0562. URL:.http://helda.helsinki.fi//handle/10138/16776 Bondonio, Daniele – Greenbaum, Robert T. Counterfactual Impact Evaluation of Enterprise Support Policies: An Empirical Application to EU, Co-Sponsored, National and Regional Programs. John Glenn School of Public Affairs Working Paper Series, July 2010 [online]. URL:.https://kb.osu.edu/dspace/bitstream/1811/46842/1/gs_wps_Bondonio_Gre enbaum_2010-001.pdf

Naše aktivity v oblasti CIE V běhu: Pilotní kontrafaktuální evaluace dopadu na naší PO1-Adaptabilita (viz navazující workshop) – mezi použitými metodami je –Regresní diskontinuita (u grantových projektů s využitím hranice bodového hodnocení jako diskontinuity) –Instrumentální proměnná (u grantových projektů náhodná míra „přísnosti“ hodnotitelů –Propensity score matching (u podpor ze Vzdělávejte se!)

Naše aktivity v oblasti CIE Ve stádiu „studie proveditelnosti“ kontrafaktuální evaluace aktivní politiky zaměstnanosti (po technické stránce realizovatelná, nyní řešíme právní problémy z oblasti ochrany osobních údajů). Hledáme další příležitosti (např. individuální pilotní projekt na finanční gramotnost?).

Zdroje dalších informací Obecně k metodologii Counterfactual Impact Evaluation DG REGIO. Evalsed: counterfactual impact evaluation [online]. URL:.http://ec.europa.eu/regional_policy/sources/docgener/evaluation/evalsed/s ourcebooks/method_techniques/counterfactual_impact_evaluation/index_en.htm Shahidur R. Khandker, Gayatri B. Koolwal, Hussain A. Samad (2010). Handbook on impact evaluation : quantitative methods and practices. The International Bank for Reconstruction and Development / The World Bank. ISBN 978-0-8213-8028-4. URL:.http://www- wds.worldbank.org/external/default/WDSContentServer/IW3P/IB/2009/12/1 0/000333037_20091210014322/Rendered/PDF/520990PUB0EPI1101Offici al0Use0Only1.pdf Konference DG REGIO ve Varšavě 2009: „New Methods for Cohesion Policy Evaluation : Promoting Accountability and Learning“ Workshop 1: Rigorous impact evaluation using counterfactuals URL:.http://ec.europa.eu/regional_policy/conferences/evaluation2009/index_en. htm White, Howard (2010). A Contribution to Current Debates in Impact Evaluation. Evaluation, April 2010, pp.153-164.

Děkuji za pozornost. vladimir.kvaca@mpsv.cz web projektu: http://cie.ireas.cz vladimir.kvaca@mpsv.czhttp://cie.ireas.cz

Funguje to, co děláme? aneb možnosti kontrafaktuálních evaluačních přístupů ke zjišťování skutečných účinků veřejných politik. (V prezentaci je použita.

Podobné prezentace

Prezentace na téma: "Funguje to, co děláme? aneb možnosti kontrafaktuálních evaluačních přístupů ke zjišťování skutečných účinků veřejných politik. (V prezentaci je použita."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Funguje to, co děláme? aneb možnosti kontrafaktuálních evaluačních přístupů ke zjišťování skutečných účinků veřejných politik. (V prezentaci je použita.

Podobné prezentace

Prezentace na téma: "Funguje to, co děláme? aneb možnosti kontrafaktuálních evaluačních přístupů ke zjišťování skutečných účinků veřejných politik. (V prezentaci je použita."— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář