Introduction aux Évaluations

L’évaluation aléatoire est un type d’évaluation d'impact qui utilise l'assignation aléatoire pour déterminer le groupe qui recevra le programme, ou la politique à évaluer, afin de pouvoir le comparer avec un groupe n'y participant pas. Comme toute évaluation d’impact, l’évaluation aléatoire vise avant tout à déterminer si un programme a un impact, et, plus précisément, à quantifier cet impact. Les évaluations d’impact mesurent l’efficacité des programmes en comparant les résultats de ceux qui en ont bénéficié (personnes, communautés, établissements de formation, etc.) à ceux des non-participants à ce programme. Pour ce faire, de nombreuses méthodespeuvent être appliquées, mais on considère généralement que les évaluations aléatoires sont les plus rigoureuses et, toutes choses égales par ailleurs, produisent les résultats les plus précis (c’est-à-dire non biaisés).
La section méthode couvre les quoi, pourquoi, qui, quand et comment des évaluations aléatoires.

Pour plus d’informations sur les évaluations aléatoires, vous pouvez consulter les documents suivants :


L'évaluation?     

Le mot « évaluation » renvoie à un large éventail de sens, il est donc compris de différentes manières selon les individus et les organisations. Par exemple, les ingénieurs évaluent, ou testent la qualité de la conception d’un produit, la durabilité d’un matériau, l’efficacité d’un processus de production ou encore la sûreté d’un pont. Les critiques littéraires évaluent ou établissent la qualité d’un livre et les pédopsychiatres évaluent ou apprécient le processus de prise de décision des enfants.


Les chercheurs affiliés à J-PAL évaluent les politiques et programmes sociaux visant à améliorer les conditions de vie des personnes pauvres partout dans le monde. C’est ce que l’on appelle les évaluations de programme.


Les évaluations de programmes doivent répondre à la question : « Quelle est l’efficacité de notre programme, de notre politique ? ». Selon l’identité de la personne qui pose la question et celle du destinataire, les implications peuvent varier. Par exemple, si une donatrice demande au directeur de l’ONG qu’elle finance « Quelle est l’efficacité de notre programme ? », elle peut vouloir dire « Est-ce que vous gaspillez notre argent ? », ce qui n’est pas dénué de suspicion. Si un homme politique demande à ses concitoyens « Quelle est l’efficacité de notre programme ? », il peut vouloir dire « Notre action répond-elle à vos besoins ? À votre avis, comment pourrions-nous l’améliorer ? ». Les évaluations de programme peuvent donc être associées à des sentiments positifs comme négatifs, en fonction de ce qui les motive : une demande de reddition de comptes ou un désir de connaissance ?


J-PAL travaille en collaboration avec des gouvernements, ONG, donateurs et autres partenaires désireux de connaître la réponse à la question : « Quelle est l’efficacité de notre programme ? ». Il est possible d’y répondre par une évaluation d’impact. Bien que nombre de méthodes puissent être appliquées dans la mise en œuvre des évaluations d’impact, J-PAL a fait le choix de l’évaluation aléatoire.


Les évaluations aléatoires peuvent répondre à la question : « Le programme a-t-il été efficace ? » Mais si elles sont conçues et mises en oeuvre, elles peuvent également donner d'autres indications : « Dans quelle mesure le programme était-il efficace ? » S’est-il accompagné d’effets secondaires involontaires ? Qui en a le plus tiré profit ? Qui en a souffert ? Pourquoi a-t-il fonctionné, ou dysfonctionné ? Quelles sont les résultats pouvant être appliqués à d’autres contextes ? Que se passerait-il si le champ d’action du programme était élargi ? Quel a été le rapport coût/efficacité du programme ? Comment se situe-t-il par rapport à d’autres programmes ayant des objectifs comparables ? Ces dernières questions sont tout aussi intéressantes, si ce n'est plus ! Pour y répondre, l’évaluation d’impact doit faire partie d’un ensemble d’évaluations et d’analyses qui, d’après le cadre des évaluations globales proposé par Peter Rossi, Howard Freeman et Mark Lipsey, s’articule de la façon suivante :

  1. Estimation des besoins
  2. Estimation du cadre logique du programme (théorie du programme)
  3. Évaluation de processus
  4. Évaluation d’impact
  5. Analyses coût/bénéfices, coût/efficacité et analyse comparative des coûts
  6. Objectifs, résultats et mesures

L'estimation des besoins et la théorie du programme déterminent les besoins que le programme ou la politique cherchent à combler, et les étapes nécessaires pour atteindre ces objectifs. Dans l’idéal, les personnes qui mettent en place le programme doivent expressément fixer ces étapes avant de lancer l’évaluation d’impact.


Les chefs de projet se servent des évaluations de processus pour déterminer si les étapes clé et les objectifs respectent le calendrier. De nombreuses organisations établissent des systèmes de suivi des processus, souvent intitulés Suivi et Evaluation (S&E).


Les évaluations d’impact sont conçues pour examiner si les programmes ou politiques remplissent leurs objectifs.


Enfin, les analyses coût/bénéfices et coût/efficacité trouvent leur utilité en ce qui concerne les implications politiques plus larges du programme. Les premières déterminent si les bénéfices apportés par le programme sont supérieurs à son coût. Les secondes comparent les effets de ce programme à ceux d’autres programmes présentant des objectifs similaires.


Quelque soit l'estimation, l'évaluation ou l'analyse auxquelles on veut procéder, il est indispensable de réfléchir à la manière dont le changement peut être mesuré. Pour apprécier les indicateurs de changement, il faut s’appuyer sur une réflexion solide - et garder à l’esprit les objectifs du programme et les résultats attendus- ainsi que sur un système de collecte des données bien conçu. 

Estimation des besoins

Les politiques publique et les programmes de lutte contre la pauvreté sont lancés pour répondre à un besoin spécifique. Prenons l’exemple d’une communauté où le taux d’incidence de la diarrhée est particulièrement élevé : cela peut être dû à une contamination de la nourriture ou de l’eau, à une mauvaise hygiène ou encore à beaucoup d’autres explications tout aussi plausibles. L'estimation des besoins peut nous aider à identifier la cause du problème et les personnes qui en sont le plus affectées.

Pour revenir à notre exemple, le problème de diarrhée peut être dû à l’écoulement d’engrais organiques polluant l’eau potable bue par la communauté.

Cette approche systématique permet de déterminer la nature et la portée d’un problème social, de définir la population cible et de mettre en œuvre l’intervention la plus pertinente.

L’estimation des besoins est essentielle parce qu’un programme se révèle inefficace si l’intervention n’est pas correctement conçue pour répondre au besoin ou si le besoin n’existe pas vraiment. Toujours pour suivre notre exemple, si la contamination est d’origine agricole, investir dans des infrastructures sanitaires comme des toilettes ou des systèmes d’épuration risque de ne pas résoudre le problème. Cette phase d’estimation des besoins peut être conduite en utilisant des indicateurs sociaux publiquement disponibles, des données d’enquête et de recensement, des entretiens, etc.

Estimation du cadre logique du programme (théorie du programme)

Les politiques et les programmes sociaux sont lancés pour répondre à un besoin spécifique. Pour ce faire, il ne suffit pas de presser un simple bouton magique ou d’avaler un comprimé miracle, cela exige généralement une réflexion plus approfondie. Les responsables politiques doivent identifier les causes des problèmes (voir Estimation des besoins) et choisir une stratégie parmi un large éventail d’options pour tenter d‘obtenir des résultats d’une grande diversité.

Par exemple, pour lutter contre la consommation d’eau insalubre, on peut concevoir un programme qui permet d’éviter la contamination des eaux en améliorant les infrastructures sanitaires, ou un autre qui utilise le chlore pour traiter les eaux contaminées. La première intervention ciblerait plutôt les responsables de la pollution, tandis que l’autre concentrerait ses efforts sur les consommateurs de cette eau. On pourrait alors adopter diverses stratégies qui reposeraient sur différentes hypothèses : les individus ne savent pas que leur eau est insalubre ; ils en ont conscience mais n’ont pas accès au chlore ; même s’ils le savent et y ont accès, ils choisissent de ne pas ajouter de chlore à leur eau pour d’autres raisons (désinformation, goût, coût etc.). Ces programmes doivent intégrer à la fois les contraintes financières, humaines et institutionnelles, et le contexte politique. C’est en concevant une réponse appropriée que les responsables politiques décident implicitement de ce qu’est la meilleure approche et pourquoi. Après avoir structuré ce travail et réuni suffisamment de documents sur le sujet, les responsables politiques peuvent mener ce qu’on appelle une évaluation de la théorie du programme ou évaluation de conception.

L’évaluation de la théorie du programme permet d’élaborer un modèle théorique, véritable pilier du programme, en présentant un plan plausible et réalisable pour améliorer les conditions de vie de la population cible. Si les objectifs et les hypothèses de départ ne sont pas raisonnables, alors il est peu probable que le programme soit efficace. Pour évaluer la théorie du programme, on commence d’abord par en définir les bases, puis on estime dans quelle mesure elle répond aux besoins de la population que l’on cible. Parmi les différentes méthodes d’évaluation de la théorie du programme, on peut citer l’estimation du cadre logique du programme et la Théorie du Changement.

Évaluation de processus

Avant  même son lancement, un programme existe sous forme de concept : celle d’une ébauche, d’une description ou encore d’un plan (voir Théorie du programme). Cependant, une fois mis en œuvre, il est confronté aux réalités concrètes du terrain. L’organisation dispose-t-elle d’effectifs formés et en nombre suffisant ? Les responsabilités sont-elles correctement assignées ? Les échéances des tâches intermédiaires sont-elles respectées ? Si le programme a pour but de fournir des pastilles de chlore aux ménages afin de leur permettre de purifier leur eau, la bonne quantité peut-elle parvenir aux centres de distribution en temps voulu ?

L’évaluation de processus, aussi appelée évaluation de la mise en place ou estimation du processus du programme, analyse l’efficacité des interventions, de la mise en place d’un programme et  du système de distribution. Lorsqu’une évaluation de processus est en cours, on parle de suivi du programme, souvent effectué par des systèmes de suivi des processus appelés S&E (Suivi et Évaluation). De telles évaluations peuvent par exemple nous aider à déterminer :

• si les services et les objectifs correspondent bien,
• si les services sont fournis comme prévu aux destinataires appropriés,
• si les prestations de service sont bien organisées,
• si la gestion du programme est efficace,
• si la gestion des ressources du programme est efficace.

Les évaluations de processus servent souvent de référence aux responsables pour mesurer le succès d’un programme, comme par exemple l’affirmation suivante : chaque semaine, les pastilles de chlore ont bien été distribuées à 80 % des bénéficiaires désignés. De tels critères peuvent être fixés par les responsables du programme, et parfois par les organismes de financement. Dans la plupart des grandes organisations, le processus de suivi est assuré par des services internes de Suivi & Évaluation (S&E). Pour déterminer si ces critères sont respectés, il faut mettre en place des mécanismes de collecte de données.

Évaluation d’impact

Les programmes et les politiques publiques sont conçus pour réaliser un objectif (ou un ensemble d’objectifs) bien précis. Prenons par exemple le cas d’un programme de distribution de chlore mis en place spécifiquement pour combattre la très forte incidence des maladies transmises par l’eau dans une région. Pour savoir si un programme est en passe d’atteindre son objectif, il n’est en aucun cas question de demander : « Est-ce que le chlore élimine bien les bactéries ? » ou encore « La consommation de chlore est-elle dangereuse pour la santé ? » car il faut un véritable laboratoire pour répondre à ces questions. Pour que le programme puisse atteindre son but et enrayer la progression des maladies, il faut allouer des fonds, acquérir des comprimés de chlore, mettre en place des systèmes de distribution, s’assurer que les ménages reçoivent les pastilles, qu’ils les utilisent bien et qu’ils ne consomment pas d’eau non traitée. Évaluer le programme permet de s’assurer que toutes ces conditions sont remplies et de voir si l’objectif sera effectivement bien atteint comme prévu.

Dans le cadre de certaines opérations, comme la comptabilité de base, on obtient quelques données, par exemple le nombre de boîtes de comprimés de chlores expédiées. On peut utiliser ce type d’informations dans une évaluation de processus. Cependant, cela ne nous dit pas si nous avons réduit l’incidence des cas de diarrhée. Pour mesurer l’impact, il faut se servir d’indicateurs plus directs, comme par exemple le nombre d’individus qui ont déclaré avoir souffert de diarrhées ces deux derniers mois.

Les évaluations d’impact analysent le succès d’un programme, que l’objectif soit atteint largement ou seulement de justesse. Elles nous permettent d’éliminer les interventions les moins efficaces pour ne garder que les meilleures et nous aident à améliorer les programmes existants.

Le but principal d’une évaluation d’impact est de déterminer si un programme a bien un impact (sur quelques résultats clés) et surtout de quantifier cet impact. Tout d’abord, qu’est-ce qu’un impact ? Si l’on reprend notre exemple avec le chlore, l’impact se mesure par la différence entre l’état de santé des individus qui ont bénéficié du programme et ce qu’aurait été leur état de santé sans ce programme. Ou plus spécifiquement, il s’agit de savoir de combien a été diminuée l’incidence des diarrhées par rapport à ce qu’elle aurait été en l’absence du programme.

Il est plus difficile qu’il n’y paraît d’obtenir le chiffre exact. Il est bien sûr possible de mesurer l’incidence de la diarrhée au sein de la population qui a bénéficié du programme. Cependant, une mesure directe de « ce qui se serait passé sans le programme » est totalement irréalisable, tout comme il est impossible de savoir ce que serait l’économie américaine aujourd’hui si les Nazis avaient gagné la Deuxième Guerre mondiale, ou de déterminer quelle serait la maladie la plus meurtrière de nos jours si Alexander Fleming n’avait pas découvert la pénicilline en 1928 à Londres, dans un vieux laboratoire. L’Allemagne serait peut-être devenue la plus puissante économie du monde, ou alors le régime Nazi serait tombé de lui-même quelques années plus tard. Et peut-être que les petites blessures légères seraient toujours les plus meurtrières, ou alors qu’une substance proche de la pénicilline aurait quand-même été découverte, mais dans un autre laboratoire, à l’autre bout du monde. Si l’on revient à notre exemple du chlore, il est possible que, sans les comprimés, l’état de santé des individus soit resté le même, mais il se peut aussi qu’ils aient commencé à faire bouillir leur eau à la place. Dans ce cas, cela implique que le chlore n’a été qu’un remède substitué à un autre et donc que les individus ne doivent pas vraiment l’amélioration de leur santé directement au chlore.

Les évaluations d’impact analysent l’efficacité d’un programme en comparant les résultats de ceux qui y ont participé (individus, communautés, écoles etc.) à ceux qui sont restés en dehors. Le plus important dans une évaluation d’impact est de trouver un groupe de personnes qui n’ont pas pris part au programme mais qui ressemblent beaucoup aux participants, et plus exactement aux participants s’ils n’avaient pas bénéficié du programme. Leurs résultats sont les plus proches de cet état que nous puissions obtenir. Il existe de nombreuses méthodes  pour créer un tel groupe de comparaison et chacune d’entre elles est dotée de ses propres hypothèses.

Analyses coût/bénéfices, coût/efficacité et analyse comparative des coûts

Deux organisations peuvent parvenir à des stratégies complètement différentes en abordant pourtant le même problème. Si par exemple une communauté consomme de l’eau contaminée et que cela provoque une forte incidence des cas de diarrhée, une ONG pourrait suggérer d’investir dans des réseaux de distribution d’eau et des infrastructures sanitaires plus modernes, avec un système d’épuration, des canalisations etc. Mais une autre pourrait plutôt proposer un système de distribution dans lequel on donnerait aux ménages des comprimés de chlore gratuits afin qu’ils puissent purifier leur eau chez eux. Mais pour peu que ces deux stratégies se révèlent aussi efficaces l’une que l’autre, en réduisant l’incidence des cas de diarrhée de 80 % par exemple, appliquer l’une ou l’autre reviendrait-il au même pour les responsables politiques ? Sans doute pas. Ils devront aussi prendre en compte le coût de chaque stratégie.
Il est très probable que la modernisation des infrastructures d’un village complètement isolé coûterait un prix exorbitant. Dans ce cas, la décision à prendre semble évidente, mais l’alternative n’est pas toujours aussi tranchée. En réalité, dans cet exemple, on se retrouverait plutôt confronté à un choix entre un investissement dans des infrastructures qui permettraient de réduire l’incidence des cas de diarrhée de 80 % et un programme de distribution de chlore qui coûterait cent fois moins cher et réduirait l’incidence des cas de diarrhée de 50 %.

L’analyse coût/bénéfice permet de quantifier les bénéfices et les coûts d’un programme en les mettant dans la même unité. Pour se faire, on se contente généralement de chiffrer les bénéfices. Cette analyse tente de répondre à la question suivante : Les bénéfices apportés par le programme sont-ils supérieurs à son coût ? Ou en d’autres termes, cet investissement a-t-il enrichi ou appauvri la société ? Cela dit, placer une valeur monétaire sur la santé des enfants par exemple peut cependant se révéler extrêmement complexe et subjectif. Et lorsqu’il n’y a pas de large consensus sur la valeur exacte du bénéfice, les résultats de ce type d’analyse peuvent s’avérer plus controversés que réellement instructifs. Cette approche est donc surtout utile lorsque l’on a plusieurs types de bénéfices pour lesquels il est possible de s’accorder sur une unité commune.

L’analyse coût/efficacité consiste à diviser l’impact d’un programme (par exemple le pourcentage de réduction des cas de diarrhée) par son coût. Cela permet d’obtenir un chiffre, ici le nombre de diarrhées évitées par dollar dépensé. Cette approche n’émet aucun jugement sur la valeur de la diminution des cas de diarrhée.

Enfin, l’analyse comparative des coûts consiste à regrouper plusieurs programmes et à les comparer en leur donnant une même unité. Ainsi, les responsables politiques peuvent obtenir la réponse à la question suivante : Pour chaque stratégie, de combien puis-je faire diminuer l’incidence des cas de diarrhée avec un dollar?

Objectifs, résultats et mesures

Il est souvent demandé aux gouvernements et aux ONG menant une évaluation de programme de réduire le compte-rendu de leur mission à une poignée de résultats, qui, bien sûr, seront utilisés pour définir le succès du programme. Pour ne rien simplifier, chaque résultat doit à son tour être ramené à un indicateur, comme par exemple la réponse à l’une des questions d’une enquête ou le résultat d’un test.

Cette tâche redoutable peut sembler impossible et la requête absurde. En effet, cela amène à penser que les évaluateurs se préoccupent uniquement de données et de statistiques, au détriment des réelles conditions de vie des personnes ciblées par le programme.

Pour certains objectifs, les indicateurs correspondants en découlent naturellement. Par exemple, si l’on distribue du chlore dans le but de réduire les maladies transmises par l’eau, le résultat pourrait être une diminution des cas de diarrhée. L’indicateur correspondant, l’incidence des cas de diarrhée, pourrait provenir d’une question dans une enquête destinée aux ménages, où l’on demanderait directement aux participants : « Quelqu’un dans votre foyer a-t-il eu la diarrhée la semaine dernière ? »

Cependant, les résultats peuvent ne pas être aussi probants pour d’autres objectifs tels « l’émancipation des femmes » ou « le développement du sens civique ». Cela ne signifie pas qu’il est impossible de mesurer la plupart des objectifs, mais plutôt qu’il faut faire preuve de plus de réflexion et de créativité pour déterminer leurs indicateurs correspondants. 

Qu'est-ce que l'assignation aléatoire? 

Au sens propre, l’assignation aléatoire correspond à ce qui se passe lorsqu'on joue à pile ou face ou aux dés, ou encore si on pioche un papier au hasard dans un chapeau. Le résultat du lancer de la pièce, du dé ou de la pioche détermine ce qui se passe ensuite. Quand ces méthodes – pièce, dé, loterie – sont utilisées pour prendre des décisions, le résultat est obtenu par le hasard. On dit aussi qu'il est randomisé.


Pourquoi les statisticiens utilisent-ils l’assignation aléatoire ? Lorsque suffisamment de personnes sont aléatoirement choisies – c'est à dire par le hasard - pour participer à une enquête, les caractéristiques de ces individus tirés au sort sont représentatives du groupe entier à l’intérieur duquel ils ont été choisis, ce qui est très commode. En d’autres termes, la probabilité est très élevée pour que ce que l’on constate à leur sujet soit également vrai pour l’ensemble du groupe. Utiliser une loterie pour obtenir un échantillon représentatif est appelé échantillonnage aléatoire ousélection aléatoire.


Quand deux groupes sont aléatoirement sélectionnés dans une même population, tous les deuxreprésentent le groupe entier. Ils ne sont pas seulement statistiquement équivalents à l’ensemble du groupe, ils sont aussi statistiquement équivalents entre eux. La même logique vaut si plus de deux groupes sont sélectionnés aléatoirement. Quand deux groupes ou plus sont constitués de cette manière, on dit que les individus ont été assignés aléatoirement à ces groupes. L’assignation aléatoire est une caractéristique essentielle de l’évaluation aléatoire.
Que se passe-t-il ensuite dans une évaluation aléatoire simple (comprenant deux groupes) ? Un groupe va participer au programme à évaluer et l’autre non. Au départ, les deux groupes sont donc statistiquement équivalents et ainsi doivent avoir une trajectoire équivalente dans le futur. Mais on introduit un élément qui va les rendre différents: par exemple, un groupe va recevoir un programme de purification de l’eau et l’autre non. Au bout de quelque temps, on pourra mesurer l’état de santé relatif des individus dans les deux groupes. Puisqu'ils étaient statistiquement équivalents au début, toutes les différences observées alors peuvent être attribuées au programme de purification de l’eau.


Les évaluations aléatoires peuvent prendre plusieurs noms :

  • Essais contrôlés randomisés
  • Expérimentations sociales
  • Études par assignation aléatoire
  • Essais randomisés de terrain
  • Expérimentations contrôlées randomisées


Les évaluations aléatoires font partie d’un ensemble plus large, l'évaluation d’impact. Les évaluations aléatoires sont souvent considérés comme l’étalon-or de l’évaluation d’impact, parce qu’elles produisent systématiquement les résultats les plus pertinents.


Comme pour toutes les évaluations d’impact, l’objectif principal des évaluations aléatoires est de vérifier si un programme a un impact, et plus précisément, d'en quantifier ses effets. Ces évaluations mesurent l’efficacité des programmes en comparant les résultats de ceux (individus, communautés, écoles, etc.) qui ont participé au programme par rapport à ceux qui n’y ont pas participé. De nombreuses méthodes existent.


Ce qui distingue les évaluations aléatoires des autres évaluations d’impact non-aléatoires est que la participation (et la non participation) est déterminée aléatoirement – avant que le programme ne commence. Ce procédé est le même que celui utilisé, dans les essais cliniques, pour déterminer qui recevra le médicament ou le placebo, afin de tester l’efficacité et les effets secondaires d’un nouveau médicament. Comme dans les essais cliniques, ceux qui ont été assignés aléatoirementau « groupe test » sont ceux qui reçoivent le traitement (i.e. le programme). Et ils sont comparés à ceux qui ont été aléatoirement assignés au « groupe témoin » - ceux qui n’ont pas reçu le programme. Parce que les membres des deux groupes, test et témoin, ne sont pas différents au début de l’expérimentation, toute différence advenant ensuite entre eux peut être attribuée au programme et non à d’autres facteurs.


En comparaison avec les résultats des évaluations non-aléatoires, les résultats des évaluations aléatoires sont :

  • moins sujets à des débats méthodologiques
  • plus faciles à communiquer
  • plus efficaces pour convaincre les décideurs politiques et ceux qui financent les programmes.

Au delà de la mesure des résultats espérés du programme, les évaluations aléatoires peuvent aussi quantifier les effets secondaires (bon ou mauvais) imprévus. Et tout comme les autres méthodes d’évaluation d’impact, les évaluations aléatoires peuvent aussi mettre en lumière les raisons qui ont fait que le programme a eu ou non l'impact désiré.

1. L’assignation aléatoire dans le contexte de l’évaluation

Les évaluations aléatoires évaluent l'impact en utilisant une méthodologie spécifique pour créer un groupe témoin (ou de comparaison), - la méthode de l’assignation aléatoire. Elles visent les objectifs finaux ou les résultats d’un programme. Différents types d’évaluations peuvent également être pertinents, pour mesurer d'autres résultats. (Voir L’évaluation ?)

2. La méthodologie de l’assignation aléatoire

L’objectif d’une évaluation n’est pas toujours clair pour ceux qui ont déjà participé à la gestion d'enquêtes, à la saisie de données, puis à la rédaction de rapports ensuite rapidement enterrés. La seule chose claire dans cette histoire est que l’argent, qui aurait dû être utilisé pour développer le programme, a été englouti dans l’évaluation et donc n’est plus disponible. Ce schéma est fréquent quant l’évaluation a été imposée par d’autres.


En revanche, lorsque les responsables, chargés de prendre des décisions sur la conception des programmes, ou de décider quels programmes mettre en place, ont des questions essentielles, alors les évaluations peuvent les aider à trouver des réponses. Une évaluation est très utile quand les responsables de programmes ou les décideurs politiques débattent de ce qui devrait être évalué. Pour des explications plus approfondies aller dans Pourquoi évaluer ?

Sans doute une évaluation qui pose les mauvaises questions est-elle aussi frustrante que celle qui pose les bonnes questions mais donne des réponses non fiables. Des investissements en argent, en temps, en réflexion et en énergie sont nécessaires pour comprendre quelle est la bonne question. Il n’est donc pas abusif d'attendre des réponses précises. Bien souvent, si la méthode d’évaluation utilisée est mauvaise, même les techniques statistiques les plus créatives ne pourront en corriger les erreurs. Un protocole d'assignation aléatoire peut aider à s’assurer que les réponses seront fiables.

Pourquoi évaluer?

L’objectif d’une évaluation n’est pas toujours clair pour ceux qui ont participé à la gestion d'enquêtes, à la saisie de données, puis à la rédaction de rapports ensuite rapidement enterrés. Cela se produit souvent lorsque l’évaluation est imposée par un commanditaire extérieur.

Cependant, lorsqu’un programme nécessite des actions quotidiennes et que ses responsables se posent des questions fondamentales, une évaluation peut leur apporter les réponses qu’ils cherchent. Prenons l’exemple d’une ONG chargée de distribuer des pastilles de chlore. Elle discute avec ses équipes sur le terrain, apprend que les ménages utilisent les pastilles avec assiduité et constate parfois que leur santé s’améliore. Cependant, à chaque forte pluie, les hôpitaux sont envahis de patients souffrant de maladies diarrhéiques. Alors l’ONG commence à se poser des questions : « Si les gens utilisent bien le chlore pour purifier leur eau, pourquoi tombent-ils malades dès lors qu’il pleut ? Même si l’eau est plus polluée par temps de pluie, le chlore devrait éliminer toutes les bactéries. » Elle se met à douter de l’efficacité des pastilles. Est-ce que les gens utilisent les bonnes doses ? Peut-être que nos équipes sur le terrain ne nous disent pas la vérité. Peut-être que les ménages qui en bénéficient ne les utilisent pas. Peut-être même qu’ils ne les reçoivent pas. Puis, une fois confrontées à ce fait, les équipes de terrain expliquent que, lors de fortes pluies, il est plus difficile d’atteindre les foyers pour distribuer les pastilles. Cependant, les ménages répondent de leur côté qu’ils ont pris grand soin d’utiliser les pastilles lorsqu’il pleuvait et qu’elles leur ont été bien utiles.

C’est en discutant avec les parties intéressées et avec des individus à différents échelons de l’organisation que l’on peut découvrir plusieurs versions d’une même situation. Ces récits peuvent servir de base à l’élaboration de théories. Cependant, une explication plausible n’est en aucun cas une vraie réponse. Les évaluations doivent formuler des hypothèses sur ce qui se passe, avant de les valider ou non par des tests.

Pourquoi tirer au sort?

Qu’est-ce que l’impact ? Si l’on reprend notre exemple avec le chlore, l’impact se mesure par la différence entre l’état de santé des individus qui ont bénéficié du programme et ce qu’aurait été leur état de santé sans le programme. Ou plus spécifiquement, il s’agit de savoir de combien a été diminuée l’incidence des diarrhées par rapport à ce qu’elle aurait été en l’absence du programme.
Il est plus difficile qu’il n’y paraît d’obtenir ce chiffre. Il est bien sûr possible de mesurer l’incidence de la diarrhée au sein de la population qui a bénéficié du programme. Cependant, une mesure directe de « ce qui se serait passé sans le programme » (généralement appelé le contrefactuel) semble impossible et l’on doit se cantonner aux hypothèses.

Établissement d’un groupe de comparaison

Les évaluations d’impact estiment l’efficacité d’un programme en comparant les résultats de ceux qui y ont participé (individus, communautés, écoles etc.) à ceux d’un autre groupe qui est resté en dehors. Le plus important dans une évaluation d’impact est de trouver un ensemble de personnes qui n’ont pas pris part au programme mais qui ressemblent beaucoup aux participants, et plus exactement aux participants s’ils n’avaient pas bénéficié du programme. Les résultats mesurés pour le groupe témoin en sont les plus proches. Ainsi, l’évaluation d’impact est d’autant plus exacte que le groupe de comparaison est équivalent au groupe des participants.

Il existe de nombreuses méthodes pour créer un groupe de comparaison (aussi appelé groupe contrôle), certaines étant plus efficaces que d’autres. Les évaluations aléatoires sont les plus performantes. Elles permettent de générer un groupe de comparaison statistiquement identique et donc de produire les résultats les plus précis et objectifs possible. Ou pour le dire autrement : les autres méthodes fournissent souvent des résultats trompeurs, lesquels entraînent les responsables politiques à prendre des décisions erronées.

Ces autres méthodes ne donnent pas toujours la mauvaise réponse, mais elles reposent plus sur des hypothèses. Lorsque ces hypothèses sont exactes, la réponse élaborée n’est pas biaisée. Cependant, il est généralement impossible et toujours laborieux de s’assurer de leur exactitude. D’ailleurs, la plupart des débats sur la validité d’une évaluation reposent souvent sur des désaccords quant à la validité des hypothèses.

En plus d’échapper aux débats houleux sur les hypothèses, les évaluations aléatoires fournissent des résultats qui sont très faciles à expliquer. 

Qui?

Chaque évaluation aléatoire est le résultat d’un partenariat entre des chercheurs, l'organisation qui met en œuvre le programme à évaluer (gouvernement ou ONG), les bailleurs de fonds qui financent le programme et l’évaluation, les centres de recherches qui emploient l’équipe nécessaire pour chaque évaluation, et les sujets de la recherche qui acceptent d’y participer. Les programmes sociaux évalués sont souvent conçus pour cibler une certaine population, par exemple les personnes pauvres ou défavorisées. Les personnes visées dans ces programmes sont aussi les sujets de recherche participant à l’évaluation

J-PAL, Laboratoire d’action contre la pauvreté, a été fondé en 2003. Il s’agit d’un réseau de chercheurs affiliés, qui mènent des évaluations d’impact en utilisant la méthode de l’évaluation aléatoire, afin de répondre à des questions essentielles pour la lutte contre la pauvreté dans le monde. Les chercheurs affiliés à J-PAL ne sont pas les seuls à utiliser cette méthode puisqu’elle est très prisée par un grand nombre d’individus et d’organisations. Il leur arrive cependant de conduire aussi des évaluations non aléatoires. Pour mieux connaître l’histoire des évaluations aléatoires, des essais cliniques aux programmes sociaux de lutte contre la pauvreté, en passant par les expérimentations agricoles, cliquer ici. Pour un petit historique de J-PAL, cliquer là.


Depuis la création de J-PAL, plus de 200 organisations ont collaboré avec des chercheurs affiliés à J-PAL sur une évaluation aléatoire. Le concept d’évaluation aléatoire a désormais une place à part entière chez les spécialistes du développement et de la lutte contre la pauvreté.

Sur les dix fondations américaines les plus importantes1, six s’intéressent au développement international. Parmi ces six, quatre ont collaboré avec des chercheurs de J-PAL sur une évaluation aléatoire : il s’agit de la Fondation Bill & Melinda Gates, la Fondation Ford, la Fondation William & Flora Hewlett et la Fondation John D. & Catherine T. MacArthur.

Sur les dix organisations internationales les plus importantes3, quatre ont collaboré avec des chercheurs de J-PAL sur une évaluation aléatoire (la Banque Mondiale, l’Asian Development Bank, l’Unicef, et l’Inter-American Development Bank) et six ont envoyé des membres de leur personnel suivre des formations organisées par J-PAL.

Quatre des huit associations humanitaires les plus importantes4, Save the Children, Catholic Relief Services, CARE et Oxfam, ont collaboré avec J-PAL sur une évaluation aléatoire. L’International Rescue Committee en effectue de son côté, et six ont envoyé des membres de leur personnel suivre des formations organisées par J-PAL.

Certains gouvernements ont aussi collaboré avec des chercheurs de J-PAL. Parmi les principaux pays partenaires donateurs, on peut citer les États-Unis (USAID, MCC), la France (Le Ministère de la Jeunesse et des Solidarités Actives), la Suède, et le Royaume-Uni (DFID). Les pays en développement ne sont pas en reste puisqu’ils collaborent à la fois au niveau national (comme par exemple le Ministère de l’éducation kenyan ou encore le Decentralization Secretariat du Gouvernement de Sierra Leone) et à un niveau plus régional (comme par exemple le Gouvernement de l’Andhra Pradesh, le Pollution Control Board de l’État de Gujarat en Inde, et la Police du Rajasthan).

Un certain nombre de centres de recherche ont pu voir le jour grâce au soutien ou sous la tutelle des chercheurs de J-PAL. Ils sont souvent chargés de conduire des évaluations aléatoires en employant le personnel de terrain qui y est associé. On peut citer parmi eux Innovations for Poverty Action (IPA), le Centre for Microfinance, l’Initiative pour le Micro-développement du Center for International Development (CID), le Center of Evaluation for Global Action (CEGA), Ideas42 et le Small Enterprise Finance Center (SEFC).

Certaines entreprises privées mènent aussi des évaluations aléatoires sur des programmes sociaux, comme par exemple la Mathematica Policy Research et Abt Associates.

Qui participe aux évaluations aléatoires?

Cette question est l’une des plus sensibles auxquelles un évaluateur peut être confronté. Pour y répondre, il doit tenir compte de ce qui est éthique et équitable. Il serait, par exemple, contraire à l’éthique de priver un ménage d’une solution de traitement de l’eau pour les besoins d’une expérimentation, dans le cas où il aurait pu y avoir accès en dehors du programme.

1. Les questions éthiques

Comment un évaluateur peut-il donc conduire son expérimentation sans transgresser les normes de l’équité et de l’éthique ?

Les évaluations aléatoires sont souvent appropriées en cas de ressources insuffisantes. Généralement, une organisation ne dispose pas d’un budget assez important pour permettre à tous les membres d’une communauté, d’un quartier ou d’un pays de bénéficier d’un programme. Pour des raisons d’ordre budgétaire, elle doit donc décider de qui pourra profiter ou non dudit programme. Même si elle cible un sous-groupe de personnes qui en ont particulièrement besoin ou ceux qui en tireraient le plus de bénéfices, il est peu probable qu’elle parvienne à faire participer tout le monde, même au sein du sous-groupe cible. Cette situation offre à un évaluateur la possibilité d’effectuer une évaluation aléatoire. Il peut alors utiliser un tirage au sort pour répartir le peu de ressources disponibles entre les membres du sous-groupe cible.

L’évaluateur ne doit pas uniquement s’assurer que son expérimentation est éthique, elle doit aussi être équitable. Lorsqu’il assigne aléatoirement les participants au groupe test ou au groupe témoin, il doit veiller à ce que chacun ait une chance égale de faire partie du groupe test et ainsi de bénéficier du programme. Pour ce faire, il est possible d’effectuer une loterie ou d’articuler le programme en différentes phases, permettant ainsi une rotation des participants afin que chacun puisse en profiter tour à tour. Le processus de sélection doit aussi être transparent et sembler équitable à la communauté.

En général, les évaluateurs sont confrontés au problème de l’attribution d’un programme clairement avantageux, comme la distribution de produits pour le déparasitage ou le traitement des eaux. En d’autres termes, le dilemme éthique surgit à partir du moment où l’on crée un groupe d’individus qui se verront refuser l’accès au programme. Cependant, il se peut parfois que les bénéfices n’aient pas été prouvés, ce qui signifie qu’il est possible que le programme se révèle potentiellement désavantageux pour les participants. Les groupes pharmaceutiques, par exemple, sont souvent confrontés à ce problème lorsqu’ils testent de nouveaux médicaments sur des patients. Dans ce cas, un évaluateur doit s’assurer que les participants du groupe test ne sont pas en danger. S’il existe le moindre risque, alors il est nécessaire d’en informer les participants et d’obtenir leur accord. Même si une expérimentation semble ne pas comporter de risques, chaque participant doit donner son consentement éclairé, que ce soit dans le groupe test ou dans le groupe témoin. Différentes nations et organisations ont développé des protocoles sur les sujets humains, qu’il faut suivre avec attention. 

2.    Sujets de la recherche et Comité d’éthique

Un Comité d’éthique est un groupe indépendant qui a été officiellement désigné par une institution, telle qu’une université ou une association à but non lucratif, afin d’approuver, de surveiller et d’analyser les projets de recherche dont les participants sont des êtres humains. L’objectif d’un tel comité est de s’assurer, dès le lancement d’un projet de recherche mais aussi tout au long du programme, que toutes les mesures sont prises pour garantir les droits et la protection sociale des êtres humains qui en sont les sujets.
Comme les évaluations de J-PAL impliquent des sujets humains, les chercheurs affiliés et leurs assistants doivent s’assurer que leur projet se conforme aux méthodes de recherche éthique. Cela se traduit par :

  • L’approbation nécessaire du Comité d’éthique pour chaque projet avant son commencement,
  • La réalisation d’une formation aux questions éthiques par tout le personnel de recherche,
  • L’adhésion pour toute la durée du projet à un protocole de recherche approuvé par le Comité d’éthique ainsi qu’à ses directives.

Quand?

Pour un bref historique des évaluations aléatoires, voir : “Quand les évaluations aléatoires ont-elles commencé ?”

Pour savoir si une évaluation aléatoire est pertinente, voir : “Quand mener une évaluation aléatoire ?” ou “Quand une évaluation aléatoire est-elle appropriée ou non ?”

Quand les évaluations aléatoires ont-elles commencé?

1.    Essais cliniques

Les notions de groupe test et de groupe témoin ont été introduites en 1747 par James Lind, lors d’une expérimentation scientifique visant à démontrer l’efficacité des agrumes contre le scorbut.1 En raison de son travail, Lind est considéré comme le père des essais cliniques. La méthode d’assignation aléatoire aux groupes test et témoin n’a cependant pas vu le jour avant les années 1920.

2.    Expérimentations agricoles

L’évaluation aléatoire s’est donc développée dans les expériences scientifiques à partir des années 1920, lorsque Neyman et Fisher ont été les premiers à utiliser l’assignation aléatoire en agronomie. Le travail expérimental de Fisher sur le terrain a été parachevé dans son ouvrage le plus marquant, The Design of Experiment, qui peut être tenu en grande partie responsable du développement des évaluations aléatoires.2

3.    Programmes sociaux

Les évaluations aléatoires ont été introduites dans les expérimentations sociales du gouvernement entre 1960 et 1990. Il n’était alors plus question d’expériences à petite échelle sur des plantes ou des animaux. Ces toutes nouvelles expérimentations sociales s’effectuaient à bien plus grande échelle et faisaient des individus les principaux sujets de l’expérience. L’idée de mener des expérimentations des politiques sociales s’est développée après un débat sur les bénéfices d’un système de protection sociale aux États-Unis dans les années 1960. Le modèle a ensuite été appliqué en Europe et en Amérique pour évaluer d’autres programmes comme les tarifications de l’électricité, les programmes pour l’emploi ou encore les allocations au logement. Depuis, les expérimentations sociales ont été utilisées par de nombreuses disciplines, dans différents contextes et à travers le monde entier pour orienter les décisions politiques.3

J-PAL, Laboratoire d’action contre la pauvreté, a été fondé en 2003. Il s’agit d’un réseau mondial de chercheurs affiliés, qui mènent des évaluations aléatoires, afin de répondre à des questions essentielles pour la lutte contre la pauvreté dans le monde.

Quand mener une évaluations aléatoire?

La valeur apportée par l’évaluation rigoureuse d’un programme ou d’une politique varie en fonction du moment au cours duquel on effectue l’évaluation. En effet, celle-ci ne doit pas avoir lieu trop tôt, lorsque le programme est encore en train de prendre forme et que les difficultés commencent à peine à s’aplanir. Mais elle ne doit pas non plus être réalisée trop tard, lorsque tout l’argent a été alloué, que le programme a été lancé et qu’il n’y a donc plus moyen d’introduire un groupe témoin.

Idéalement, il faudrait mener une évaluation durant la phase pilote d’un programme ou avant son lancement à plus grande échelle. En effet, c’est pendant ces phases que l’évaluateur en vient souvent à se poser d’importantes questions, comme par exemple : Quelle est l’efficacité du programme ? Est-il efficace pour toutes les populations ? Est-ce que certains de ses aspects fonctionnent mieux que d’autres, et comment l’améliorer ? Est-il toujours aussi efficace lorsqu’on l’élargit à une plus grande population ?

Pendant la phase pilote, les effets d’un programme sur une population donnée ne sont pas connus. Le programme peut être tout nouveau, mais il se peut aussi qu’il s’agisse d’un projet déjà existant qu’on souhaite étendre à d’autres populations. Dans les deux cas, il est intéressant pour les responsables du projet concerné et la classe politique de mieux comprendre l’efficacité d’un tel programme et la manière de l’améliorer. Par définition, le programme pilote ne s’appliquera qu’à une partie de la population cible, ce qui permet d’effectuer une évaluation aléatoire. Après la phase pilote, s’il se révèle efficace, qu’il bénéficie d’un soutien accru et donc de plus de ressources, le programme peut être reproduit ou lancé à plus grande échelle pour que le reste de la population cible puisse en profiter.

PROGRESA, un programme de transferts monétaires conditionnels lancé en 1997 au Mexique, est un très bon exemple d’une évaluation effectuée au moment opportun.  L’aide était versée en espèces aux mères de famille, à condition que leurs enfants fréquentent avec assiduité l’école et se fassent vacciner. Mais peu après, le parti révolutionnaire institutionnel (PRI), au pouvoir depuis 68 ans, a commencé à craindre une inéluctable défaite aux élections présidentielles à venir. Une défaite électorale entraînerait sans doute l’arrêt des programmes alors en place, dont PROGRESA. Il a donc cherché à rallier un large soutien pour le programme, en démontrant clairement son efficacité sur l’éducation et la santé des enfants.

PROGRESA a tout d’abord été introduit en pilote, dans les zones rurales de sept États. Sur les 506 communautés retenues par le gouvernement mexicain pour participer à la phase pilote du programme, 320 ont été assignées aléatoirement au groupe test et 186 au groupe témoin. Au bout d’un an, on a pu comparer ces deux groupes et constater que le programme améliorait grandement les résultats scolaires des enfants. Et comme le PRI l’avait espéré, sa popularité s’est étendue à tout le pays, et plus seulement à une petite communauté composée des premiers soutiens et bénéficiaires du programme.

Après la défaite très largement attendue du PRI aux élections présidentielles de 2000, le parti d’action nationale (PAN) a pris le pouvoir et a hérité de ce programme immensément populaire. Au lieu de l’arrêter, le PAN l’a rebaptisé OPORTUNIDADES et l’a élargi au pays tout entier.

Ce programme a très vite été reproduit dans d’autres pays comme le Nicaragua, l’Équateur et le Honduras. Ces derniers ont suivi l’exemple du Mexique pour mener des évaluations pilotes afin de tester l’impact de programmes directement inspirés de PROGRESA sur leur population, avant de les lancer à plus grande échelle.

Quand une évaluations aléatoire est-elle approprieé ou non?

Les évaluations aléatoires peuvent ne pas être appropriées :

1.   Lorsqu’il s’agit d’évaluer des politiques macro-économiques.

Aucun évaluateur ne dispose du pouvoir politique nécessaire pour mener une évaluation aléatoire sur différentes politiques monétaires. On ne peut en effet pas se permettre d’assigner aléatoirement un taux de change flottant au Japon et à un groupe de nations, et un taux de change fixe aux États-Unis et à un autre groupe de pays.

2.   Lorsqu’il est contraire à l’éthique ou impossible d’un point de vue politique de refuser à un groupe témoin l’accès à un programme.

Il serait en effet contraire à l’éthique de refuser à des participants, au nom d’une expérimentation, un médicament dont les bienfaits ont déjà été prouvés sur certains patients, si on en dispose en quantité suffisante.

3.   Si le programme change au cours de l’expérimentation.

Si, au beau milieu d’une expérimentation, un programme est modifié et qu’au lieu de fournir uniquement une solution de traitement de l’eau, il fournit en plus des latrines, il sera difficile de déterminer quelle partie du programme tenir responsable des résultats observés.

4.   Si le programme dans des conditions expérimentales diffère radicalement de ce qui se passerait s’il était appliqué dans des conditions normales.

Lors d’une expérimentation, les participants sont plus susceptibles d’utiliser une solution de traitement de l’eau si on les y encourage ou incite. Dans des conditions normales, sans encouragements ni incitations, la plupart des gens ont tendance à ne pas utiliser cette solution de traitement de l’eau, et ce même s’ils la possèdent et savent s’en servir.

Toutefois, ce type d’évaluation peut justement être précieux pour tester la faisabilité d’un programme ou d’une politique. Il s’agirait juste de poser la question suivante : « Est-ce que ce programme ou cette politique peut fonctionner ? », sans attendre des résultats généralisables en retour.

5.  Si une évaluation aléatoire fait perdre trop de temps et d’argent, et possède donc un mauvais rapport coût/efficacité.

Par exemple, en raison d’une politique gouvernementale, une organisation peut ne pas disposer du temps nécessaire pour tester un programme et l’évaluer avant son lancement.

6.   Si des menaces comme l’attrition ou les effets d’externalité sont trop difficiles à contrôler et portent atteinte à l’intégrité de l’expérimentation.

Une organisation peut très bien décider de tester l’impact d’un produit pour le déparasitage sur l’assiduité des élèves dans une école donnée. Mais comme les produits pour le déparasitage ont des effets d’externalité (la santé d’un élève a des répercussions sur celle d’un autre), il sera difficile de mesurer l’impact du produit avec exactitude. Dans ce cas, il vaudrait sous doute mieux effectuer l’évaluation au niveau de l’école, plutôt qu’à celui de l’élève.

7.   Si la taille de l’échantillon n’est pas assez importante.

S’il n’y a pas assez de participants au programme pilote, et même si celui-ci se révèle être un succès, on risque de ne pas disposer de suffisamment d’observations pour statistiquement détecter un impact.

Comment mener une évaluation aléatoire?

Certains considèrent les évaluations aléatoires comme l’étalon-or des évaluations d’impact parce qu’elles sont incontestablement les plus rigoureuses, c'est-à-dire qu’elles demandent très peu d'hypothèses ou efforts d'imagination, pour tirer les conclusions à partir des résultats. Qu’elles soient les plus précises ne signifie cependant pas pour autant qu’elles exigent plus de travail ou coûtent plus cher. En fait, l’assignation aléatoire faite dès le départ pour s’assurer de l’équivalence des groupes (voir Qu’est-ce que l’assignation aléatoire ? et Pourquoi tirer au sort ?) permet réduire le travail statistique qui est nécessaire dans les autres méthodes consistant à reconstruire un groupe comparaison plus tard pendant la phase de l’analyse.

On rencontre bien sûr aussi certaines difficultés en menant une évaluation aléatoire : convaincre ceux qui conçoivent les programmes de tirer au sort, concevoir le protocole d’évaluation le plus approprié, s’assurer que la répartition aléatoire est respectée. Mais la majeure partie  du travail et des coûts est liée d'une part à la taille de l’échantillon, qui doit être suffisamment grand pour détecter un impact (un pré-requis pour toutes les évaluations !) et d'autre part, comprendre pourquoi le programme fonctionne ou non.

Préparer une évaluation

Lorsqu'on envisage de mener une évaluation, il est important d’identifier les questions clé que l’organisme partenaire peut avoir : on pourra répondre à certaines grâce à des évaluations antérieures, ou grâce à une évaluation de processus perfectionnée. S'il reste encore des questions, il faut retenir celles qui sont vraiment prioritaires pour être au centre de notre évaluation d’impact. Nous devons ensuite faire en sorte de répondre à autant de questions que nous le pouvons, en gardant à l’esprit qu’un nombre restreint d’études d’impact de grande qualité vaut mieux qu’un grand nombre de qualité médiocre.

La première étape de l’évaluation est de réexaminer les objectifs du programme et la manière dont nous espérons que ces objectifs seront atteints. Le cadre logique du programme ou le modèle de la théorie du programme peuvent nous y aider (voir Théorie du programme). Afin d'estimer l’objectif et la stratégie du programme, nous devons nous intéresser aux issues clefs, aux chemins envisagés pour réaliser ces objectifs et aux étapes importantes indiquant que nous sommes sur la bonne voie. Bien sur, ces résultats et étapes devront pouvoir être mesurés, et donc traduites en indicateurs, et enfin en données (voir Objectifs, résultats et mesures).

Ce n'est qu'une fois que nous avons une idée précise des objectifs et de leur réalisation, de l’étendue des effets et d'un plan pour mesurer les changements, que nous pouvons réfléchir au protocole de l’évaluation.

Comment concevoir une évaluation?

La conception d’une évaluation nécessite une très grande part de réflexion. Il faut tout d’abord s’interroger sur ses aspects conceptuels : Qu’attend-on de cette évaluation ? Quelles sont les problématiques pertinentes ? Quels sont les résultats attendus ? Comment les mesurer ?

Ensuite, on peut se poser les questions propres au protocole :

  • Quel est le meilleur niveau ou la meilleure unité de tirage?
  • Quelle est la méthode d’évaluation aléatoire la plus appropriée ?
  • En plus des contraintes politiques, administratives et éthiques, quels aspects techniques peuvent porter atteinte à l’intégrité de l’évaluation, et comment peut-on réduire ces menaces lors de l’élaboration du protocole ?
  • Comment mettre en œuvre l’évaluation aléatoire ?
  • Quelle taille d’échantillon est nécessaire pour répondre à nos questions combien d’individus devons-nous inclure dans l’expérimentation en tant que participants, mais aussi en tant que personnes interrogées dans le cadre des enquêtes?)

1. Unité de tirage (ou unité de randomisation)

Lors de la conception de l’évaluation, il est nécessaire de définir à quel niveau nous effectuerons l’assignation aléatoire : Quelle unité en sera l’objet ? Des individus ou des groupes d’individus comme des ménages, des villages, des quartiers, des écoles, des cliniques, des groupes confessionnels, des entreprises ou encore des coopératives de crédit  (d’ailleurs, lorsque l’on tire au sort des groupes d’individus, et même si on s’intéresse de près aux résultats individuels et à leur mesure, on parle d’essai randomisé par grappe) ? Par exemple, si l’on parvient à obtenir assez de comprimés de chlore pour que mille ménages puissent traiter leur eau (sur, disons, dix mille ménages qui utilisent la même source d’eau potable contaminée), devons-nous assigner aléatoirement les ménages au groupe test ou témoin ? Cela signifie que certains ménages recevront les comprimés de chlore mais que d’autres qui se situent pourtant dans leur voisinage immédiat se verront refuser l’accès à ces mêmes comprimés. Est-ce envisageable ? Éthique ?

Pour ce type de programme, il serait certainement impossible d’effectuer une assignation aléatoire à un niveau plus petit que celui du ménage, comme par exemple au niveau de l’individu. Cela signifierait en effet que certains enfants au sein d’un même ménage pourraient bénéficier des comprimés de chlore alors que leurs frères et sœurs n’y auraient pas accès. De plus, si tous les membres d’un ménage boivent de l’eau provenant du même réservoir, il est matériellement impossible d’effectuer une assignation aléatoire au sein-même du ménage, et ce indépendamment de toute considération éthique.

La meilleure unité de randomisation est donc sans doute la communauté. Certaines communautés recevront le traitement, d’autres non, mais tous les ménages (et donc tous leurs voisins) appartenant à une communauté assignée au groupe test pourront bénéficier des comprimés. Cependant, l’éthique et la possibilité matérielle ne sont pas les deux seuls éléments à prendre en compte lorsque l’on cherche à déterminer l’unité la plus appropriée pour l’assignation aléatoire. En voici sept d’entre eux :

  1. Quelle est l’unité ciblée par le programme pour recevoir le traitement ?
  2. Quelle est l’unité d’analyse ?
  3. Le protocole de l’évaluation est-il équitable ?
  4. L’évaluation aléatoire est-elle possible sur le plan politique ?
  5. L’évaluation aléatoire est-elle possible sur le plan logistique ?
  6. Quelles externalités et quels autres effets doit-on s’attendre à prendre en compte ?
  7. Quelle taille et quelle puissance d’échantillon sont nécessaires pour déceler les effets du programme ?

1. Unité ciblée par le programme pour recevoir le traitement: si les comprimés de chlore doivent être dissous dans des réservoirs d’eau et que chaque ménage de la région concernée en possède un, alors on peut sélectionner certains ménages pour recevoir le traitement et d’autres non. Dans ce cas, l’unité d’assignation aléatoire se situe au niveau du ménage. Cependant, si le réservoir d’eau se trouve en extérieur et est utilisé par plusieurs ménages, alors il devient impossible d’assigner aléatoirement certains de ces ménages au groupe témoin, car ils boivent la même eau (traitée) que les ménages du groupe test. Dans ce cas, l’unité d’assignation aléatoire la plus adaptée est le groupe de ménages qui utilisent un réservoir d’eau commun.

2. Unité d’analyse: si l’évaluation concerne les effets d’un programme sur une communauté, alors l’unité d’assignation aléatoire la plus adéquate est certainement la communauté. Par exemple, imaginons que l’on souhaite mesurer l’incidence des hospitalisations dues aux diarrhées. Il se trouve qu’il est plus économique de consulter directement les documents administratifs des cliniques communautaires mais ceux-ci sont anonymes. On ne sera donc pas en mesure de savoir si les personnes hospitalisées appartiennent à des ménages du groupe test ou du groupe témoin. Cependant, si la communauté toute entière est assignée au groupe test, alors on pourra comparer les documents des cliniques des communautés test à ceux des cliniques des communautés témoin.

3. Équité: le programme doit paraître équitable. Si l’on m’a refusé des comprimés de chlore  mais que mes plus proches voisins en ont reçu, je peux être en colère contre mes voisins, en colère contre l’ONG, et je serai certainement moins enclin à remplir des questionnaires sur l’usage du chlore lorsque les enquêteurs se présenteront à ma porte. L’ONG n’a probablement pas envie de contrarier les membres des ses communautés. Cependant, si ma communauté toute entière n’en dispose pas mais qu’une communauté voisine en a reçu, il se peut que je n’entende jamais parler du programme et donc n’ai jamais de quoi me plaindre ; ou encore, je pourrais penser qu’il ne s’agissait que d’un choix effectué à l’échelle de chaque village et que le mien a refusé cet investissement. Évidemment, certaines personnes pourraient continuer à se sentir lésées. Il faudrait alors essayer d’élargir l’unité d’assignation aléatoire ou de réfléchir à d’autres stratégies afin d’atténuer le mécontentement des populations. Bien sûr, le fait que tout le monde ne puisse pas bénéficier d’un programme est injuste (voir Questions éthiques). Mais étant donné qu’il est impossible d’aider une population toute entière (souvent en raison de contraintes financières, humaines, politiques, etc.), et que nous désirons améliorer et évaluer les conditions de vie des individus, la question se pose de savoir comment assigner des populations au programme et créer un groupe témoin équivalent, tout en conservant une impression d’équité.

4. Faisabilité politique: il n’est pas toujours possible sur le plan politique d’effectuer une évaluation aléatoire au niveau des ménages. Par exemple, une communauté peut demander que toutes les personnes dans le besoin reçoivent une assistance, empêchant ainsi une assignation aléatoire des individus ou des ménages. Parfois même, il arrive qu’un responsable exige que tous les membres de sa communauté puissent bénéficier du programme. D’autres fois, il préfère qu’au moins la moitié d’entre eux soient assignés aléatoirement au groupe test (avec certitude), plutôt que de risquer  qu’aucun ne soit traité (si la communauté est assignée au groupe témoin). Dans l’un des cas, il se pliera sans doute à l’évaluation, dans l’autre, il sera plus réticent.

5. Faisabilité logistique: parfois, il est impossible sur le plan logistique de s’assurer que les ménages assignés au groupe témoin restent bien en dehors du programme. Par exemple, s’il est nécessaire d’engager un agent de distribution pour répartir les comprimés de chlore et d’installer un stand où les membres du village participant au programme viendraient chercher leur dû, il ne sera peut-être pas très efficace de demander à l’agent d’écarter les ménages du groupe témoin. Cela alourdirait le poids de la bureaucratie, induirait une perte de temps et dénaturerait le programme tel qu’il devrait être. Et quand bien même l’agent parviendrait à ne donner les comprimés qu’aux ménages du groupe test, rien n’empêche ceux-ci de les partager avec leurs voisins assignés aléatoirement au groupe témoin. Dans ce cas, le groupe témoin serait affecté par le programme et ne constituerait plus un groupe de comparaison valide, censé représenter la population sans l’intervention du programme (voir Évaluation d’impact).  Dans ce cas, il serait plus intéressant d’évaluer aléatoirement les populations à l’échelle des villages et d’engager ensuite des agents uniquement pour les villages du groupe test.

6. Gérer les externalités et autres effets: même lorsqu’il est possible d’effectuer une assignation aléatoire à l’échelle des ménages, c’est-à-dire en fournissant des comprimés de chlore à certains et pas à d’autres, il peut se révéler plus compliqué de contenir l’impact du programme aux seuls ménages traités. Les individus du groupe témoin ne forment plus un groupe de comparaison valide à partir du moment où ils sont affectés par la présence du programme, soit parce qu’ils bénéficient du fait que leurs voisins sont moins malades (effets d’externalités du programme), soit parce qu’ils boivent l’eau traitée de leurs voisins (ils ne respectent plus leur assignation ce qui entraîne un effet de contamination entre les deux groupes). (Voir Qu’est-ce qu’une évaluation d’impact ?) (Pour plus de détails sur les effets d’externalité et de contamination, voir Menaces à prendre en compte lors du protocole)

7. Taille et puissance de l’échantillon: Pour déceler les véritables effets d’un programme, il est nécessaire de disposer d’une taille d’échantillon adéquate. Lorsque la population parmi laquelle on sélectionne des individus est vaste, ces derniers la représentent bien mieux statistiquement (voir Sélection et taille de l’échantillon). Par exemple, si l’on évalue deux mille ménages et qu’on en assigne aléatoirement mille au groupe test et mille au groupe témoin, nous avons bien une taille d’échantillon de deux mille ménages. Mais si l’on effectue une évaluation aléatoire à l’échelle des villages et que chaque village comporte cent ménages, alors nous nous retrouvons avec dix villages dans le groupe test et dix autres dans le groupe témoin. Dans ce cas, on mesure bien l’incidence de la diarrhée à l’échelle des ménages, mais comme ce sont les villages que nous avons assignés aléatoirement au groupe test ou au groupe témoin, on peut se retrouver avec une taille d’échantillon proche de dix, et ce quand bien même on évalue en fait deux mille ménages. En réalité, la taille d’échantillon idéale peut se situer n’importe où entre dix et deux mille, en fonction des similitudes des ménages d’un même village (voir Taille de l’échantillon.) Mais avec une taille d’échantillon de dix, on ne décèlera pas forcément les véritables effets d’un programme. Ces considérations peuvent influencer notre choix lorsque l’on doit décider de l’unité la mieux adaptée à l’évaluation aléatoire.

Lorsque l’on détermine une unité de randomisation, il faut prendre en compte plusieurs aspects. Les évaluateurs ne peuvent pas se permettre de rester assis en face de leur ordinateur, de presser un bouton pour obtenir une liste et d’imposer un protocole d’évaluation à une organisation qui se situe à des milliers de kilomètres de là. Ils doivent se familiariser avec l’organisation en question, le programme ainsi que le contexte, et collaborer avec elle pour déterminer le niveau de randomisation le plus approprié, en fonction des circonstances particulières.

2. Différentes méthodes d’évaluation aléatoire

Si mon organisation peut se procurer mille comprimés de chlore par jour et qu’il est donc possible de traiter mille ménages sur un total de deux mille tous les jours, je peux choisir de traiter toujours les mêmes ménages jusqu’à la fin du programme. Mais je peux aussi choisir d’alterner le traitement et de faire en sorte que, tous les deux jours, chaque ménage puisse boire de l’eau traitée. Mais cette dernière option n’a probablement pas de sens. Si tout le monde boit de l’eau contaminée tous les deux jours, on peut s’attendre à n’avoir aucun impact sur personne. Alors il devient nécessaire de choisir mille ménages qui recevront les comprimés chaque jour. Si je dois tirer au sort, je peux effectuer une simple « loterie » afin de déterminer les mille ménages qui participeront au programme. Dans ce cas, j’écris les deux mille noms sur des petits bouts de papier, je les place dans un panier que je secoue bien, puis je ferme les yeux et je pioche mille morceaux de papier. On parle alors de modèle de la loterie.

Au lieu d’alterner les ménages tous les jours, je peux le faire tous les ans. Il suffit alors de tirer au sort l’ordre de traitement des ménages et ceux qui participent au programme durant la première année, basculent ensuite dans le groupe témoin la deuxième. Si je mesure les résultats à la fin de chaque année, on peut parler de modèle de rotation.

Mettons que je puisse me procurer cinq cents comprimés par jour cette année, mais que je pense sans doute pouvoir en recevoir mille l’année prochaine, puis deux mille l’année suivante. Dans ce cas, je peux tirer au sort cinq cents ménages afin qu’ils puissent bénéficier des comprimés durant la première année, puis cinq cents autres pour la deuxième année. Les mille ménages restants pourront profiter des comprimés la dernière année. On parle alors de modèle de mise en place progressive.

Il existe sept méthodes d’évaluation aléatoire : le modèle de la loterie, le modèle de rotation, le modèle de mise en place progressive, le modèle avec encouragement, le modèle avec traitements multiples et la planification de randomisation à deux étapes. Ces différents protocoles ne sont pas forcément antinomiques. 

3. Menaces à prendre en compte lors du protocole


a) Externalités

Les effets d’externalité (ou effets de contagion) se produisent lorsqu’un programme conçu pour aider les participants a des impacts (positifs ou négatifs) involontaires sur le groupe témoin. Ce dernier est en effet censé représenter les résultats qu’on aurait obtenus si le programme n’avait pas été mis en œuvre (voir Pourquoi tirer au sort). À partir du moment où le groupe témoin est entré en contact avec le programme, il ne correspond plus du tout au contrefactuel, et la mesure correspondante de l’impact est biaisée. Il existe des moyens d’atténuer ces effets de diffusion, en modifiant l’unité de tirage par exemple.

Par exemple, boire de l’eau contaminée peut être source de maladie. Mais je peux aussi tomber malade si je joue avec des enfants du voisinage, qui sont eux-mêmes souffrants. Si je me trouve dans le groupe témoin et que mes voisins reçoivent le traitement et donc ne sont plus malades, cela diminue mes risques d’attraper la maladie. Ainsi, même si je me trouve dans le groupe témoin, j’ai été affecté par le programme dont mes voisins bénéficient. Je ne représente donc plus un groupe de comparaison valable. On parle alors d’externalités, et plus particulièrement d’externalités positives. Afin d’atténuer ces effets, on peut effectuer une évaluation aléatoire à l’échelle des communautés. Ainsi, si notre communauté est assignée au groupe témoin, mes voisins et moi partageront le même traitement. Je suis moins susceptible de m’amuser avec des enfants d’une autre communauté, et donc d’être affecté par le programme. Et si je me trouve assigné au groupe test, il n’y aura pas d’externalités positives sur des enfants du groupe témoin.

Bien sûr, il est nécessaire de bien comprendre d’où viennent ces effets d’externalités et d’adapter le protocole en conséquence. 

b)    Contaminations

Si mon foyer a été assigné au groupe témoin mais que mes voisins font partie du groupe test et que ma mère sait que leur eau est traitée, elle peut m’envoyer chez eux pour boire. En un sens, j’arrive à m’insérer dans le groupe test alors qu’au départ, je faisais partie du groupe témoin. Lorsque les individus ne se conforment pas (volontairement ou involontairement) à leur assignation et que les résultats de l’évaluation en sont affectés, on parle d’effet de contamination. Tout comme dans le cas des externalités, je ne représente plus un groupe de comparaison valable, puisque j’ai clairement été affecté par l’existence du programme. Une fois encore, pour atténuer ces effets, on peut modifier l’unité de tirage.

4. Mise en œuvre de l’évaluation aléatoire

Une fois que l’unité et la méthode d’évaluation aléatoire ont été déterminées, il est temps d’assigner les individus, les ménages, les communautés ou n’importe quelle autre unité, soit au groupe test, soit au groupe témoin.

a)    Loterie

En général, avant de commencer, il nous faut une liste de noms (d’individus, de chefs de famille ou de villages).  Ensuite, il y a plusieurs façons de procéder. On peut écrire tous les noms sur des petits bouts de papier, les placer dans un panier que l’on secoue bien, puis fermer les yeux et piocher mille morceaux de papier. Ceux-ci formeront le groupe test tandis que les autres constitueront le groupe témoin (ou vice versa). Il est aussi possible de le faire dans le cadre d’une loterie publique. De même, on peut parcourir la liste de haut en bas et tirer à pile ou face à chaque nom afin de déterminer la composition des deux groupes. Cependant, il n’est pas obligatoire de séparer la population étudiée en deux parties égales. Il est possible par exemple d’assigner 30 % de la population au groupe test et 70 % au groupe témoin. D’ailleurs, dans le cas où l’évaluation se compose de trois phases, on peut très bien diviser la population cible en trois groupes. De plus, il arrive très souvent que l’on teste plusieurs traitements en même temps, ce qui nécessite un certain nombre de groupes. Dans le cas de telles évaluations, plus sophistiquées, un tirage à pile ou face ne suffit pas.

Généralement, on conçoit un programme informatique qui a pour tâche d’assigner aléatoirement les noms aux groupes.

b)    Assignation aléatoire au cas par cas

On ne dispose cependant pas toujours d’une liste faite par avance. Par exemple, si un individu se présente à l’hôpital avec les symptômes du paludisme, il faut prendre une décision sur le champ : lui administrer le traitement standard DOTS de l’Organisation Mondiale de la Santé ou un autre produit plus efficace. L’infirmière peut décider du traitement en tirant à pile ou face. Mais elle peut aussi très bien ne pas effectuer l’assignation aléatoire si elle estime qu’elle sait quel traitement est le meilleur et quels patients méritent le plus d’en bénéficier. Pour éviter cela, on peut mettre en place un programme d’assignation aléatoire par ordinateur ou téléphone portable.

c)    Stratification

Très souvent, on divise la population cible en sous-groupes avant d’effectuer une évaluation aléatoire. Par exemple, on peut scinder un groupe d’individus en plusieurs petits groupes selon le sexe, l’ethnicité ou l’âge. Il est aussi possible de diviser un village en petites zones géographiques. Lorsque l’on scinde ainsi une population en sous-groupes avant d’effectuer l’évaluation aléatoire, on parle de stratification. Ensuite, l’assignation aléatoire a lieu au sein de chacun de ces sous-groupes (ou strates). Cela permet d’équilibrer la répartition des individus dans les groupes test et témoin. En effet, sans cette précaution et dans le cas d’une taille d’échantillon plus faible, il est possible de se retrouver avec plus de femmes que d’hommes dans le groupe test. La stratification est avant tout un outil statistique et dépend de la taille de l’échantillon. La décision d’effectuer ou non une stratification ne permet pas de savoir si les résultats sont biaisés ou non.

5. Sélection et taille de l’échantillon

Une expérimentation doit être suffisamment précise pour pouvoir déceler les différences entre le groupe test et le groupe témoin. Cette capacité d’un protocole à détecter un résultat se mesure en termes de puissance statistique. Cette dernière dépend autre autres de la taille de l’échantillon, c’est-à-dire du nombre d’unités assignées aléatoirement aux deux groupes et interrogées lors des enquêtes.

Reprenons une fois encore notre exemple des maladies transmises par l’eau au sein d’une communauté. Supposons que nous avons choisi de distribuer des comprimés de chlore aux ménages afin d’évaluer leur impact sur l’incidence des diarrhées. Mettons que notre budget pour la phase de test soit très limité. Nous aimerions donc restreindre le nombre de ménages participant à l’enquête tout en nous assurant que nous avons bien les moyens de savoir de manière sûre si les changements observés sont dus aux comprimés et non au hasard. Combien de ménages doivent recevoir les comprimés ? Combien doit-on interroger ? Est-ce que cinq ménages sont suffisants? Cent ? Deux cents ? Combien de ménages doit-on assigner au groupe témoin? Des tests sur la puissance statistique nous permettent de répondre à toutes ces questions.

Pour plus d’informations sur l’estimation de la taille d’un échantillon, voir :

  •  Duflo, Esther, Glennerster, Rachel et Kremer, Michael, "Using Randomization in Development Economics Research: A Toolkit" (2006). MIT Department of Economics Working Paper No. 06-36.
  •  Bloom, H.S. (1995): "Minimum Detectable Effects: A simple way to report the statistical power of experimental designs," Evaluation Review 19, 547-56.

Comment mettre en oeuvre une évaluation?

Une fois le protocole de l’évaluation finalisé, l’évaluateur doit continuer à s’impliquer dans la collecte de données ainsi que dans la mise en œuvre de l’intervention évaluée. Si des personnes interrogées abandonnent pendant la phase de collecte de données, les résultats peuvent souffrir d’un biais dû à l’attrition, ce qui risque d’affecter leur validité. Le problème de l’attrition est d’ailleurs développé dans cette section. D’autres menaces, tant au niveau de la qualité des mesures que de leur transmission, sont tout aussi importantes mais ne seront pas abordées ici. Pour se familiariser avec les bonnes méthodes de collecte de données, voir :

  • Deaton, A. (1997): The Analysis of Household Surveys. World Bank, International Bank for Reconstruction and Development

Lors de la mise en œuvre de l’intervention, l’intégrité de l’évaluation aléatoire doit rester intacte. À moins que ceux-ci ne soient explicitement incorporés dans le protocole, les effets d’externalité et de contamination doivent être limités au maximum, ou tout du moins, soigneusement documentés.


1.  Risques du rassemblement des données

a)  Attrition

L’attrition a lieu lorsque l’évaluateur ne parvient pas à récolter des données sur un individu sélectionné dans l’échantillon initial. Rappelons que les groupes test et témoin créés par assignation aléatoire sont conçus pour être statistiquement identiques au départ. Le groupe témoin est censé représenter le contrefactuel, c’est-à-dire ce qui se serait produit un sein du groupe test s’il n’y avait pas eu de traitement (voir Pourquoi tirer au sort ?). Si les individus qui quittent le programme sont « identiques » dans le groupe test et le groupe témoin, ce dernier continue de former un contrefactuel valide du groupe test. Tout ceci tend à réduire la taille d’échantillon et donc la part de population cible pour laquelle on souhaiterait généraliser le programme, mais ne remet pas en cause la validité des résultats (tout du moins en ce qui concerne l’échantillon réduit).

Par exemple, supposons que nous décidions d’évaluer une zone rurale dans laquelle plusieurs membres d’un ménage passent une bonne partie de l’année à travailler en ville. Or, nous avons créé notre échantillon et rassemblé les données initiales lorsque tous les membres des ménages étaient chez eux pour les récoltes, et donc disponibles pour notre étude. Si nous récupérons les données finales durant la saison creuse, les membres des familles migrantes seront retournés travailler en ville et ne pourront pas répondre à notre enquête. En supposant qu’il s’agisse des mêmes personnes dans le groupe test et dans le groupe témoin, notre évaluation sera alors restreinte à la population restée en zone rurale. En effet, si la population non-migrante du groupe témoin est bel et bien un contrefactuel de celle du groupe test, nos évaluations d’impact seront parfaitement valides, mais uniquement applicables à la population qui ne part pas travailler en ville.

Cependant, si l’attrition ne revêt pas la même forme dans les deux groupes et que ce qui reste du groupe témoin ne compose plus un contrefactuel valide du groupe test, nos résultats risquent d’être biaisés. Reprenons notre exemple des maladies transmises par l’eau et supposons que dans le groupe témoin, le nombre de femmes et d’enfants malades soit plus élevé. Les jeunes hommes qui d’habitude partent travailler en ville durant la saison creuse resteront alors pour aider leur famille. Ainsi, au moment de récolter les données finales, les ménages du groupe témoin contiendront plus de migrants que ceux du groupe test. La démographie initiale des deux groupes sera différente, alors qu’elle était auparavant équilibrée. Il est aussi très possible que ces migrants en âge de travailler soient généralement en meilleur santé. Ainsi, même si notre traitement a pu améliorer la santé des femmes et des enfants du groupe test, nous nous retrouverons avec en moyenne plus de travailleurs migrants en bonne santé dans le groupe témoin. Au moment de la mesure de l’incidence de la diarrhée, les résultats des migrants en bonne santé du groupe de témoin risqueront de contrebalancer ceux des membres de leur famille malades. Ainsi, lorsque l’on comparera le groupe test au groupe témoin, il se peut que nous ne constations aucun impact et nous conclurons alors que le traitement n’a pas été efficace. Ce résultat serait pourtant faux et trompeur.

Dans cet exemple simplifié, nous pourrions bien sûr rééquilibrer les deux groupes en retirant les migrants de l’échantillon. Cependant, la plupart du temps, les caractéristiques qui nous permettraient d’identifier de manière sûre les déserteurs potentiels ou réels du programme (ceux qui disparaissent) sont soit rarement mesurées, soit difficilement observables. Prédire un taux d’attrition peut se révéler tout aussi difficile que de deviner la participation lors d’évaluations non aléatoires. De même, un biais dû à l’attrition peut se révéler tout aussi dévastateur qu’un biais de sélection lorsque cela provoque une inférence causale.

2.  Externalités et contaminations

Les effets d’externalité (ou effets de contagion) se produisent lorsque des individus assignés au groupe témoin sont affectés par le traitement d’une manière ou d’une autre. Par exemple, mettons que des enfants soient assignés au groupe témoin dans le cadre d’un programme de distribution de chlore mais qu’ils jouent avec des enfants du groupe test. En raison du traitement, ces derniers sont moins susceptibles de tomber malades, et donc leurs amis du groupe témoin ont moins de chances d’attraper une maladie. Dans ce cas, ils subissent indirectement un impact du programme, et ce même s’ils ont été assignés au groupe témoin. Les individus qui causent une contamination entre les deux groupes sont, quant à eux, des personnes du groupe témoin qui parviennent à bénéficier directement du traitement. Par exemple, si la mère d’un ménage assigné au groupe témoin envoie son enfant boire de l’eau dans le réservoir d’un ménage assigné au groupe test, elle parvient à se frayer un chemin jusqu’au groupe test. On utilise l’expression « conformité imparfaite » pour désigner les effets de contamination ainsi que les individus du groupe test qui décident de ne pas participer au programme (par exemple en refusant d’ajouter du chlore dans leur eau).

Lorsqu’une évaluation comporte des effets d’externalité et de contamination, il est possible dans de nombreux cas d’utiliser des techniques statistiques pour obtenir des résultats valides. Mais celles-ci s’accompagnent d’hypothèses que, pour la plupart, nous avions cherché à éviter en choisissant au départ d’effectuer une évaluation aléatoire. Par exemple, il est possible de contrôler les externalités si on arrive à les prévoir grâce aux variables observées. Dans le cas de la conformité imparfaite, si l’on suppose que ceux qui ont refusé le traitement n’ont pas été affectés par le programme et que ceux qui n’ont pas respecté leur assignation ont été affectés de la même manière que les participants du groupe test, alors on peut quand même en déduire l’impact du programme. Cependant, plus on émet d’hypothèses, moins on peut être sûr que les résultats mesurés sont bien causés par l’intervention.

Comment obtenir dex résultats?

À la fin de l’intervention (ou tout du moins à la fin de la période d’évaluation de l’intervention), il est nécessaire de collecter les dernières données afin de mesurer les résultats finaux. En supposant que l’intégrité de l’évaluation aléatoire ait été respectée et que la collecte des données ait été bien gérée, il est à présent temps d’analyser ces informations. Pour ce faire, la méthode la plus simple consiste à comparer les résultats moyens du groupe test à ceux du groupe témoin. La différence entre les deux représente l’impact du programme. Afin de déterminer si l’impact est significatif sur le plan statistique, il est possible d’effectuer le Test t de comparaison des moyennes. L’un des nombreux avantages de l’évaluation aléatoire, c’est qu’il est possible de mesurer l’impact sans avoir à utiliser des techniques statistiques très recherchées. Mais on peut aussi effectuer des analyses plus compliquées. Par exemple, on peut utiliser un modèle de régression linéaire en tenant compte des autres caractéristiques afin d’obtenir plus de précision. Cependant, plus l’analyse est complexe, plus la possibilité de faire des erreurs augmente. Un évaluateur doit donc toujours bien connaître son sujet et être très attentif lorsqu’il effectue de telles analyses.
Il est intéressant de noter que lorsque l’on obtient un résultat, il n’est jamais 100 % exact. Il s’agit d’une estimation qui est proche de la réalité mais qui contient toujours un certain degré de probabilité. Plus la taille de l’échantillon est grande, plus les écarts-types seront réduits et plus nous auront de certitudes. Cependant, il est impossible d’être infaillible à 100 %.

Cela nous amène à considérer deux dangers très courants lors d’une analyse:

1) La multiplicité des résultats: l’évaluation aléatoire ne garantit pas la parfaite exactitude de l’impact mesuré. Celui-ci n’est pas biaisé mais reste une estimation. La variable aléatoire permet de conserver une marge d’erreur par rapport à la réalité. D’ailleurs, la plupart du temps, l’estimation en sera très proche. D’autres fois, elle s’en écartera légèrement. Mais elle ne s’en éloignera complètement que très rarement. En effet, si nous considérons une seule mesure de résultat, il y a certes des chances qu’elle ait complètement divergé de la réalité, mais celles-ci sont infimes. Si, en revanche, nous nous intéressons à un grand nombre de mesures, la plupart en seront proches mais d’autres s’en écarteront. Et plus nous prendrons d’indicateurs en compte, plus nous avons de chances qu’au moins l’un d’entre eux s’éloigne considérablement de la réalité. Reprenons notre exemple des comprimés de chlore distribués dans le cadre d’un programme de traitement de l’eau pour combattre les maladies transmises par l’eau. Supposons que ces comprimés soient inefficaces ou que personne ne les utilise. Si l’on compare une vingtaine de mesures, il est très probable que l’une des comparaisons indiquera une amélioration significative de l’état de santé des individus, tandis qu’une autre décèlera au contraire une détérioration considérable due au programme. Ainsi, si l’on observe suffisamment de mesures, on finit bien par tomber sur une d’entre elles complètement différente entre le groupe test et le groupe témoin. Ce n’est pas un problème en soi. Mais cela en devient un lorsque l’évaluateur extrait trop de données, lorsqu’il fouille parmi les résultats jusqu’à ce qu’il trouve un impact significatif, qu’il reporte cette mesure, mais qu’il omet les autres résultats moins impressionnants qu’il a découverts au cours de sa recherche.

2) L’analyse en sous-groupes: tout comme un évaluateur peut extraire des données en étudiant de nombreuses mesures différentes, il peut aussi dénicher un résultat significatif en observant isolément différents sous-groupes. Par exemple, on peut avoir l’impression que le chlore n’a pas d’impact visible sur la santé d’un ménage dans son ensemble. Il peut donc sembler raisonnable de regarder de plus près afin de voir s’il n’y aurait pas d’impact sur les enfants au sein du ménage, ou sur les filles en particulier. On peut alors être tenté de comparer les garçons et les filles de différentes tranches d’âge, provenant de différentes compositions de ménages, dans différentes combinaisons. On pourrait ainsi découvrir que, dans le groupe test, le sous-groupe composé des garçons de 6 à 8 ans, ayant une sœur, dont l’un des grands-parents vit au sein du ménage et dont le foyer possède un téléviseur et du bétail, est en bien meilleure santé. On pourrait même concocter un scénario très réaliste, expliquant pourquoi ce sous-groupe particulier a été affecté par le traitement, et les autres pas. Cependant, si l’on tombe sur ce seul impact positif, après avoir déniché une ribambelle d’impacts négligeables pour les autres sous-groupes, il est fort probable que cette différence soit en réalité uniquement due au hasard, et pas au programme.

Comment en tirer des implications politiques?

Après avoir effectué une évaluation aléatoire parfaite et une analyse des résultats adéquate, on peut, avec un certain degré de certitude, commencer à tirer des conclusions quant aux impacts du programme sur la population cible. Par exemple : « Notre programme de distribution de chlore a réduit de 20 % l’incidence des diarrhées  chez les enfants de notre population cible. » Cette déclaration possède une légitimité scientifique, ou validité interne. Cependant, la rigueur de notre modèle ne nous permet pas de dire si ce même programme aura un impact semblable ou différent sur une autre population cible ou dans le cas d’un lancement à plus grande échelle. Si une évaluation aléatoire correctement menée peut assurer la validité interne, la validité externe, ou généralisation, est plus compliquée à obtenir. Pour extrapoler la nature des résultats dans un contexte différent, il faut se départir de sa rigueur scientifique et commencer à se baser sur des hypothèses. Celles-ci seront plus ou moins valables en fonction de notre connaissance du contexte de l’évaluation, et des autres contextes que nous devons prendre en compte dans le cas d’un lancement à plus grande échelle.

Toutefois, la méthode que nous avons choisie, celle de l’évaluation aléatoire, n’assure pas la validité interne au prix de la validité externe. Cette dernière relève de la conception du programme, des prestataires de service, des bénéficiaires et de l’environnement dans lequel l’évaluation a été menée. Les résultats de n’importe quelle évaluation de programme sont soumis à ces mêmes réalités contextuelles lorsqu’il s’agit de généraliser des programmes ou des politiques publiques similaires. Ce qu’une évaluation aléatoire nous apporte, c’est d’avoir au moins la certitude de la validité interne de nos résultats.

What is Evaluation and Why Evaluate

Why evaluate?

The purpose of evaluation is not always clear, particularly for those who have watched surveys conducted, data entered, and then the ensuing reports filed away only to collect dust. This is most common when evaluations are imposed by others.

If, on the other hand, those responsible for the day-to-day operations of a program have critical questions, evaluations can help find answers.

As an example, the NGO responsible for distributing chlorine pills may speak with their local field staff and hear stories of households diligently using the pills, and occasionally see improvements in their health. But each time it rains heavily, the clinics fill up with people suffering from diarrheal diseases. The NGO might wonder, “if people are using chlorine to treat their water, why are they getting sick when it rains? Even if the water is more contaminated, the chlorine should kill all the bacteria.” The NGO may wonder whether the chlorine pills are indeed effective at killing bacteria. Are people using it in the right proportion? Maybe the field staff is not telling the truth. Perhaps the intended beneficiaries are not using the pills. Perhaps they aren’t even receiving them. And then when confronted with this fact, the field staff claims that during the rains it is difficult to reach households and distribute pills. Households, on the other hand, will reply that they most diligently use pills during the rains, and that the pills have helped them substantially.

Speaking to individuals at different levels of the organization as well as to stakeholders can uncover many stories of what is going on. These stories can be the basis for theories. But plausible explanations are not the same thing as answers. Evaluations involve developing hypotheses of what’s going on, and then testing those hypotheses.

What is evaluation?

The word “evaluation” can be interpreted quite broadly. It means different things to different people and organizations. Engineers, for example, might evaluate or test the quality of a product design, the durability of a material, efficiency of a production process, or the safety of a bridge. Critics evaluate or review the quality of a restaurant, movie or book. A child psychologist may evaluate or assess the decision-making process of toddlers.

The researchers at J-PAL evaluate social programs and policies designed to improve the well-being of the world’s poor. This is known as program evaluation.

Put simply, a program evaluation is meant to answer the question, “how is our program or policy doing?” This can have different implications depending on who is asking the question, and to whom they are talking. For example, if a donor asks the NGO director “how is our program doing?” she may imply, “have you been wasting our money?” This can feel interrogatory. Alternatively, if a politician asks her constituents, “how is our program doing?” she could imply, “is our program meeting your needs? How can we make it better for you?” Program evaluation, therefore, can be associated with positive or negative sentiments, depending on whether it is motivated by a demand for accountability versus a desire to learn.

J-PAL works with governments, NGOs, donors, and other partners who are more interested in learning the answer to the question: How effective is our program? This question can be answered through an impact evaluation. There are many methods of doing impact evaluations. J-PAL uses a methodology known as randomized evaluation.

At a very basic level, randomized evaluation can answer the question: Was the program effective? But if thoughtfully designed and implemented, it can also answer the questions, how effective was it? Were there unintended side-effects? Who benefited most? Who was harmed? Why did it work or not work? What lessons can be applied to other contexts, or if the program was scaled up? How cost-effective was the program? How does it compare to other programs designed to accomplish similar goals? To answer these questions, the impact evaluation should be part of a larger package of evaluations and exercises.

Following the framework on comprehensive evaluations offered by Rossi, Freeman, and Lipsy, this package is covered in the subsequent sections:

  1. Needs Assessment
  2. Program Theory Assessment
  3. Process Evaluation
  4. Impact Evaluation
  5. Cost-Benefit, Cost-Effectiveness, and Cost-Comparison Analysis
  6. Goals, Outcomes, and Measurement

The first two assessments (Needs and Program Theory) examine what needs the program or policy is trying to fill and what are the steps by which it will achieve these objectives. Ideally these steps should be formally set out by those implementing the program, before an impact evaluation is set up.

Process evaluations are useful for program managers and measure whether the milestones and deliverables are on schedule. Many organizations have established systems to track processes—often classified as Monitoring and Evaluation (M&E).

Impact evaluations are designed to measure whether programs or policies are succeeding in achieving their goals.

Lastly, Cost-benefit and Cost-effectiveness analyses are useful for the larger policy implications of a program. The first looks at whether the benefits achieved by the program are worth the costs. The second compares the benefits of this program to that of programs designed to achieve similar goals.

In conducting any assessment, evaluation, or analysis, it is imperative to think about how progress can be measured. Measuring indicators of progress – keeping the programs’ goals and expected outcomes in mind—requires significant thought as well as a system of data collection. This is covered in Goals, Outcomes and Measurement.

1. Needs Assessment

Programs and policies are introduced to address a specific need. For example, we may observe that the incidence of diarrhea in a community is particularly high. This might be due to contaminated food or water, poor hygiene, or any number of plausible explanations. A needs assessment can help us identify the source of the problem and those most harmed. For example, the problem may be due to the runoff of organic fertilizer which is polluting the drinking water used by certain communities.

Needs assessment is a systematic approach to identifying the nature and scope of a social problem, defining the target population to be served, and determining the service needed to meet the problem.

A needs assessment is essential because programs will be ineffective if the services are not properly designed to meet the need or if the need does not actually exist. So, for example, if the source of pollution contaminating drinking water is agricultural, investment in sanitation infrastructure such as toilets and sewage systems may not solve the problem. Needs assessments may be conducted using publicly available social indicators, surveys and censuses, interviews, etc.

2. Program Theory Assessment

Social programs or policies are introduced to meet a social need. Meeting that need usually requires more thought than finding and pressing a single magic button, or taking a pill. For policymakers, it requires identifying the reasons that are causing undesirable outcomes (see Needs Assessment) and choosing a strategy from a large set of options to try to bring about different outcomes.

For example, if people are drinking unclean water, one program might be designed to prevent water from becoming contaminated—by improving sanitation infrastructure—while another may be designed to treat contaminated water using chlorine. One proposed intervention might target those responsible for the pollution. Another might target those who drink the water. One strategy may rest on the assumption that people don’t know their water is dirty, another, that they are aware but have no access to chlorine, and even another, that despite awareness and access, people choose not to chlorinate their water for other reasons (e.g. misinformation, taste, cost, etc).

These programs must simultaneously navigate the capacity constraints (financial, human, and institutional) and political realities of their context. In conceiving an appropriate response, policymakers implicitly make decisions about what is the best approach, and why. When this mental exercise is documented explicitly in a structured way, policymakers are conducting what can be called a program theory assessment, or design assessment.

A Program Theory Assessment models the theory behind the program, presenting a plausible and feasible plan for improving the target social condition. If the goals and assumptions are unreasonable, then there is little prospect that the program will be effective. Program theory assessment involves first articulating the program theory and then assessing how well the theory meets the targeted needs of the population. The methodologies used in program theory assessment include the Logical Framework Approach or Theory of Change.

3. Process Evaluation

Before it is ever launched, a program exists in concept—as a design, description or plan (see Program Theory Assessment). But once launched, the program meets on-the-ground realities: Is the organization adequately staffed and trained? Are responsibilities well-assigned? Are the intermediate tasks being completed on schedule? If the program is designed to provide chlorine tablets to households to treat unclean water, for example, does the right number of chlorine tablets reach the appropriate distribution centers on time?

Process evaluation, also known as implementation assessment or assessment of program process, analyzes the effectiveness of program operations, implementation, and service delivery. When process evaluation is ongoing it is called program monitoring (as in Monitoring and Evaluation, or M&E). Process evaluations help us determine, for example:
• Whether services and goals are properly aligned.
• Whether services are delivered as intended to the appropriate recipients.
• How well service delivery is organized.
• The effectiveness of program management.
• How efficiently program resources are used.1

Process evaluations are often used by managers as benchmarks to measure success, for example: the distribution of chlorine tablets is reaching 80% of the intended beneficiaries each week. These benchmarks may be set by program managers, and sometimes by donors. In many larger organizations, monitoring progress is the responsibility of an internal Monitoring and Evaluation (M&E) department. In order to determine whether benchmarks are being met, data collection mechanisms must be in place.
1 Rossi, Peter, et al. Evaluation. A Systematic Approach. Thousand Oaks: Sage Publications, 1999.

4. Impact Evaluation

Programs and policies are designed to achieve a certain goal (or set of goals). For example, a chlorine distribution program may be implemented specifically to combat high-incidence of waterborne illness in a region. We may want to know whether this program is succeeding in its goal. This isn’t the same thing as asking, “Does chlorine kill bacteria?” or “Is the consumption of chlorine harmful?” Those questions can be answered in a laboratory. For our program to achieve its goal of stopping illness, money must be allocated, tablets must be purchased, distribution mechanisms must be put in place, households must receive the tablets, households must use the tablets, and households must not consume untreated water. A program evaluation helps us determine whether all of these requirements are being met and if our goal is actually being achieved as intended.

As a normal part of operations, e.g., basic bookkeeping, certain information is produced, such as how many boxes of chlorine tablets have been shipped. This type of information can be used for process evaluation. But it cannot tell us whether we’ve successfully reduced the incidence of diarrhea. To measure impact, we must use more direct indicators such as the number of people who report suffering from diarrhea in the last two months.

Impact evaluations gauge the success of a program—where success can be broadly or narrowly defined. They help us weed out less effective interventions from successful ones and also help us improve existing programs.

The primary purpose of impact evaluation is to determine whether a program has an impact on a few key outcomes, and more specifically, to quantify how large that impact is. What is impact? In our chlorine example, impact is how much healthier people are because of the program than they would have been without the program. Or, more specifically, impact is how much lower the incidence of diarrhea is than it would have been otherwise.

Getting this number correct is more difficult than it sounds. It is possible to measure the incidence of diarrhea in a population that received the program. But “how they would have been otherwise” is impossible to measure directly—just as it is impossible to measure the United States economy today had the Nazis won World War II, or to determine today’s most deadly disease if penicillin was not discovered in Alexander Fleming’s laboratory in 1928 in London. It is possible that Germany would have become the dominant economy in the world; alternatively, the Nazis may have fallen just a few years later. It is possible that minor wounds would still be one of the largest killers; alternatively, some close relative of penicillin could have been discovered in another laboratory in a different part of the world. In our chlorine example, it is possible that, without chlorine, people would have remained just as sick as they were before. Or it is possible that they would have started boiling their water instead, and the only thing chlorine distribution did was substitute one technology for another—suggesting that people are not really any healthier because of the program.

Impact evaluations usually estimate program effectiveness by comparing outcomes of those (individuals, communities, schools, etc) who participated in the program against those who did not participate. The key challenge in impact evaluation is finding a group of people who did not participate but closely resemble the participants had those participants not received the program. Measuring outcomes in this comparison group is as close as we can get to measuring “how participants would have been otherwise.” There are many methods of doing this and each method comes with its own assumptions.

5. Cost-Benefit/Effectiveness/Comparison Analyses

Two organizations may come up with very different strategies to tackle the same problem. If a community’s water supply, for example, was contaminated and led to a large incidence of diarrhea, one NGO may advocate for investments in modern water and sanitation infrastructure, including a sewage system, piped water, etc. Another NGO may propose a distribution system where households are given free chlorine tablets to treat their own water at home. If these two methods were shown to be equally effective—each reducing diarrhea incidence by 80%—would local policymakers be just as happy implementing one versus the other? Probably not. They would also need to consider the cost of each strategy.

It is highly likely that modern infrastructure investments in an otherwise remote village would be prohibitively expensive. In this case, the choice may be clear. However, the options are not always so black and white. A more realistic (but still hypothetical) choice would be between an infrastructure investment that reduces diarrhea by 80% versus a chlorine distribution program that costs 1/100th the price, and reduces diarrhea by 50%.

A cost-benefit analysis quantifies the benefits and costs of an activity and puts them into the same metric (often by placing a monetary value on benefits). It attempts to answer the question: Is the program producing sufficient benefits to outweigh the costs? Trying to quantify the benefit of children’s health in monetary terms, however, can be extremely difficult and subjective. Hence, when the exact value of the benefit lacks widespread consensus, this type of analysis may produce results that are more controversial than illuminating. This approach is most useful when there are multiple types of benefits and agreed ways of monetizing them.

A cost-effectiveness analysis takes the impact of a program (e.g. percent reduction in the incidence of diarrhea), and divides that by the cost of the program, generating a statistic such as the number of cases of diarrhea prevented per dollar spent. This makes no judgment of the value of reducing diarrhea.

Lastly, a cost comparison analysis will take multiple programs and compare them using the same unit, allowing policy makers to ask: per dollar, how much does each of these strategies reduce diarrhea?
See the paper on "Comparative Cost-Effectiveness Analysis to Inform Policy in Developing Countries: A General Framework with Applications for Education" for more information.

6. Goals, Outcomes and Measurement

When conducting a program evaluation, governments and NGOs are often asked to distill a program’s mission down to a handful of outcomes that, it is understood, will be used to define success. Adding to this difficulty, each outcome must be further simplified to an indicator such as the response to a survey question, or the score on a test.

More than daunting, this task can appear impossible and the request, absurd. In the process, evaluators can come across as caring only about data and statistics—not the lives of the people targeted by the program.

For certain goals, the corresponding indicators naturally follow. For example, if the goal of distributing chlorine tablets is to reduce waterborne illness, the related outcome may be a reduction in diarrhea. The corresponding indicator, incidence of diarrhea, could come from one question in a household survey where respondents are asked directly, “Has anyone in the household suffered from diarrhea in the past week?”

For other goals, such as “empowering women,” or “improving civic mindedness” the outcomes may not fall as neatly into place. That doesn’t mean that most goals are immeasurable. Rather, more thought and creativity must go into devising their corresponding indicators. For an example of difficult-to-measure outcomes, see article.

What is randomization and why randomize?

Understanding randomization

Why do people let chance determine their fate? Sometimes, because they perceive it as fair. Other times, because uncertainty adds an element of excitement. Statisticians use randomization because, when enough people are randomly chosen to participate in a survey, conveniently, the attributes of those chosen individuals are representative of the entire group from which they were chosen. In other words, inferences can be made from what is discovered about them to the larger group. Using a lottery to get a representative sample is known as random sampling or random selection.

When two groups are randomly selected from the same population, they both represent the larger group. They have comparable characteristics, in expectation, not only to the larger group but also to each other. The same logic carries forward if more than two groups are randomly selected. When two or more groups are selected in this way, we can say that individuals have been randomly assigned to groups. This is called random assignment. (Random assignment is also the appropriate term when all individuals from the larger group divided randomly into different groups. As before, all groups represent the larger group and, in expectation, have comparable characteristics to each other.) Random assignment is the key element of randomized evaluation.

What happens next in a simple randomized evaluation (with two groups) is that one group receives the program that is being evaluated and the other does not. If we were to evaluate a water purification program using this method, we would randomly assign individuals to two groups. At the beginning, the two groups would have comparable characteristics on average (and are expected to have equivalent trajectories going forward). But then we introduce something that makes them different. One group would receive the water purification program and the other would not. Then, after some time, we could measure the relative health of individuals in the two groups. Because the groups were comparable at the beginning, differences in outcomes seen later on can be attributed to one having been given the water purification program, and the other not.

Randomized Evaluations go by many names:

  • Randomized Controlled Trials
  • Social Experiments
  • Random Assignment Studies
  • Randomized Field Trials
  • Randomized Controlled Experiments

Randomized evaluations are part of a larger set of evaluations called impact evaluations. Like all impact evaluations, the primary purpose of randomized evaluations is to determine whether a program has an impact, and more specifically, to quantify how large that impact is. Impact evaluations typically measure program effectiveness by comparing outcomes of those (individuals, communities, schools, etc) who participated in the program against those who did not participate. There are many methods of doing this.

What distinguishes randomized evaluations from other non-randomized impact evaluations is that participation (and non-participation) is determined randomly—before the program begins. This random assignment is the method used in clinical trials to determine who gets a drug versus who gets a placebo when testing the effectiveness (and side effects) of new drugs. As with clinical trials, those in the impact evaluation who were randomly assigned to the “treatment group” are eligible to receive the treatment (i.e. the program). And they are compared to those who were randomly assigned to the “comparison group” –those who do not receive the program. Because members of the treatment and comparison groups do not differ systematically from each other at the outset of the evaluation, any difference that subsequently arises between them can be attributed to the treatment rather than to other factors. Relative to results from non-randomized evaluations, results from randomized evaluations can be:

  • Less subject to methodological debates
  • Easier to convey
  • More likely to be convincing to program funders and/or policymakers

Beyond quantifying the intended outcomes caused by a program, randomized evaluations can also quantify the occurrence of unintended side-effects (good or bad). And, like other methods of impact evaluation, randomized evaluations can also shed light on why the program has or fails to have the desired impact.

  1. Randomization in the Context of “Evaluation”: Randomized evaluations are a type of impact evaluation that use a specific methodology for creating a comparison group—in particular, the methodology of random assignment. Impact evaluations are program evaluations that focus on measuring the final goals or outcomes of a program. There are many types of evaluations that can be relevant to programs beyond simply measuring effectiveness. (See What is Evaluation?)
  2. Methodology of Randomization: To better understand how the methodology works, see "how to conduct a randomized evaluation."

Why randomize?

What is impact? In our chlorine example, impact is how much healthier people are because of the program. Or, more specifically, it is how much lower the incidence of diarrhea is than it would have been otherwise.

Getting this number correct is more difficult than it sounds. It is possible to measure the incidence of diarrhea in a population that received the program. But “how they would have been otherwise” (termed, the counterfactual) is impossible to measure directly; it can only be inferred.

Constructing a Comparison Group

Impact evaluations estimate program effectiveness usually by comparing outcomes of those (individuals, communities, schools, etc.) who participated in the program against those who did not participate. The key challenge in impact evaluation is finding a group of people who did not participate but closely resemble the participants, specifically, the participants if they had not received the program. Measuring outcomes in this comparison group is as close as we can get to measuring “how participants would have been otherwise.” Therefore, our estimate of impact is only as good as our comparison group is equivalent to the treatment group.

There are many methods of creating a comparison group. Randomization generates a comparison group that has characteristics that are comparable to the treatment group, on average, before the intervention begins. It ensures that there are no systematic differences between the two groups and that the primary difference between the two is the presence of the program. This produces unbiased estimates of the true effect of the program.

Other methods may produce misleading (biased) results and rely on more assumptions than do randomized evaluations. When the assumptions hold, the result is unbiased. But it is often impossible, and always difficult, to ensure that the assumptions are true.

Beyond escaping debates over whether certain assumptions hold, randomized evaluations produce results that are easy to explain. More information can be found in our 'Why Randomize' document. A table comparing common methods of evaluation can be found here.

When to conduct a randomized evaluation

The value added by rigorously evaluating a program or policy changes depending on when in the program or policy life cycle the evaluation is conducted. The evaluation should not come too soon: when the program is still taking shape and kinks are being ironed out. And the evaluation should not come too late: after money has been allocated, and the program, rolled out, so that there is no longer space for a comparison group.

An ideal time is during the pilot phase of a program or before scaling up. During these phases there are often important questions that an evaluator would like to answer, such as, How effective is the program? Is it effective among different populations? Are certain aspects are working better than others, and can “the others” be improved? Is it effective when it reaches a larger population?

During the pilot phase, the effects of a program on a particular population are unknown. The program itself may be new or it may be an established program that is targeting a new population. In both cases, program heads and policymakers may wish to better understand the effectiveness of a program and how it might be improved. Almost by definition, the pilot program will reach only a portion of the target population, making it possible to conduct a randomized evaluation. After the pilot phase, if the program is shown to be effective, leading to increased support, and in turn more resources allocated, it can be replicated or scaled up to reach the remaining target population.

One example of a well-timed evaluation is that of PROGRESA, a conditional cash transfer program in Mexico launched in 1997. The policy gave mothers cash grants for their family as long as they ensured their children attended school regularly and received scheduled vaccinations. The political party, which had been in power for the prior 68 years, the Institutional Revolutionary Party (PRI), was facing inevitable defeat in the upcoming elections. A probable outcome of electoral defeat was the dismantling of incumbent programs such as PROGRESA. To build support for the program’s survival, PRI planned to clearly demonstrate the policy’s effectiveness in improving child health and education outcomes.

PROGRESA was first introduced as a pilot program in rural areas of seven states. Out of 506 communities sampled by the Mexican government for the pilot, 320 were randomly assigned to treatment and 186 to the comparison. Comparing treatment and comparison groups after one year, it was found to successfully improve these child-level outcomes. As hoped, the program’s popularity expanded from its initial supporters and direct beneficiaries to the entire nation.

Following the widely-predicted defeat of PRI in the 2000 elections, the new political party, PAN took power and inherited an immensely popular program. Instead of dismantling PROGRESA, PAN changed the program’s name to OPORTUNIDADES and expanded it nation-wide.

The program was soon replicated in other countries, such Nicaragua, Ecuador, and Honduras. Following Mexico’s lead, these new countries conducted pilot studies to test the impact of PROGRESA-like programs on their populations before scaling up.

When is randomized evaluation not appropriate?

Randomized evaluations may not be appropriate:

  1. When evaluating macro policies. No evaluator has the political power to conduct a randomized evaluation of different monetary policies. One could not randomly assign a floating exchange rate to Japan and other nations and a fixed exchange rate to the United States and a different group of nations.
  2. When it is unethical or politically unfeasible to deny a program to a comparison group. It would be unethical to deny a drug whose benefits have already been documented to some patients for the sake of an evaluation if there are no resource constraints.
  3. If the program is changing during the course of the evaluation. If, midway through an evaluation, a program changes from providing a water treatment solution to providing a water treatment solution and a latrine, it will be difficult to interpret which part of the program produced the observed results.
  4. If the program under evaluation conditions differs significantly from how it will be under normal conditions. During an evaluation, participants may be more likely to use a water treatment solution if they are encouraged or given incentives. In normal conditions, without encouragement or incentives, fewer people may actually use the water treatment solution even if they own it and know how to use it. As a caveat, this type of evaluation may be valuable in testing a proof of concept. It would simply be asking the question, “can this program or policy be effective?” It would not be expected to produce generalizable results.
  5. If a randomized evaluation is too time-consuming or costly and therefore not cost-effective. For example, due to a government policy, an organization may not have sufficient time to pilot a program and evaluate it before rolling it out.
  6. If threats such as attrition and spillover are too difficult to control for and hurt the integrity of the evaluation. An organization may decide to test the impact of a deworming drug on school attendance at a particular school. Because deworming drugs have a spillover effect (the health of one student impacts the health of another), it will be difficult to accurately measure the impact of the drug. In this case, a solution could be to randomize at a school level rather than at a student level.
  7. If sample size is too small. If there are too few subjects participating in the pilot, even if the program were successful, there may not be enough observations to statistically detect an impact.

How to conduct a randomized evaluation

Planning an evaluation

In planning an evaluation, it is important to identify key questions the organization may have. From these, we can determine how many of those questions can be answered from prior impact evaluations or from improved systems of process evaluation. Assuming we haven’t found all our answers, we must then pick a few top priority questions that will be the primary focus of our impact evaluation. Finally, we should draw up plans to answer as many questions as we can, keeping in mind that fewer high quality impact studies are more valuable than many poor quality ones.

The first step in an evaluation is to revisit the program’s goals and how we expect those goals to be achieved. A logical framework or theory of change model can help in this process. (See Program Theory Assessment) As part of assessing the purpose and strategy of a program, we must think about key outcomes, the expected pathways to achieve those outcomes, and reasonable milestones that indicate we’re traveling down the right path. As expected in an evaluation, these outcomes and milestones will need to be measured, and therefore transformed into “indicators” and ultimately data. (See Goals, Outcomes, and Measurement.)

Only after we have a good sense of the pathways, the scope of influence, and a plan for how we will measure progress, can we think about the actual design of the evaluation.

How to design an evaluation

An evaluation design requires a considerable amount of thought. First comes the conceptual pieces: what do we plan to learn from this evaluation? What are the relevant questions? What outcomes are expected? How can they be measured?

Next come the design questions:

  • What is the appropriate level or unit of randomization?
  • What is the appropriate method of randomization?
  • Beyond the political, administrative and ethical constrains, what technical issues could compromise the integrity of our study, and how can we mitigate these threats in the design?
  • How would we implement the randomization?
  • What is the necessary sample size to answer our questions? (How many people do we need to include in the study, both as participants, but also as survey respondents?)

1. Unit of Randomization

In designing our evaluation, we must decide at what level we will randomize: what unit will be subject to random assignment? Will it be individuals or groupings of individuals, such as households, villages, districts, schools, clinics, church groups, firms, and credit associations? (When we randomize groups of individuals—even though we care about and measure individual outcomes—this is referred to as a cluster randomized trial.) For example, if we managed to secure enough chlorine pills for one thousand households to treat contaminated water (out of, say, ten thousand households who use the same contaminated source of drinking water), do we expect to randomly assign households to the treatment and comparison groups? This means that some households will be given chlorine pills, but some of their immediate neighbors will be denied chlorine pills. Is that feasible? Ethical?

For this type of program, it probably wouldn’t be feasible to randomize at an even smaller unit than the household, for example the individual level. It would imply that some children within a household are given chlorine pills and some of their siblings are not. If all household members drink from the same treated tank of water, individual randomization would be physically impossible, regardless of the ethical considerations. Perhaps the appropriate unit of randomization is the community, where some communities will receive chlorine, other communities will not, but within a “treatment” community all households (implying all neighbors) are eligible to receive the pills.

There are many things to consider when determining the appropriate level of randomization, of which ethics and feasibility are only two. Seven considerations are listed below.

  • What unit does the program target for treatment? If chlorine tablets are meant to be dissolved in water storage tanks that in our region all households typically already own, then some households could be selected to receive chlorine, and others not. In this case, the unit of randomization would be at the household level. However, if the storage tank is typically located outside and used by a cluster of households, then it would be impossible to randomly assign some households in that cluster to the comparison group—they all drink the same (treated) water as the treatment households. Then, the most natural unit of randomization may be the “clusters of households” that use a common water tank.
  • What is the unit of analysis? If the evaluation is concerned with community-level effects then the most natural level of randomization is probably the community. For example, imagine our outcome measure is incidence of “hospitalization” due to diarrhea, and it is most economical to measure this using administrative records at community clinics, and, furthermore, those records remain anonymous. We would not be able to distinguish whether people who were hospitalized were from treatment households or comnparison households. However, if the entire community is in the treatment group, we could compare the records from clinics in treatment communities against those of comparison communities.
  • • Is the evaluation design fair? The program should be perceived as fair. If I’ve been denied chlorine pills but my immediate neighbors receive them, I might be angry with my neighbors and the NGO, and I might be less willing to fill out a questionnaire on chlorine usage when surveyors knock at my door. The NGO might also not be enthusiastic about upsetting its community members. On the other hand, if my entire community didn’t get it, but a neighboring community did, I might never hear of the program andhave nothing to complain about, or I could think that this was just a village-level choice and my village chose not to invest. Of course, people may be equally upset about a community-level design.
  • Is a randomized evaluation politically feasible? It may not be feasible politically to randomize at the household level. For example, a community may demand that all needy people receive assistance, making it impossible to randomize at the individual or household level. In some cases, a leader may require that all members of her community receive assistance. Or she may be more comfortable having a randomly selected half be treated (with certainty) than risk having no one treated (were her village assigned to the comparison group). In one case she may comply with the study and in another, she may not.
  • Is a randomized evaluation logistically feasible? Sometimes it is logistically impossible to ensure that some households remain in the comparison group. For example, if chlorine distribution requires hiring a merchant within each village and setting up a stall where village members pick up their pills, it may be inefficient to ask the distribution agent to screen out households in the comparison group. It could add bureaucracy, waste time, and distort what a real program would actually look like. Or even if the merchant could easily screen, households may simply share the pills with their neighbors who are in the comparison group, in which case, the comparison group would be impacted by the program. In this case, it would make sense to randomize at the village level, and then simply hire merchants in treatment villages and not in comparison villages.
  • What spillovers and other effects will need to be taken into account? Even if it is feasible to randomize at the household level—to give some households chlorine tablets and not others—it may not be feasible to contain the impact within just the treatment households. If individuals in the comparison group are affected by the presence of the program—they benefit from fewer sick neighbors (spillover effects), or drink the water from treatment neighbors (don’t comply with the random assignment and cross over to the treatment group), they no longer represent a good comparison group.
  • What sample size and power do we require to detect effects of the program? The ability to detect effects depends on the sample size. When more people are sampled from a larger population, they better represent the population. For example, if we survey two thousand households, and randomize at the household level (one thousand treatment, one thousand comparison), we effectively have a sample size of two thousand households. But if we randomized at the village level, and each village has one hundred households, then we would have only ten treatment villages and ten comparison. In this case, we may be measuring diarrhea at the household level, but because we randomized at the village level, it is possible we have an effective sample size closer to ten (even though we are surveying two thousand households)! In truth, the effective sample size, could be anywhere from ten to two thousand, depending on how similar households within villages are to their fellow villagers. (See: sample size.) With an effective sample size closer to ten, we may not be sufficiently powered to detect real effects. This may influence our choice as to the appropriate level of randomization.

There are many considerations when determining the appropriate level of randomization. Evaluators cannot simply sit at a computer, press a button, produce a list, and impose an evaluation design on an organization from thousands of miles away. Evaluators must have a deep and broad understanding of the implementing organization, their program, and the context and work in partnership to determine the appropriate level of randomization given the particular circumstances.

2. Different Methods of Randomization

If my organization can secure one thousand chlorine pills per day so I can treat one thousand out of an eligible two thousand households per day, I could choose to treat the same one thousand households in perpetuity. Alternatively, I could rotate recipients so that each household gets clean water every other day. I may feel that the latter option makes no sense. If everyone is drinking dirty water half the days, I may expect zero impact on anyone. So I may choose one thousand households that will receive the pills daily. If randomizing, I may perform a simple “lottery” to determine which thousand households get the pill: I write all two thousand names onto small pieces of paper, put those pieces of paper into a basket, shake the basket up, close my eyes, and pull one thousand pieces of paper out. Intuitively, this is called a lottery design.

Alternatively, I could rotate households every year instead of every day and randomly assign the order in which they get treated. In this case, one thousand households would be in the treatment group in the first year and in the comparison group in the second year, while the reverse would be true of the other one thousand households. I could then compare outcomes between the two groups at the end of each year. This set-up is called a rotation design. Note that rotation designs are most workable when the primary concern is what happens when households have access to the program, in this case clean water, and when the treatment effects do not remain after the treatment ends. 

Say I can secure five hundred pills per day this year, but next year I expect to secure one thousand per day, and the following year two thousand per day. I could randomly choose five hundred households to get the pill in the first year, another five hundred to be added in the second year, and the remaining thousand get it in the third year. This would be called a phase-in design

There are seven possible randomization designs—the lottery design, phase-in design, rotation design, encouragement design, the varying levels of treatment design, and two-stage randomization. These designs are not necessarily mutually exclusive. Their advantages and disadvantages are summarized in this table.

3. Threats to the Design

A spillover effect occurs when a program intended to help targeted participants unintentionally impacts the comparison group as well (either positively or negatively). The comparison group is supposed to represent outcomes had the program not been implemented (see counterfactual). If this comparison group has been touched by the program, its role mimicking the counterfactual is now compromised, and the ensuing impact measure may be biased. There are ways of mitigating spillover effects, such as by changing the level of randomization.

For example, one source of sickness may be drinking contaminated water. But another source is playing with neighboring children who are themselves sick. If I am in the comparison group, and the program treats my neighbors so that those neighbors are no longer sick, my changes of getting sick are reduced. As such, I have now been affected by the treatment of my neighbors, despite being in the comparison group, and would no longer represent a good counterfactual. This is known as a spillover effect, in this case a positive spillover. To mitigate the possibility of spillovers, we could randomize at the community level so that everyone in the same community shares the same status of being in either the treatment or comparison group. Children in a treatment group community would be less likely to impact children in a comparison group community.

Another possibility is that my household has been assigned to the comparison group, but my neighbor is in the treatment group, and my mother knows their water is clean and sends me to their house to drink. In a sense, I am finding my way into the treatment group, even though I was assigned to the comparison group. This is called a crossover effect, which happens when people defy their treatment designation (knowingly or unknowingly) and outcomes are altered as a result. As with spillovers, by crossing over I no longer represent a good comparison group—since I have clearly been affected by the existence of the program. As before, changing the level of randomization could mitigate crossover effects.

4. Mechanics of Randomization

Once the unit and method of randomization have been determined, it is time to randomly assign individuals, households, communities, or any unit to either the treatment or comparison group.

a) Simple Lottery
Generally, to start with, we need a list of (individual, household head, or village) names. We then randomly select, such as by flipping a coin or pulling names out of a hat, those who will be in the treatment group, with the remaining names in the comparison group (or vice versa). This could also be done as part of a public lottery. However, we don’t always divide the study population exactly in half. We may wish to include 30 percent in the treatment group and 70 in the comparison. Or if we had a phase-in method with three periods, we may want to divide the population into three groups. We may also wish to test multiple treatments at the same time, which would also require several groups. In these more sophisticated evaluation designs, a coin flip will not suffice. Instead, randomization is typically done through a computer program.

b) Spot Randomization
Sometimes we do not have a list beforehand. For example, if individuals enter a clinic with symptoms of malaria, the decision of whether to administer the World Health Organization’s standard “DOTS” treatment or an enhanced alternative must be made on the spot. The treatment could be determined by the nurse at the clinic using the flip of a coin. Alternatives could include computerized or cell-phone based randomization.

c) Stratified Randomization
Frequently, the target population is divided into subgroups, known as strata, before randomizing. For example, a group of individuals can be divided into smaller groups based on gender, ethnicity, or age. This division into subgroups before randomization is called stratification. Then the randomization exercise takes place within each of the strata. This is done to ensure that the proportion of treatment and comparison groups are balanced within each group so that researchers can understand whether the effect of the treatment varies by subgroup. For example, researchers may be interested in knowing whether a treatment affects female headed households differently than male headed households, but it is conceivable that without stratification we would end up with too few female headed households to be able to draw any conclusions about heterogeneous effects. Stratifying the sample according to the gender of the household head avoids this problem. The primary purpose of stratification is statistical and relates to sample size. The decision to stratify has no bearing on whether the results are biased.

5. Sample Selection and Sample Size

Whether an evaluation can detect outcome differences between the treatment and comparison groups depends on statistical power. Among other factors, statistical power depends on the number of units in the sample, or the sample size.

Once again, let’s take our example of waterborne illness in a community, and let us assume that we have chosen to distribute chlorine tablets to households to test their impact on the incidence of diarrhea. But let us also assume that we only have a very limited budget for our test phase, so we would like to minimize the number of households that are included in the survey while still ensuring that we can attribute any changes in incidence to the chlorine tablets and not to random chance. How many households should receive the tablets, and how many should be surveyed? Is five households enough? 100? 200? How many households should be in the comparison group? Power calculations help us answer these questions.

For more information on how to estimate the required sample size, see:
Duflo, Esther, Glennerster, Rachel, and Kremer, Michael, "Using Randomization in Development Economics Research: A Toolkit" (2006). MIT Department of Economics Working Paper No. 06-36.
Bloom, H.S. (1995): "Minimum Detectable Effects: A simple way to report the statistical power of experimental designs," Evaluation Review 19, 547-56.

How to Implement and Obtain Results

Implementation

Once an evaluation design has been finalized, the evaluator must remain involved to monitor data collection as well as the implementation of the intervention being evaluated. If respondents drop out during the data collection phase, the results are susceptible to attrition bias, compromising their validity. Attrition is covered in this section. Other threats in the data collection phase such as poor measurement instruments, reporting bias, etc, are equally important, but are not covered here. For best practices on data collection see:
Deaton, A. (1997): The Analysis of Household Surveys. World Bank, International Bank for Reconstruction and Development

In the implementation of the intervention, the integrity of the randomization should remain intact. Unless intentionally incorporated into the study’s design, spillovers and crossovers should be minimized, or at the very least, thoroughly documented. (See Threats to the design for background.)

1. Threats to Data Collection

Attrition occurs when evaluators fail to collect data on individuals who were selected as part of the original sample. Note that the treatment and comparison groups, through random assignment, are constructed to have comparable characteristics, on average, at the beginning of the study. The comparison group is meant to resemble the counterfactual, or what would have happened to the treatment group  had the treatment not been offered. (See: Why Randomize?). If the type of individuals who drop out of the study are not systematically different in the treatment versus comparison groups, the (smaller) comparison group will still represent a valid counterfactual to the (smaller) treatment group. This will reduce our sample size and may change the target population to which our results can be generalized, but it will not compromise the “truth” of the results, at least applied to the restricted population. That is, our estimates of the effect of the program will remain unbiased.

For example, suppose our study area is rural and that many household members spend significant portions of the year working in urban areas. Suppose further that we created our sample and collected baseline data when migrant household members were home during the harvests and available for our study. If we collect our endline data during the off-peak season, the migrant family members will have returned to their city jobs and will be unavailable for our survey, so our study will now be restricted to only non-migrants. Assuming there is no systematic difference between the type of person who migrates in the treatment versus comparison groups, the non-migrant population in the comparison group will represent a good counterfactual to the non-migrant population in the treatment group. Our measure of impact will be valid, but only applicable to the non-migrant population. 

If, however, attrition takes a different shape in the two groups, the remaining comparison group no longer serves as a valid counterfactual, which will bias our results. Using our example of waterborne illness, suppose that, due to random chance, more children and mothers are ill in the comparison group. As a result, the young men who typically migrate to the cities during off-peak seasons stay back to help the family. Households that were assigned to the comparison group contain more migrants during our endline. It is entirely feasible that these migrants, of peak working age, are typically healthier. Now, even though our treatment succeeded in producing healthier children and mothers on average, our comparison group contains more healthy migrant workers than does the treatment group. When measuring the incidence of diarrhea, outcomes of the healthy migrants in the comparison group could offset those of their sicker family members. Then, when comparing the treatment and comparison groups, we could see no impact at all and may conclude the treatment was ineffective. This result would be false and misleading.

In this simplified example, we could forcibly reintroduce balance between the comparison and treatment groups by removing all migrants from our sample. Frequently, however, characteristics that could dependably identify both real and would-be attrits (those who disappear) have not been measured or are impossible to observe. Predicting attrition can be difficult, and attrition bias can result in either overestimating or underestimating a program’s impact.

2. Spillovers and Crossovers

Spillovers occur when individuals in the comparison group are somehow affected by the treatment. For example, if certain children in the comparison group of a chlorine dispensing study  play with children who are in the treatment group, they have friends who are less likely to be sick, and are therefore less likely to become sick themselves. In this case, they are indirectly impacted by the program, despite having been assigned to the comparison group. Individuals who “crossover”  are those in the comparison group who find a way to be treated. For example, if the mother of a child in the comparison group sends her child to drink from the water supply of a treatment group household, she is finding her way into the treatment group. Impartial compliance is a broader term that encapsulates crossovers and also treatment individuals who deliberately choose not to participate (or chlorinate their water, in this example).

When a study suffers from spillovers and crossovers, in many circumstances it is still possible to produce valid results, using statistical techniques. But these come with certain assumptions—many of which we were trying to avoid when turning to randomization in the first place. For example, if spillovers can be predicted using observed variables, they can be controlled for. With impartial compliance, if we assume that those who did not comply were unaffected by the intervention, and, by the same token, the individuals who crossed over were affected in the same way as those from the treatment group who were treated, we can infer the impact of our program. But, as discussed in the Why Randomize section, the more assumptions we make, the less firm ground we stand on when claiming the intervention caused any measured outcomes.

How to Obtain Results

At the end of an intervention (or at least the evaluation period for the intervention), endline data must be collected to measure final outcomes. Assuming the integrity of the random assignment was maintained, and data collection was well-administered, it is time to analyze the data. The simplest method is to measure the average outcome of the treatment group and compare it to the average outcome of the comparison group. The difference represents the program’s impact. To determine whether this impact is statistically significant, one can test the equality of means using a simple t-test. One of the many benefits of randomized evaluations is that the impact can be measured without advanced statistical techniques. More complicated analyses can also be performed, such as regressions that increase precision by controlling for characteristics of the study population that might be correlated with outcomes.  However, as the complexity of the analysis mounts, the number of potential missteps increases. Therefore, the evaluator must be knowledgeable and careful when performing such analyses.

It is worth noting that, when a result is obtained, we have not uncovered the true impact of the program with 100 percent certainty. We have produced an estimate of the truth and can say, with a certain degree of probability, whether the program had an effect. The larger our sample size, the smaller our standard errors will be, and the more certain we are that our measure is close to the truth. But we can never be 100 percent certain.

This fact leads to two very common pitfalls in analysis:

  1. Multiple Outcomes: Randomization does not ensure the estimated impact is a perfect measure of the true impact of the program. The measured impact is unbiased, but it is still an estimate. Random chance allows for some margin for error around the truth. Depending on the sample size and the amount of variation in the outcome, the estimate may be very close to the truth. If we have correctly calculated the sample size required to be able to say, with some degree of certainty, whether the program had an effect, then it is unlikely that we will draw incorrect inferences about the impact of the program on a single outcome. If we look at many outcomes, however, the chances of drawing incorrect inferences will increase. The more outcomes we look at, the more likely one or more of our estimates will deviate significantly from the truth, simply due to random chance.

    For example, assume the chlorine pills we distributed to fight waterborne illness in our water purification program were faulty or never used. If twenty outcome measures are compared, it is in fact very likely that at least one comparison will suggest a significant change in health due to our program. If we look at enough outcome measures eventually we will stumble upon one that is significantly different between the treatment and comparison groups, simply due to random chance. This is not a problem, per se. The problem arises when the evaluator “data mines,” looking at outcomes until she finds a significant impact, reports this one result, and fails to report the other insignificant results that were discovered in the search.
  2. Sub-group analysis: Just as an evaluator can data mine by looking at many different outcome measures, she can also dig out a significant result by looking at different sub-groups in isolation. For example, it might be that the chlorine has no apparent impact on household health as a whole. It may be reasonable to look at whether it has an impact on children within the household, or girls in particular. But we may be tempted to compare different combinations of boys and girls of different age groups and living in households with different demographic compositions and assets. We may discover that the program improves the health of boys between the ages of 6 and 8, who happen to have one sister, one grandparent living in the household, and where the household owns a TV and livestock. We could even concoct a plausible story for why this subgroup would be affected and other subgroups not. But if we stumbled upon this one positive impact after finding a series of insignificant impacts for other subgroups, it is likely that the difference is due simply to random chance, not our program.

How to Draw Policy Implications

Having performed a perfect randomized evaluation, and an honest analysis of the results, with a certain level  of confidence we can draw conclusions about how our program impacted this specific target population. For example: “Our chlorine distribution program caused a reduction in the incidence of diarrhea in children of our target population by 20 percentage points.” This statement is scientifically legitimate, or internally valid. The rigor of our design  cannot tell us, however, whether this same program would have the same or any impact if replicated in a different target population, or if scaled up. Unlike internal validity, which a well-conducted randomized evaluation can provide, external validity, or generalizability, is more difficult to obtain. To extrapolate how these results would apply in a different context, we need to depart from our scientific rigor and begin to rely on assumptions. Depending on our knowledge of the context of our evaluation, and other contexts upon which we would like to generalize the results, our assumptions may be more or less reasonable.

However, the methodology we chose—a randomized evaluation—does not provide internal validity at the cost of external validity. External validity is a function of the program design, the service providers, the beneficiaries, and the environment in which the program evaluation was conducted. The results from any program evaluation are subject to these same contextual realities when used to draw inferences for similar programs or policies implemented elsewhere. What the randomized evaluation buys us is more certainty that our results are at least internally valid.

Common Questions and Concerns about Randomized Evaluations

Context

If there is rigorous evidence that an intervention is effective and sufficient resources are available to serve everyone, it would be unethical to deny some people access to the program. However, in many cases we do not know whether an intervention is effective (it is possible that it could be doing harm), or if there are enough resources to serve everyone. When these conditions exist, a randomized evaluation is not only ethical, but is also capable of generating evidence to inform the scale-up of effective interventions or to shift resources away from ineffective interventions.

When a program is first being rolled out or is oversubscribed, financial and logistical constraints may prevent an organization from serving everyone. In such a case, randomization may be a fairer way of choosing who will have access to the program than other selection methods (e.g. first-come, first-served). Conducting a randomized evaluation may change the selection process, but not the number of participants served.

It is also possible to conduct a randomized evaluation without denying access to the intervention. For example, we could randomly select people to receive encouragement to enroll without denying any interested participants access to the intervention. In other cases, it may be useful to compare two different versions of an intervention, such as an existing version and a version with a new component added.

Is it possible to conduct randomized evaluations at low-cost without having to wait years for the results?

Collecting original survey data is often the most expensive part of an evaluation, but it is not unique to randomized evaluations. Likewise, it is increasingly possible to conduct evaluations at relatively low cost by measuring outcomes using existing administrative data, instead of collecting survey data.

The length of time required to measure the impact of an intervention largely depends on the outcomes of interest. For example, long-term outcomes for an educational intervention (e.g. earnings and employment) require a lengthier study than shorter-term outcomes, such as test scores, which can be obtained from administrative records.

Finally, the time and expense of conducting a randomized evaluation should be balanced against the value of the evidence produced and the long-term costs of continuing to implement an intervention without understanding its effectiveness.

Can a randomized evaluation tell us not just whether an intervention worked, but also how and why?

When designed and implemented correctly, randomized evaluations can not only tell us whether an intervention was effective, but also answer a number of other policy-relevant questions. For example, a randomized evaluation can test different versions of an intervention to help determine which components are necessary for it to be effective, provide information on intermediate outcomes in order to test an intervention’s theory of change, and compare the effect of an intervention on different subgroups.

However, as with any single study, a randomized evaluation is just one piece in a larger puzzle. By combining the results of one or more randomized evaluations with economic theory, descriptive evidence, and local knowledge, we can gain a richer understanding of an intervention’s impact.

Are the results of randomized evaluations generalizable to other contexts?

The problem of generalizability is common to any impact evaluation that tests a specific intervention in a specific context. Properly designed and implemented randomized evaluations have the distinct advantage over other impact evaluation methods of ensuring that the estimate of an intervention’s impact in its original context is unbiased.

Further, it is possible to design randomized evaluations to address generalizability. Randomized evaluations may test an intervention across different contexts, or test the replication of an evidence-based intervention in a new context. Combining a theory of change that describes the conditions necessary for an intervention to be successful with local knowledge of the conditions in each new context can also inform the replicability of an intervention and the development of more generalized policy lessons. Learn more about addressing generalizability. 

History of randomized evaluations

Clinical Trials

The concept of a treatment and comparison group was introduced in 1747 by James Lind when he demonstrated the benefits of citrus fruits in preventing scurvy using a scientific experiment.1 As a result of his work, Lind is considered to be the father of clinical trials. The method of randomly assigning subjects to comparison and treatment groups, however, was not developed until the 1920s

Agricultural Experiments

Randomization was introduced to scientific experimentation in the 1920s when Neyman and Fisher conducted the first randomized trials in separate agricultural experiments. Fisher’s field experimental work culminated with his landmark book, The Design of Experiments, which was a main catalyst for the much of the growth of randomized evaluations.2

Social Programs

Randomized trials were introduced to government-sponsored social evaluations between 1960 and 1990.  Rather than small-scale studies conducted on plants and animals, these new social evaluations were significantly larger in scale and focused on people as the subjects of interest. The idea of conducting social policy evaluations grew out of a 1960s debate over the merits of the welfare system. The model was later applied both in Europe and the United States to evaluate other programs such as electricity pricing schemes, employment programs, and housing allowances. Since then, similar types of evaluations have been used across disciplines and in a variety of settings around the world to guide policy decisions. 3

1 Thomas, Duncan P. Sailors, Scurvy and Science. Journal of the Royal Society of Medicine. 90 (1997).
2 Levitt, Steven D. and John A. List. 2009. “Field Experiments in Economics: The Past, The Present, and The Future.” European Economic Review 53(1): 1-18.
3 Ibid

Who conducts randomized evaluations?

J-PAL was founded in 2003 as a network of affiliated professors who conduct impact evaluations using the randomized evaluation (RE) methodology to answer questions critical to poverty alleviation. J-PAL affiliates also conduct non-randomized research, and many other people and organizations conduct REs.

Since J-PAL’s founding, more than 200 organizations have partnered with a J-PAL affiliate on an RE. Amongst key players in poverty alleviation and development, the idea of REs is now fairly well-known.

Of the top ten U.S. foundations,1 four of the six that work on international development have partnered with a J-PAL affiliate on a RE. These include the Bill & Melinda Gates Foundation, the Ford Foundation, the William and Flora Hewlett Foundation, and the John D. and Catherine T. MacArthur Foundation.2

Of the top ten multilateral organizations,3 four have partnered with a J-PAL affiliate on a RE (the World Bank, the Asian Development Bank, Unicef, and the Inter-American Development Bank), and six of the ten have sent staff to J-PAL’s training courses.

Of “The Big Eight” relief organizations,4 Save the ChildrenCatholic Relief ServicesCARE, and Oxfam have partnered with a J-PAL affiliate on an RE. The International Rescue Committee is doing REs on its own. And six of the eight have sent staff to J-PAL’s training courses.

Governments also partner with J-PAL affiliates. Major donor country partners include the United States (USAIDMCC), France (Le Ministre de la Jeunesse et des Solidarités Actives), Sweden, and the United Kingdom (DFID). Developing country government partners have been both at the national level (e.g. Kenya’s Ministry of Education and the Government of Sierra Leone’s Decentralization Secretariat) and the sub-national level (e.g. the Government of Andhra Pradesh, the Gujarat Pollution Control Board, and the Rajasthan police).

A number of research centers have been established with the support or under the direction of J-PAL affiliates. These research centers often run affiliates' REs and employ the staff associated with each RE. These research centers include: Innovations for Poverty Action (IPA)Centre for MicrofinanceCenter for International Development's Evidence for Policy DesignCenter for Effective Global ActionIdeas42, and the Small Enterprise Finance Center.

Private companies also conduct randomized evaluations of social programs. Mathematica Policy Research and Abt Associates are two examples.

1 When measured by endowment.
The other two that work on international development but have not partnered with J-PAL are the W.K. Kellogg Foundation and the David and Lucile Packard Foundation. The four that we have judged as having a domestic U.S. focus are the Getty Trust, the Robert Wood Johnson Foundation, the Lilly Endowment Inc., and the Andrew W. Mellon Foundation.
3 When measured by official development assistance granted, including The World Bank, the African Development Bank Group, The Global Fund, the Asian Development Bank, the International Monetary Fund, Unicef, UNRWA, Inter-American Development Bank, the United Nations Development Program, and the World Food Program.
When measured by annual budget. These are World Vision, Save the Children, Catholic Relief Services, CARE, Médecins Sans Frontières, Oxfam, International Rescue Committee, and Mercy Corps.

Resources

More resources on randomized evaluations

Please note that the practical research resources referenced here were curated for specific research and training needs and are made available for informational purposes only. Please email us for more information.