Cómo Diseñar una Evaluación 

 

El diseño de una evaluación requiere una cantidad considerable de pensamiento. Primero viene la parte conceptual: ¿Qué planeamos aprender de esta evaluación?, ¿Cuáles son las preguntas relevantes? , ¿Qué resultados se esperan?, ¿Cómo se pueden medir?
 
(Ver Planeando una evaluación). A continuación, vienen las preguntas del diseño:

1.    Unidad de Aleatorización

Al diseñar nuestra evaluación debemos decidir a qué nivel haremos la aleatorización: ¿cuál será la unidad sujeta a asignación aleatoria? ¿Serán individuos o grupos de individuos, tales como hogares, pueblos, distritos, escuelas, clínicas, grupos de iglesia, empresas y asociaciones de crédito? (Cuando la unidad de aleatorización es un grupo de individuos – incluso cuando nos interesa la medición de resultados individuales – nos referimos a evaluación aleatoria por clúster). Por ejemplo, si logramos dar píldoras de cloro a mil hogares para tratar aguas contaminadas (de una muestra de, digamos, diez mil hogares que sacan agua de la misma fuente contaminada), ¿asignaríamos aleatoriamente a los hogares que serán tratados, dejando al resto en el grupo de control? Esto significaría que algunos hogares recibirían pastillas de cloro, mientras que algunos de sus vecinos más cercanos se quedarían sin este beneficio. ¿Es esto factible? ¿Ético?

Para este tipo de programa, probablemente tampoco sería posible hacer la asignación a menor nivel, por ejemplo a nivel individual. Implicaría que algunos niños dentro de un hogar reciban la píldora de cloro mientras que sus hermanos no. Si todos los miembros de un hogar beben del mismo tanque tratado de agua, la asignación aleatoria individual sería físicamente imposible, aun sin tomar en cuenta las consideraciones éticas.

Tal vez una medida apropiada de asignación aleatoria es la comunidad, según la cual algunas comunidades reciben cloro, otras no, pero dentro de una comunidad “en tratamiento” todos los hogares (lo que implica a todos los vecinos) son elegibles para recibir la píldora de cloro. Hay muchos aspectos a considerar cuando se determina el nivel apropiado de aleatorización, de los cuales la ética y la factibilidad son sólo dos. Siete aspectos son mencionados a continuación.

  1. ¿Qué unidad de tratamiento es la meta del programa?
  2. ¿Cuál es la unidad de análisis?
  3. ¿Es el diseño de la evaluación justo?
  4. ¿Es la evaluación aleatoria políticamente factible?
  5. ¿Es la evaluación aleatoria logísticamente factible?
  6. ¿Qué efectos de externalidad u otros efectos deben ser tomados en cuenta?
  7. ¿Qué tamaño de muestra y poder necesitamos para detectar los efectos del programa?


1.   ¿Qué unidad de tratamiento es la meta del programa?: Si las tabletas de cloro se disuelven en tanques de agua que, en nuestra región, todos los hogares suelen poseer, entonces es posible que algunos hogares reciban las tabletas y otro no. En este caso, la unidad de asignación aleatoria sería a nivel de hogar. Sin embargo, si el tanque de agua suele estar ubicado fuera de las casas y usado por un grupo de hogares, sería imposible asignar algunos hogares de este grupo al grupo de control--todos beben la misma agua (tratada) que beben los hogares en el grupo de tratamiento. Entonces, la unidad más natural de asignación sería aquel “grupo de hogares” que comparten un tanque de agua.

2.   ¿Cuál es la unidad de análisis?: Si la evaluación tiene que ver con los efectos a nivel de la comunidad, entonces el nivel más natural de asignación es el comunitario. Por ejemplo, supongamos que medimos los resultados en cantidad de “hospitalizaciones” debido a la diarrea, y esto es más económico de medir usando los registros administrativos de las clínicas comunitarias que, además, son anónimos. No podríamos distinguir si las personas que se hospitalizaron pertenecían a los hogares en el grupo de tratamiento o de control. Sin embargo, si toda la comunidad está en el grupo de tratamiento, podríamos comparar los registros de las clínicas en comunidades tratadas contra las clínicas en comunidades no tratadas.

3.    Justicia en el diseño de la evaluación: El programa debe ser percibido como uno justo. Si se me han negado las píldoras de cloro, pero mis vecinos más cercanos las reciben, estaré enojado con mis vecinos, estaré enojado con la ONG, y estaré menos dispuesto a rellenar cualquier cuestionario sobre el uso de cloro cuando los encuestadores vayan a mi casa a pedírmelo. Y a la ONG no estará contenta de hacer enojar a los miembros de su comunidad. Por otro lado, si nadie en mi comunidad salió beneficiado, pero la comunidad vecina sí, puede que nunca sepa nada al respecto y por lo tanto no tenga quejas, o puede que piense que fue una decisión tomada a nivel de pueblo, y que la mía decidió no invertir en pastillas de cloro. Por supuesto, las personas también podrían enojarse con una asignación a nivel comunitario. Podríamos tratar de expandir la unidad de asignación aleatoria, o pensar en otras estrategias para mitigar el descontento de la gente que no salió beneficiada. El hecho de que no todos son favorecidos puede ser injusto (ver asuntos éticos). Pero dado que no podemos ayudar a todos (usualmente debido a restricciones de capacidad), y nuestro deseo de mejorar y evaluar, podemos repartir los recursos de una forma que nos ayude a crear un grupo de control y que al mismo tiempo sea visto como justo por las personas que estamos tratando de ayudar.

4.    Factibilidad Política: Puede que no sea factible hacer una asignación aleatoria a nivel de hogar. Por ejemplo, la comunidad puede exigir que toda persona en necesidad debe recibir asistencia, lo que hace imposible escoger aleatoriamente los hogares a los cuales darles las píldoras de cloro. En algunos casos, el líder solicita que todos los miembros de su comunidad reciban asistencia. O puede que se sienta más tranquilo si la mitad obtiene el beneficio al azar (con absoluta certeza, en el caso de asignación individual), que si afronta el riesgo de que nadie en su comunidad sea tratado (en el caso de que la asignación sea comunitaria y su pueblo no salga escogido). En algunos casos, el líder puede colaborar con el estudio; en otros, no.

5.    Factibilidad logística: A veces es logísticamente imposible asegurarnos de que algunos hogares permanezcan en el grupo de control. Por ejemplo, si la entrega del cloro requiere que un distribuidor en cada pueblo monte un puesto donde los vecinos pueden ir a buscar sus píldoras, puede ser ineficiente pedirle que no considere a los hogares en el grupo de control. Esto puede añadir burocracia, perder tiempo y distorsionar la idea original del programa. Incluso si el distribuidor pudiera discriminar fácilmente, los hogares que reciben píldoras podrían compartirlas con sus vecinos que no fueron beneficiados. Entonces, el grupo de control se vería también impactado por el programa y no serviría como grupo de comparación. (Recordemos que el grupo de control supuestamente representa cómo sería la vida sin el programa) (ver ¿Qué es una evaluación de impacto?). En este caso, haría sentido asignar a nivel de pueblo, y sencillamente contratar distribuidores para que visiten los pueblos tratados y no los de control.

6.    Controlar las externalidades y otros efectos: Incluso si es factible asignar a nivel de hogar –dar cloro en algunas casas y en otras no – puede no ser posible contener el impacto dentro del grupo de tratamiento. Si lo hogares del grupo de control son afectados por el hecho de que se lleve a cabo el programa – si se benefician por que hay menos enfermos (efecto de externalidad), o beben el agua de los hogares en tratamiento (no cumplen con la asignación aleatoria y se pasan al grupo de tratamiento), pues ya no son un buen grupo de comparación. (ver ¿Qué es una evaluación de impacto? ) (para más detalles sobre efectos de externalidad o efecto control-tratado, ver Amenazas al diseño.)

7.    Tamaño de muestra y poder: La habilidad de detectar efectos reales depende del tamaño de muestra. Cuanto mayor es el número de personas escogidas a partir de una gran población, estadísticamente, mejor representan a la a aquella población (ver Selección y tamaño de la muestra). Por ejemplo, si encuestamos a dos mil hogares, y aleatorizamos a nivel de hogar (mil hogares reciben tratamiento, mil hogares son el control), efectivamente tendremos un tamaño de muestra de dos mil hogares. Pero si aleatorizamos a nivel de pueblo, y cada pueblo tiene cien hogares, entonces tendremos 5 pueblos en el grupo de tratamiento y 5 en el grupo de control. En este caso, estaríamos midiendo los casos de diarrea e nivel de hogar, pero debido a que aleatorizamos a nivel de pueblo, puede ser que tengamos una muestra efectiva de 10 hogares (aunque hayamos encuestado a dos mil hogares!). En realidad, el tamaño efectivo de la muestra puede ser cualquiera entre diez y dos mil, dependiendo de qué tan parecidos sean los habitantes de un pueblo entre sí (Ver: tamaño de muestra). Con un tamaño de muestra efectivo de 10, no seríamos capaces de detectar efectos reales. Esto puede influenciar nuestra decisión con respecto de qué nivel de asignación usar.

Existen muchas consideraciones al determinar el nivel apropiado de asignación aleatoria. Los evaluadores no pueden simplemente sentarse frente a un computador, presionar un botón, producir una lista e imponer un diseño de evaluación para una organización que está a miles de kilómetros de distancia. Los evaluadores deben tener una comprensión profunda y completa de la organización responsable, del programa, y del contexto y del trabajo del equipo para determinar el nivel de asignación apropiado para cada circunstancia en particular.

2.    Diferentes Métodos de Aleatorización

Si mi organización puede dar mil píldoras de cloro cada día, entonces puedo beneficiar a mil personas de un grupo de dos mil postulantes cada día, y puedo escoger beneficiar siempre a los mismos. Alternativamente, puedo ir rotando día por medio para que cada hogar pueda beber agua limpia día por medio. Puede ser que la última opción no me parezca razonable. Si todos beben agua sucia la mitad de los días, no esperaría ningún efecto sobre nadie. Entonces, puedo escoger a la mitad de los postulantes que recibirán la píldora de cloro perpetuamente. Para aleatorizar, puedo realizar una lotería simple para elegir los mil hogares que recibirán las píldoras: escribiré los nombres de las dos mil personas en pequeños trozos de papel, pondré estos pedazos en una caja, agitaré la caja, cerraré mis ojos y sacaré mil papeles. Intuitivamente, esto es lo que se conoce como diseño usando lotería.

Alternativamente, si quiero rotar los hogares que reciben el tratamiento cada año en vez de cada día, y asignar aleatoriamente el orden en el cual serán tratados, entonces en un año algunos hogares serán considerados dentro del grupo de tratamiento, y en el próximo serán parte del grupo de control. Si voy a medir los resultados al final de cada año, esto sería un diseño por rotación.

Digamos que este año puedo entregar quinientas píldoras de cloro cada día, pero para el próximo año espero poder entregar mil diarias, y el año siguiente dos mil diarias. Podría escoger aleatoriamente quinientos hogares para ser tratados el primer año, añadir otros quinientos que se sumen en el segundo año, y añadir a los mil hogares restantes el tercer año. Esto es lo que llamaríamos diseño escalonado.

Existen siete posibles modos de diseño de aleatorización –los diseños usando lotería, diseño escalonado, diseño por rotación, diseño por estímulos a participación, diseño con tratamientos con diferente intensidad, y la asignación aleatoria en dos etapas. Estos diseños no son necesariamente mutualmente excluyentes. Sus ventajas y desventajas vienen resumidas en la siguiente tabla.

3.    Amenazas al diseño

(a) Externalidades

Un efecto de externalidad ocurre cuando un programa, diseñado para ayudar a un grupo objetivo, afecta de modo no intencional al grupo de control (ya sea positiva o negativamente). El grupo de control debería representar el resultado si el programa no hubiera sido implementado (ver contrafactual). Si este grupo de comparación ha sido alterado por el programa, su rol de emulador del contrafactual se ve comprometido, y la medición del impacto puede estar sesgada. Existen maneras de mitigar los efectos de externalidad, por ejemplo, cambiando el nivel de aleatorización.

Por ejemplo, beber aguas contaminadas puede provocar enfermedades. Pero jugar con los niños del vecindario que están enfermos también las provoca. Si estoy en el grupo de control y el programa beneficia a mis vecinos, esos vecinos ya no estarán enfermos, lo que reduce mi posibilidad de enfermarme. Entonces, incluso cuando estoy en el grupo de control, el tratamiento a mis vecinos me afecta indirectamente. Ya no soy un buen grupo de comparación. Esto es conocido como el efecto de externalidad, en particular, se trata de una externalidad positiva. Para mitigar esto, podríamos aleatorizar a nivel de comunidad. Hacer esto significaría que si nuestra comunidad fue asignada al grupo de control, yo y mis vecinos tendremos el mismo estatus. Tengo menos probabilidades de jugar con niños de otros pueblos, y por lo tanto tengo menos probabilidades de ser impactado indirectamente por el tratamiento. O, si nuestra comunidad fuera asignada al grupo de tratamiento, no podríamos impactar positivamente a los demás.

(Por supuesto, podría interesarnos conocer cómo ocurren estas externalidades, y hacer diseños acorde con esto. Ver métodos de aleatorización).

b)    Efecto Control-Tratado

Otra posibilidad es que mi hogar haya sido asignado al grupo de control, pero mi vecino esté en el grupo de tratamiento, y por tanto mi madre sabe que su agua está limpia y me manda a su casa a beberla. De este modo, me infiltro en el grupo de tratamiento, aun cuando yo fui asignado al grupo de control. Cuando las personas deliberadamente desafían su designación de tratamiento (consciente o inconscientemente) los resultados son alterados, y se considera un efecto control-tratado. Al igual que con las externalidades, al cruzarme, yo ya no represento un buen grupo de comparación – ya que he sido afectado por la presencia del programa. Al igual que antes, cambiar el nivel de la aleatorización podría mitigar los efectos control-tratado.

4.    Mecánica de la Aleatorización

Una vez que la unidad y el método de aleatorización se hayan determinado, es tiempo de asignar aleatoriamente a los individuos, hogares, comunidades o cualquier otra unidad, al grupo de tratamiento o de control.

a)    Lotería simple

Generalmente para comenzar, necesitamos una lista de nombres (de individuos, jefes de hogares, o pueblos). Después, hay varias maneras de proseguir. Podríamos escribir todos los nombres en un pedacito de papel, ponerlo en una canasta, agitar la canasta, cerrar nuestros ojos y sacar mil pedacitos de papel. Esos conformarían nuestro grupo de tratamiento y el resto podría ser el grupo de control (o viceversa). Podríamos hacer esto como parte de una lotería pública. Similarmente, podríamos ir leyendo la lista, y uno a uno, con la ayuda de una moneda, determinar su estatus de tratamiento. Sin embargo, no siempre dividimos a la población del estudio exactamente a la mitad.  Por ejemplo, quizás quisiéramos incluir 30 por ciento en el grupo de tratamiento y 70 en el grupo de control. O si tuviéramos un método escalonado en tres periodos, podríamos tratar de dividir la población en tres grupos. También muy común, es tratar de testear múltiples tratamientos al mismo tiempo – también requiriendo varios grupos. En estos diseños de evaluaciones más sofisticados, lanzar una moneda no va a ser suficiente.

Típicamente, se escribe un programa de computadora para aleatoriamente asignar nombres a los grupos.

b)    Aleatorización instantánea

Algunas veces no tenemos una lista de nombres de antemano. Por ejemplo, si  individuos entra en una clínica con síntomas de malaria, la decisión de administrar el tratamiento estándar de la Organización Mundial de la Salud "DOTS" o una alternativa mejorada, debe hacerse en el momento. El tratamiento podría ser determinado por la enfermera en la clínica tirando una moneda. Pero podemos estar preocupados de que la enfermera haga caso omiso de la asignación al azar si ella tiene una opinión de cuál tratamiento es mejor y qué pacientes son más "dignos" que otros. Las alternativas podrían incluir la aleatorización computarizada o por teléfono celular.

c)    Aleatorización estratificada

Con frecuencia, la población objetivo se divide en subgrupos antes de aleatorizar. Por ejemplo, un grupo de individuos se pueden dividir en grupos más pequeños por razón de sexo, origen étnico o edad. O pueblos se pueden dividir en regiones geográficas. Esta división en subgrupos antes de la aleatorización se llama estratificación. Después, la aleatorización toma lugar dentro de cada uno de los estratos (subgrupos). Esto se hace para garantizar que los grupos de tratamiento y de control tienen proporciones equilibradas de tratamiento y control dentro de cada grupo. Es posible que con una pequeña muestra, nos encontramos con que, sin estratificar, hayan más mujeres en nuestro grupo de tratamiento que hombres. El propósito principal de la estratificación es estadística y se relaciona al tamaño de la muestra. La decisión de estratificar no influye en el tema de sesgo.

5.    Selección y tamaño de la muestra

Un experimento debe ser lo suficientemente sensible para detectar diferencias de resultados entre el grupo de tratamiento y el de comparación. La sensibilidad de un diseño se mide por el poder estadístico, que, entre otros factores, depende del tamaño de la muestra - es decir, el número de unidades asignados aleatoriamente y el número de unidades encuestadas.

Una vez más, tomemos el ejemplo de las enfermedades transmitidas por el agua en una comunidad. Supongamos que hemos elegido distribuir pastillas de cloro a los hogares para comprobar su impacto en la incidencia de la diarrea. Pero también supongamos que sólo tenemos un presupuesto muy limitado para nuestra fase de prueba, y lo que nos gustaría es minimizar el número de hogares que se incluyen en la encuesta, pero sin dejar de asegurarnos que podemos saber si cualquier cambio en la incidencia se debe a las tabletas de cloro y no por casualidad. ¿Cuántos hogares deben recibir las tabletas y cuántos deben ser encuestados? ¿Son cinco hogares suficientes? ¿100? ¿200? ¿Cuántos hogares deben estar en el grupo de control? Las pruebas de poder estadística nos ayudan a responder estas preguntas.

Para obtener más información sobre cómo calcular el tamaño de muestra, vea: