Cómo Obtener Resultados 

 

Al final de una intervención (o por lo menos el periodo de evaluación de la intervención), los datos de la encuesta final deben ser recolectados para medir resultados finales. Asumiendo que la integridad de la asignación aleatoria se mantuvo y que la recolección de datos se administró correctamente, es hora de analizar los datos. El método mas simple es medir el resultado promedio para el grupo de tratamiento y compararlo con el resultado promedio del grupo de control. La diferencia representa el impacto del programa. Para determinar si el impacto es estadísticamente significativo, uno puede testear la igualdad de promedios, usando un test-t simple. Uno de los muchos beneficios de las evaluaciones aleatorias es que el impacto puede ser medido sin la necesidad de técnicas estadísticas avanzadas. También se pueden realizar análisis más complicados. Por ejemplo, regresiones agregando controles para otras características para aumentar la precisión. Sin embargo, cuando se comienza a aumentar la complejidad del análisis, el número de potenciales errores también incrementa. Por tanto, el evaluador debe tener el conocimiento necesario y ser muy cauteloso al desempeñar este tipo de análisis.

Es importante notar que cuando se obtiene un resultado, no hemos “encontrado la verdad” con una certeza del 100 por ciento. Hemos producido un resultado que está cercano a la verdad, con cierto grado de probabilidad. Mientras más grande sea el tamaño de nuestra muestra (mas pequeños serán nuestros errores estándar y) tendremos más certeza. Sin embargo, nunca podemos tener una certeza del 100%.

Este hecho conlleva a dos tropiezos muy comunes durante el análisis:

1)    Resultados Múltiples: La aleatorización no garantiza que el impacto estimado es perfectamente preciso. El impacto estimado no tiene sesgo, pero sigue siendo una estimación. El “azar” genera un margen de error alrededor de la verdad. Con bastante frecuencia, la estimación estará muy cerca de la verdad. Ocasionalmente, la estimación se desviará un poco más. En raras ocasiones, se apartará significativamente. Si usamos una medida de resultado, hay alguna posibilidad de que se haya desviado significativamente de la verdad. Pero esto es muy poco probable. Si estamos interesados en varios indicadores de resultados, muchos estarán cerca, pero otros se desviarán. Mientras más indicadores de resultado usemos, es más probable que uno o más se desvíen significativamente. Por ejemplo, supongamos que las pastillas de cloro que se distribuyen para combatir aquellas enfermedades transmitidas por el agua, estaban defectuosas o nunca se utilizaron. Si se comparan veinte diferentes indicadores de resultados, es muy probable que para alguno de ellos surgiera una mejora significativa en salud, y para otro una desmejora significativa. Si es que usamos suficientes indicadores de impacto, eventualmente vamos a encontrar uno que es significativamente distinto entre los grupos de tratamiento y control. Esto no es un problema en sí. El problema surge cuando el evaluador hace “data mining”, buscando todos los indicadores de resultados, hasta que encuentra un impacto significativo, reporta este único resultado, y no presenta los otros resultados insignificantes que fueron descubiertos durante la búsqueda. 

2)    Análisis de sub-grupos: De modo similar, así como un evaluador puede hacer “data mining” al mirar muchos indicadores de resultados, el evaluador también puede hallar un resultado significativo al mirar a distintos subgrupos en aislamiento. Por ejemplo, puede ser que las pastillas de cloro no tengan ningún impacto aparente en la salud de los hogares. Podría ser razonable mirar el impacto en niños en el hogar, o en niñas en particular. Pero podríamos estar tentados a comparar niños y niñas de distintos grupos de edad, de distintas composiciones de hogares, en distintas combinaciones. Podríamos descubrir que hay mejoras significativas en la salud del grupo de tratamiento de niños entre 6 y 8 años, que sólo tienen una hermana, cuyo abuelo vive en el hogar y donde el hogar posee una televisión y ganado. Hasta podríamos inventar una historia plausible de por qué este subgrupo podría haber sido afectado y no otros. Pero si encontramos que éste es el único impacto significativo después de una serie de impactos insignificantes para otros subgrupos, es probable que la diferencia hubiera sido causada por el “azar” – no por nuestro programa. 

<< Página anterior   |   Página siguiente >>