Tras realizar una evaluación aleatoria perfecta y un análisis de resultados honesto, podemos derivar implicaciones para políticas publicas con cierto nivel de certeza acerca de nuestras conclusiones de como el programa impacta nuestra población objetivo. Por ejemplo, “Nuestro programa de distribución de pastillas de cloro causó una reducción en la incidencia de diarrea en los niños en nuestra población objetivo en 20 puntos porcentuales”. Esta declaración es científicamente legítima, o válida a nivel interno. El rigor de nuestro estudio no puede decirnos, sin embargo, si este mismo programa tendría el mismo impacto si se replicara en una población objetivo diferente, o si se expandiera. A diferencia de la validez interna, que puede ser proporcionada por una evaluación aleatoria bien realizada, la validez externa, o generalización, es más difícil de obtener. Para extrapolar cómo nuestros resultados se aplicarían a un contexto diferente, tenemos que salir de nuestro rigor científico, y comenzar a responder en supuestos. Dependiendo de nuestro conocimiento del contexto de nuestra evaluación y de otros contextos en los que nos gustaría generalizar los resultados, nuestras suposiciones pueden ser más o menos razonables.
Sin embargo, la metodología que elegimos -una evaluación aleatoria- no provee validez interna a costa de la validez externa. La validez externa es una función del diseño del programa, los proveedores de servicios, los beneficiarios, y el entorno en que se llevó a cabo la evaluación del programa. Los resultados de cualquier evaluación de programas están sujetos a esas mismas realidades contextuales cuando se utilizan para obtener conclusiones respecto a programas similares o a las políticas aplicadas en otros lugares. Lo que la evaluación aleatoria nos compra es la certeza de que nuestros resultados al menos son válidos internamente.