Algunos se refieren a las evaluaciones aleatorias como el estándar de oro de las evaluaciones de impacto, porque son irrevocablemente las más rigurosas – queriendo decir que son las que requieren menos supuestos, o menos saltos de fe, cuando se sacan conclusiones de los resultados. Ser la más rigurosa no significa sin embargo ser la que requiere más trabajo o costo. De hecho, asignar a los individuos a los grupos de forma aleatoria para asegurar que sean equivalentes al principio (ver ¿Qué es Aleatorizar? y ¿Por qué Aleatorizar? ) puede reducir la cantidad de trabajo estadístico para sintetizar un grupo de comparación equivalente más adelante en la fase de análisis.
Existen algunos desafíos al conducir una evaluación aleatoria: convencer a los ejecutores del programa de aleatorizar, pensar sobre el diseño más apropiado para el experimento, asegurar que la integridad del diseño de la evaluación (la asignación aleatoria) se mantenga. Pero la mayor parte del trabajo y costo viene de asegurarse una muestra de tamaño suficiente como para detectar un impacto (un requisito también para las evaluaciones no aleatorias) y descubrir qué hace funcionar o fallar al programa.