Diagnóstico de sesgo e inestabilidad en la evaluación de LLM: Un meta-evaluador escalable | Synapse