Aprendizaje por refuerzo robusto a partir de retroalimentación humana para el ajuste fino de grandes modelos de lenguaje | Synapse