Los puntos clave no están disponibles para este artículo en este momento.
La serie de modelos o1 se entrena con aprendizaje reforzado a gran escala para razonar utilizando una cadena de pensamiento. Estas capacidades avanzadas de razonamiento ofrecen nuevas avenidas para mejorar la seguridad y robustez de nuestros modelos. En particular, nuestros modelos pueden razonar sobre nuestras políticas de seguridad en contexto al responder a indicaciones potencialmente inseguras, a través de la alineación deliberativa. Esto conduce a un rendimiento de vanguardia en ciertos puntos de referencia para riesgos como generar consejos ilícitos, elegir respuestas estereotipadas y sucumbir a jailbreaks conocidos. Entrenar modelos para incorporar una cadena de pensamiento antes de responder tiene el potencial de desbloquear beneficios sustanciales, mientras que también aumenta los riesgos potenciales que surgen de una inteligencia elevada. Nuestros resultados subrayan la necesidad de construir métodos de alineación robustos, poner a prueba exhaustivamente su eficacia y mantener protocolos de gestión de riesgos meticulosos. Este informe describe el trabajo de seguridad realizado para los modelos OpenAI o1 y OpenAI o1-mini, incluidas evaluaciones de seguridad, pruebas externas de red y evaluaciones del Marco de Preparación.
OpenAI et al. (Sat,) estudiaron esta cuestión.