Los puntos clave no están disponibles para este artículo en este momento.
La destilación de caminos de razonamiento explícitos ha surgido como un método eficaz para mejorar las habilidades de razonamiento de los modelos de lenguaje grandes (LLMs) en diversas tareas. Sin embargo, al abordar tareas complejas que plantean desafíos significativos para los modelos de última generación, esta técnica a menudo lucha por producir cadenas de pensamiento efectivas que conduzcan a respuestas correctas. En este trabajo, proponemos un enfoque novedoso para destilar las habilidades de razonamiento de los LLMs aprovechando su capacidad para explicar soluciones. Aplicamos nuestro método a la resolución de desafíos de programación de nivel competitivo. Más específicamente, empleamos un LLM para generar explicaciones para un conjunto de pares, luego utilizamos pares para afinar un modelo de lenguaje más pequeño, que denominamos el Razonador, para aprender razonamiento algorítmico que pueda generar pistas de "cómo resolver" para problemas no vistos. Nuestros experimentos demuestran que aprender de las explicaciones permite al Razonador guiar de manera más efectiva la implementación del programa por un Codificador, resultando en tasas de solución más altas que las baselines fuertes de cadena de pensamiento en problemas de programación de nivel competitivo. También supera a los modelos que aprenden directamente de los pares. Creamos un conjunto de pruebas adicional en el formato CodeContests, que incluye 246 problemas más recientes publicados después de la fecha de corte de conocimiento de los modelos.
Li et al. (Jue,) estudiaron esta pregunta.