Los recientes Modelos de Razonamiento Grande (LRMs) con huellas de pensamiento han mostrado un fuerte rendimiento en tareas de razonamiento en inglés. Sin embargo, su capacidad para pensar en otros idiomas es menos estudiada. Esta capacidad es tan importante como la precisión de las respuestas para aplicaciones del mundo real, ya que los usuarios pueden encontrar útil la huella de razonamiento para la supervisión solo cuando se expresa en su propio idioma. Evaluamos de manera exhaustiva dos familias líderes de LRMs en nuestro banco de pruebas XReasoning y encontramos que incluso los modelos más avanzados a menudo regresan al inglés o producen razonamientos fragmentados en otros idiomas, revelando una brecha sustancial en el razonamiento multilingüe. Las intervenciones basadas en indicaciones que obligan a los modelos a razonar en el idioma del usuario mejoran la legibilidad y la supervisión, pero reducen la precisión de las respuestas, exponiendo una importante compensación. Además, mostramos que el entrenamiento posterior dirigido en solo 100 ejemplos mitiga este desajuste, aunque permanece cierta pérdida de precisión. Nuestros resultados destacan las limitadas capacidades de razonamiento multilingüe de los LRMs actuales y describen direcciones para futuros trabajos. El código y los datos están disponibles en https://github.com/Betswish/mCoT-XReasoning.
Qi et al. (Mié,) estudiaron esta cuestión.