April 19, 2024Open Access

Mathify: Evaluando Modelos de Lenguaje de Gran Tamaño en Tareas de Resolución de Problemas Matemáticos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El rápido progreso en el campo de los sistemas de procesamiento de lenguaje natural (NLP) y la expansión de los modelos de lenguaje de gran tamaño (LLMs) han abierto numerosas oportunidades en el ámbito de la educación y los métodos de instrucción. Estos avances ofrecen el potencial para experiencias de aprendizaje personalizadas y retroalimentación inmediata, todo proporcionado a través de servicios accesibles y rentables. Un área de aplicación notable para este avance tecnológico es en el ámbito de la resolución de problemas matemáticos. Resolver problemas matemáticos no solo requiere la capacidad de descifrar declaraciones de problemas complejas, sino también la habilidad para realizar cálculos aritméticos precisos en cada paso del proceso de resolución. Sin embargo, la evaluación de las capacidades aritméticas de los modelos de lenguaje de gran tamaño sigue siendo un área que ha recibido relativamente poca atención. En respuesta, presentamos un extenso conjunto de datos matemáticos llamado "MathQuest" extraído de los libros de texto de Matemáticas de las clases 11 y 12 de NCERT. Este conjunto de datos abarca desafíos matemáticos de diversa complejidad y cubre una amplia gama de conceptos matemáticos. Utilizando este conjunto de datos, realizamos experimentos de ajuste fino con tres LLMs prominentes: LLaMA-2, WizardMath y MAmmoTH. Estos modelos ajustados sirven como puntos de referencia para evaluar su rendimiento en nuestro conjunto de datos. Nuestros experimentos revelan que entre los tres modelos, MAmmoTH-13B se destaca como el más competente, alcanzando el mayor nivel de competencia en la resolución de los problemas matemáticos presentados. En consecuencia, MAmmoTH-13B se establece como un punto de referencia robusto y confiable para abordar los problemas de matemáticas de NCERT.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo