Los puntos clave no están disponibles para este artículo en este momento.
Desde que los Modelos de Lenguaje Grande (LLMs) y aplicaciones relacionadas se han vuelto ampliamente disponibles, varios estudios han investigado su potencial para ayudar a los educadores y apoyar a los estudiantes en la educación superior. LLMs como Codex, GPT-3.5 y GPT-4 han mostrado resultados prometedores en el contexto de grandes cursos de programación, donde los estudiantes pueden beneficiarse de retroalimentación y sugerencias si se proporcionan de manera oportuna y a gran escala. Este documento explora la calidad de la salida generada por GPT-4 Turbo para mensajes que contienen tanto la especificación de la tarea de programación como la entrega de un estudiante como entrada. Se seleccionaron dos tareas de un curso introductorio de programación, y se pidió a GPT-4 que generara retroalimentación para 55 entregas de programación auténticas elegidas al azar. La salida fue analizada cualitativamente en cuanto a corrección, personalización, localización de fallos y otras características identificadas en el material. En comparación con trabajos y análisis anteriores de GPT-3.5, GPT-4 Turbo muestra mejoras notables. Por ejemplo, la salida es más estructurada y consistente. GPT-4 Turbo también puede identificar con precisión casos inválidos en la salida de los programas de los estudiantes. En algunos casos, la retroalimentación también incluye la salida del programa del estudiante. Al mismo tiempo, se notó retroalimentación inconsistente, como afirmar que la entrega es correcta, pero se necesita corregir un error. El presente trabajo aumenta nuestra comprensión del potencial y las limitaciones de los LLMs, y cómo integrarlos en sistemas de evaluación electrónica, escenarios pedagógicos e instrucción a estudiantes que utilizan aplicaciones basadas en GPT-4.
Azaiz et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: