Key points are not available for this paper at this time.
Fornecer feedback oportuno e acionável é essencial para estudantes que estão aprendendo a programar. Embora grandes modelos de linguagem (LLMs) estejam sendo cada vez mais usados para automatizar esse processo, eles continuam caros para implementar e levantam preocupações sobre privacidade e controle institucional. Pequenos modelos de linguagem (SLMs) oferecem uma alternativa promissora: podem ser executados localmente e integrados de maneira mais flexível em plataformas educacionais. No entanto, seu desempenho inicial muitas vezes é insatisfatório, exigindo treinamento direcionado para serem eficazes em salas de aula. Neste artigo, investigamos se um SLM treinado com 3 bilhões de parâmetros, orientado por prompts baseados em rubricas e uma pipeline que combina aprendizado supervisionado e baseado em preferências, pode gerar feedback diagnósticos que se aproximam da qualidade de modelos maiores. Implementamos o modelo em um curso de programação online em larga escala e comparamos seu feedback com suas variantes base e ajustadas, Llama-3.1-8B e GPT-4.1, utilizando avaliações de 53 assistentes de ensino e uma análise automatizada do LLM como juiz. Nossos resultados mostram que o treinamento cuidadoso reduz a diferença de qualidade do feedback entre um SLM e um LLM de mais de 80 para apenas 10 pontos percentuais em métricas-chave. O SLM treinado raramente gera erros, é frequentemente classificado como útil por educadores e ocasionalmente deixa de identificar problemas no código dos alunos. Esses achados sugerem que pequenos modelos podem servir como soluções práticas e escaláveis de feedback direcionado em grandes ambientes educacionais, enquanto LLMs podem continuar sendo necessários para feedback diagnósticos mais abrangentes.
Koutcheme et al. (Sex,) estudaram essa questão.