Los puntos clave no están disponibles para este artículo en este momento.
Estudiamos el problema de controlar el nivel de dificultad del texto generado por Modelos de Lenguaje Grande (LLMs) para contextos donde los usuarios finales no son completamente competentes, como los estudiantes de idiomas. Usando un nuevo marco, evaluamos la efectividad de varios enfoques clave para esta tarea, incluyendo el prompting de pocos ejemplos, el ajuste fino supervisado y el aprendizaje por refuerzo (RL), utilizando tanto GPT-4 como alternativas de código abierto como LLama2-7B y Mistral-7B. Nuestros hallazgos revelan una gran brecha de rendimiento entre GPT-4 y los modelos de código abierto al utilizar estrategias basadas en prompting. Sin embargo, mostramos cómo cerrar esta brecha con una combinación cuidadosa de ajuste fino y alineación de RL. Nuestro mejor modelo, CALM (Modelo de Lenguaje Alineado al CEFR), supera el rendimiento de GPT-4 y otras estrategias, con solo una fracción del costo. Además, validamos la calidad de nuestros resultados a través de un estudio humano a pequeña escala.
Malik et al. (Wed,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: