En este trabajo, proponemos un nuevo marco que integra modelos de lenguaje grandes (LLMs) con un gestor de diálogo basado en RL para diálogos abiertos con un objetivo específico. Al aprovechar el aprendizaje por refuerzo jerárquico para modelar las fases estructuradas del diálogo y emplear el meta-aprendizaje para mejorar la adaptabilidad a través de diversos perfiles de usuario, nuestro enfoque mejora la adaptabilidad y eficiencia, permitiendo al sistema aprender de datos limitados, transitar fluidamente entre fases de diálogo y personalizar respuestas a necesidades heterogéneas de los pacientes. Aplicamos nuestro marco a Entrevistas Motivacionales, con el objetivo de fomentar el cambio de comportamiento, y demostramos que el gestor de diálogo propuesto supera a una línea base de LLM de última generación en términos de recompensa, mostrando un beneficio potencial de condicionar LLMs para crear sistemas de diálogo abiertos con objetivos específicos.
Galland et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: