Los puntos clave no están disponibles para este artículo en este momento.
El rendimiento del modelo de recompensas (RM) es un factor crítico para mejorar la efectividad del modelo de lenguaje grande (LLM) durante el ajuste fino de alineación. Quedan dos desafíos en el entrenamiento de RM: 1) entrenar el mismo RM utilizando varias categorías de datos puede causar que su rendimiento de generalización sufra por disturbios de múltiples tareas, y 2) la tasa de consistencia de la anotación humana es generalmente solo del 60\% al 75\%, lo que provoca que los datos de entrenamiento contengan mucho ruido. Para abordar estos dos desafíos, introdujimos la idea de Mezcla de Expertos (MoE) en el campo de RM por primera vez. Proponemos el RM de MoE de Doble Capa (DMoERM). La capa exterior de MoE es un modelo disperso. Después de clasificar una entrada en categorías de tareas, la dirigimos al modelo específico de la tarea correspondiente en la capa interna. La capa interna de MoE es un modelo denso. Descomponemos la tarea específica en múltiples dimensiones de capacidad y afinamos individualmente un experto de LoRA en cada una. Luego, sus salidas se sintetizan mediante un MLP para calcular las recompensas finales. Para minimizar costos, llamamos a una API pública de LLM para obtener las etiquetas de preferencia de capacidad. La validación en conjuntos de datos etiquetados manualmente confirma que nuestro modelo alcanza una consistencia superior con la preferencia humana y supera enfoques generativos avanzados. Mientras tanto, a través de muestreo BoN y experimentos de RL, demostramos que nuestro modelo supera a los métodos de conjunto de RM de última generación y mitiga el problema de sobreoptimización. Nuestro código y conjunto de datos están disponibles en: https: //github. com/quanshr/DMoERM-v1.
Shanghaoran Quan (Sat,) estudió esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: