August 6, 2024Open Access

Recompensas intrínsecas para la exploración sin daño por ruido de observación: un estudio de simulación basado en el principio de energía libre

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En el aprendizaje por refuerzo (RL), los agentes artificiales son entrenados para maximizar recompensas numéricas al realizar tareas. La exploración es esencial en RL porque los agentes deben descubrir información antes de explotarla. Dos recompensas que fomentan una exploración eficiente son la entropía de la política de acción y la curiosidad por la ganancia de información. La entropía está bien establecida en la literatura, promoviendo la selección de acción aleatoria. La curiosidad se define de diversas maneras en la literatura, promoviendo el descubrimiento de experiencias novedosas. Un ejemplo, la curiosidad por el error de predicción, recompensa a los agentes por descubrir observaciones que no pueden predecir con precisión. Sin embargo, tales agentes pueden distraerse por ruidos de observación impredecibles conocidos como trampas de curiosidad. Basado en el principio de energía libre (FEP), esta carta propone la curiosidad por estado oculto, que recompensa a los agentes por la divergencia KL entre las probabilidades previas y posteriores predictivas de variables latentes. Entrenamos seis tipos de agentes para navegar laberintos: agentes base sin recompensas por entropía o curiosidad y agentes recompensados por entropía y/o curiosidad por error de predicción o curiosidad por estado oculto. Encontramos que la entropía y la curiosidad resultan en una exploración eficiente, especialmente cuando se emplean juntas. Notablemente, los agentes con curiosidad por estado oculto demuestran resiliencia contra trampas de curiosidad, que obstaculizan a los agentes con curiosidad por error de predicción. Esto sugiere implementar el FEP que puede mejorar la robustez y generalización de los modelos de RL, alineando potencialmente los procesos de aprendizaje de agentes artificiales y biológicos.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo