October 2, 2024Open Access

Optimización de un Problema de Ruteo de Vehículos Dinámico con Aprendizaje por Refuerzo Profundo: Análisis de Componentes del Espacio de Estados

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Antecedentes: El problema de ruteo de vehículos dinámico (DVRP) es un problema de optimización complejo que es crucial para aplicaciones como la entrega de última milla. Nuestro objetivo es desarrollar una aplicación que pueda tomar decisiones en tiempo real para maximizar el rendimiento total mientras se adapta a la naturaleza dinámica de los pedidos entrantes. Formulamos el DVRP como un problema de ruteo de vehículos donde las nuevas solicitudes de clientes llegan de manera dinámica, requiriendo decisiones de aceptación o rechazo inmediatas. Métodos: Este estudio aprovecha el aprendizaje por refuerzo (RL), un paradigma de aprendizaje automático que opera a través de decisiones impulsadas por retroalimentación, para abordar el DVRP. Presentamos una formulación detallada de RL e investigamos sistemáticamente los impactos de varios componentes del espacio de estados en el rendimiento del algoritmo. Nuestro enfoque implica modificar incrementalmente el espacio de estados, incluyendo el análisis de los impactos de componentes individuales, aplicando métodos de transformación de datos e incorporando características derivadas. Resultados: Nuestros hallazgos demuestran que un espacio de estados diseñado cuidadosamente en la formulación del DVRP mejora significativamente el rendimiento del RL. Notablemente, la incorporación de características derivadas y la aplicación selectiva de transformación de características mejoraron las capacidades de toma de decisiones del modelo. La combinación de todas las mejoras llevó a una mejora estadísticamente significativa en los resultados en comparación con la formulación básica del estado. Conclusiones: Esta investigación proporciona ideas sobre el modelado de RL para DVRPs, destacando la importancia del diseño del espacio de estados. El enfoque propuesto ofrece un marco flexible que es aplicable a varias variantes del DVRP, con potencial de validación utilizando datos del mundo real.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo