What question did this study set out to answer?

L'objectif est de créer un système de feux de circulation adaptatif utilisant l'apprentissage par renforcement profond pour améliorer le flux de trafic urbain.

April 21, 2026Open Access

TrafficOpt RL : Optimisation adaptative des feux de circulation à l'aide de l'apprentissage par renforcement profond

Key Points

L'objectif est de créer un système de feux de circulation adaptatif utilisant l'apprentissage par renforcement profond pour améliorer le flux de trafic urbain.
Système TrafficOpt RL développé employant l'algorithme Deep Q-Network.
Simulation d'une intersection à quatre voies avec des arrivées de véhicules stochastiques utilisant un environnement compatible Gymnasium.
Évaluation des performances du système par rapport aux feux à temporisation fixe sur plusieurs indicateurs.
TrafficOpt RL a réduit significativement les temps d'attente moyens des véhicules par rapport aux systèmes à temporisation fixe.
Améliorations mesurées dans le débit total de l'intersection et les scores d'efficacité composite.
L'évaluation a généré des visualisations analytiques pour illustrer la performance du système.

Abstract

La congestion urbaine est un défi d'infrastructure critique auquel sont confrontées les villes modernes alors que la population de véhicules s'accroît et que la densité urbaine augmente. Les systèmes de feux de circulation à temporisation fixe ne peuvent pas s'adapter à la nature stochastique et dynamique des flux de circulation réels, entraînant un gaspillage de temps de vert, une accumulation de files d'attente, une augmentation des émissions de véhicules et des retards dans la réponse aux urgences. Cet article présente TrafficOpt RL, un système d'optimisation adaptatif des feux de circulation de bout en bout qui applique l'algorithme Deep Q-Network (DQN) pour apprendre des politiques de signalisation intelligentes aux intersections urbaines grâce à une expérience de simulation itérative. Le système est construit sur un environnement de simulation compatible Gymnasium modélisant une intersection à quatre voies avec des arrivées de véhicules suivant un processus de Poisson stochastique. L'agent DQN, implémenté via le cadre Stable-Baselines3, utilise le replay d'expérience, la stabilisation du réseau cible et l'exploration epsilon-greedy pour converger vers des politiques minimisant les temps d'attente des véhicules et maximisant le débit de l'intersection. Tous les indicateurs d'entraînement et les données de simulation sont stockés de manière persistante dans une base de données relationnelle MySQL grâce à un journal automatisé des rappels, permettant une analyse systématique des performances. L'évaluation par comparaison directe avec une base de référence à temporisation fixe démontre la supériorité mesurable de l'approche d'apprentissage par renforcement sur trois dimensions de performance : temps moyen d'attente des véhicules, débit total et score d'efficacité composite. Trois visualisations analytiques sont générées pour communiquer la performance du système. TrafficOpt RL constitue une preuve de concept pratique pour l'intégration de l'apprentissage par renforcement profond dans les systèmes de transport intelligents et l'infrastructure des villes intelligentes.

Bookmark

View Full Paper

Bookmark

View Full Paper

TrafficOpt RL : Optimisation adaptative des feux de circulation à l'aide de l'apprentissage par renforcement profond

Key Points

Abstract

Cite This Study