Key points are not available for this paper at this time.
다중 에이전트 심층 강화 학습(MADRL) 기반의 교통 신호 제어는 최근 몇 년간 인기 있는 연구 주제가 되었다. 완전 중앙집중형 강화 학습(RL) 기술의 확장성 문제와 대규모 교통 네트워크에서 완전 분산형 RL 기술의 비정상성 문제를 완화하기 위해, 일부 문헌에서는 전체 네트워크를 여러 개의 서로 겹치지 않는 지역으로 분할한 후 각 지역에 중앙집중형 RL 접근 방식을 적용하는 지역 제어 접근 방식을 활용한다. 그러나 기존의 분할 규칙은 지역의 토폴로지에 대한 제약이 없거나 모든 지역에 동일한 토폴로지를 요구한다. 한편, 기존의 지역 제어 접근 방식은 4단계 교차로 신호(EW, EWL, NS, NSL)로 제어되는 교차로에서 지수적으로 증가하는 지역 행동 공간에서 최적의 공동 행동 성능을 탐구하지 않는다. 본 논문에서는 이러한 한계를 해결하기 위해 RegionLight라는 새로운 RL 훈련 프레임워크를 제안한다. 구체적으로, 지역의 토폴로지는 하나의 중심과 임의의 수의 리프로 구성된 스타 네트워크로 제한된다. 다음으로, 네트워크 분할 문제는 지역의 수를 최소화하기 위한 최적화 문제로 모델링된다. 그런 다음, 적응형 분기 대결 Q-네트워크(ABDQ) 모델이 제안되어 지역 제어 작업을 특정 교차로에 해당하는 여러 공동 신호 제어 하위 작업으로 분해한다. 이후 이러한 하위 작업은 공동으로 지역적 이익을 극대화한다. 마지막으로, 전체 네트워크에 대한 글로벌 제어 전략은 모든 지역의 최적 공동 행동을 연결하여 얻어진다. 실험 결과는 모든 평가 지표에서 실제 및 합성 시나리오 하에서 제안된 프레임워크의 우수성을 입증한다.
Gu et al. (Wed,)는 이 문제를 연구하였다.