July 6, 2024Open Access

부분 관측 환경을 위한 다중 에이전트 오프 정책 액터-크리틱 강화 학습

Key Points

Key points are not available for this paper at this time.

Abstract

본 연구는 부분 관측 환경에서 작동하는 다중 에이전트 오프 정책 액터-크리틱 알고리즘 내에서 글로벌 상태를 추정하기 위해 사회적 학습 방법을 사용하는 것을 제안합니다. 우리는 에이전트 네트워크가 완전히 분산된 방식으로 작동하며, 즉각적인 이웃과 변수를 교환할 수 있는 능력을 가진다고 가정합니다. 제안된 설계 방법론은 글로벌 상태가 완전히 관찰되는 경우와 사회적 학습 방법을 통해 추정되는 경우의 최종 결과 간의 차이가 사회적 학습 업데이트의 적절한 반복 수가 구현될 때 -로 제한된다는 것을 보여주는 분석에 의해 뒷받침됩니다. 기존의 많은 dec-POMDP 기반 RL 접근 방식과 달리, 제안된 알고리즘은 전이 모델에 대한 지식이 필요하지 않기 때문에 모델이 없는 다중 에이전트 강화 학습에 적합합니다. 또한 실험 결과는 알고리즘의 효능을 보여주며 현재 최첨단 방법들에 대한 우수성을 입증합니다.

부분 관측 환경을 위한 다중 에이전트 오프 정책 액터-크리틱 강화 학습

Key Points

Abstract

Cite This Study

Also Consider

Also Consider