강화 학습(RL)은 로보틱스와 자율 주행 같은 분야에서 뛰어난 성과를 이루었지만, RL 시스템을 오도하도록 설계된 적대적 공격은 여전히 어려운 문제입니다. 기존 방법들은 종종 환경이나 정책을 변경하는 데 의존하여 실용성에 한계가 있습니다. 본 논문은 환경을 변경하지 않고 환경 내 기존 에이전트가 목표 정책을 유도하여 비최적 행동을 출력하게 하는 적대적 공격 방법을 제안합니다. 우리는 대형 언어 모델(LLM)을 활용하여 목표 에이전트의 취약점에 맞춤화된 적대적 보상을 명시적으로 생성하는 보상 반복 최적화 프레임워크를 제안하며, 이를 통해 목표 에이전트를 비최적적 의사결정으로 유도하는 효과를 높입니다. 또한 피해자가 취하는 비최적 행동이 전반적인 성능 저하를 크게 유발하는 목표 에이전트의 가장 취약한 상태를 찾아내는 중요 상태 식별 알고리즘도 설계하였습니다. 다양한 환경에서의 실험 결과는 본 방법이 기존 접근법보다 우수함을 입증합니다.
Jiang 등(Thu,)이 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: