What type of study is this?

This is a Experimental Study study.

October 17, 2025Open Access

강화 학습에서의 정책 교란: 대형 언어 모델과 중요 상태 식별을 활용한 적대적 공격

Key Points

대형 언어 모델을 활용하여 맞춤형 보상을 생성하고 비최적 행동을 유도하는 새로운 적대적 공격 방법을 제안했습니다.
다양한 환경에서의 실험 결과를 통해 기존 방법보다 우수한 효과를 입증했습니다.
목표 에이전트의 취약 상태를 찾아내는 중요 상태 식별 알고리즘을 개발하여 성능 저하를 유발하는 상태를 확인했습니다.
환경이나 정책 변경의 실용적 한계를 극복하며 기존 강화 학습 전략에 도전했습니다.

Abstract

강화 학습(RL)은 로보틱스와 자율 주행 같은 분야에서 뛰어난 성과를 이루었지만, RL 시스템을 오도하도록 설계된 적대적 공격은 여전히 어려운 문제입니다. 기존 방법들은 종종 환경이나 정책을 변경하는 데 의존하여 실용성에 한계가 있습니다. 본 논문은 환경을 변경하지 않고 환경 내 기존 에이전트가 목표 정책을 유도하여 비최적 행동을 출력하게 하는 적대적 공격 방법을 제안합니다. 우리는 대형 언어 모델(LLM)을 활용하여 목표 에이전트의 취약점에 맞춤화된 적대적 보상을 명시적으로 생성하는 보상 반복 최적화 프레임워크를 제안하며, 이를 통해 목표 에이전트를 비최적적 의사결정으로 유도하는 효과를 높입니다. 또한 피해자가 취하는 비최적 행동이 전반적인 성능 저하를 크게 유발하는 목표 에이전트의 가장 취약한 상태를 찾아내는 중요 상태 식별 알고리즘도 설계하였습니다. 다양한 환경에서의 실험 결과는 본 방법이 기존 접근법보다 우수함을 입증합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper