고도화된 정보통신 환경을 기반으로 운영되는 시스템은 사이버 공격 및 고도화로 인해 지속적으로 보안 취약점이 발생하고 있다. 이러한 위협에 대응하기 위해 규칙 기반의 기존 방식이 아닌 인공지능 기법인 강화학습을 이용한 능동적 대응 체계로의 전환이 주목받고 있다. 본 논문에서는 실제 공격 절차를 모사한 사이버 전장 시뮬레이션 환경을 구축하고 Dqn, Ppo, Sac를 적용하여 공격 에이전트의 학습 성능을 비교 분석하였으며, 도출된 공격패턴을 기반으로 대응 기법의 유효성을 검증하였다. 최적 공격 시퀀스 목표가 9개인 조건에서 Dqn과 Sac는 목표와 동일한 9개 시퀀스를 도출했으나, Ppo는 평균 30개 이상을 생성해 목표 대비 약 3.3배 낮은 최적화 효율을 보였다. 실험 결과는 향후 공격 패턴 분석 및 방어 전략 검증에서 강화학습의 기법별 성능을 정량적으로 비교하고 평가하는 근거를 제공한다.
Kim et al. (Sat,) studied this question.