June 1, 2021

온라인 순차 학습을 이용한 FPGA 기반의 온디바이스 강화 학습 접근법

Key Points

Key points are not available for this paper at this time.

Abstract

DQN(Deep Q-Network)은 깊은 신경망을 사용하여 강화 학습을 위한 Q-학습을 수행하는 방법입니다. DQN은 경험 재생을 위한 대규모 버퍼와 배치 처리가 필요하며, 역전파 기반의 반복 최적화에 의존하여 자원이 제한된 엣지 장치에 구현하기 어렵습니다. 본 논문에서는 저비용 FPGA 장치를 위한 경량의 온디바이스 강화 학습 접근법을 제안합니다. 이는 최근 제안된 역전파 방법에 의존하지 않는 신경망 기반 온디바이스 학습 접근법을 활용하며, OS-ELM(온라인 순차 극한 학습 기계) 기반의 훈련 알고리즘을 사용합니다. 또한, 신경망의 출력 값이 특정 범위에 적합하도록 L2 정규화와 스펙트럼 정규화의 조합을 제안하여 강화 학습이 안정적으로 이루어질 수 있도록 합니다. 제안된 강화 학습 접근법은 저비용 FPGA 플랫폼으로 PYNQ-Z1 보드를 위해 설계되었습니다. OpenAI Gym을 이용한 평가 결과, 제안된 알고리즘과 FPGA 구현이 은닉층 노드 수가 64일 때 기존 DQN 기반 접근 방식보다 29.77배 및 89.40배 더 빠르게 CartPole-v0 작업을 완료함을 보여줍니다.

AI에게 질문

Bookmark

Cite This Study

Watanabe et al. (Tue,)가 이 질문을 연구했습니다.

synapsesocial.com/papers/6a083ff7ad370a6b44de01e7 https://doi.org/https://doi.org/10.1109/ipdpsw52791.2021.00022

Also Consider

Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context:

AI에게 질문

Bookmark