May 22, 2024Open Access

장기 메모리 상태 공간 모델에서 HiPPO를 피할 수 있는 희망이 있습니다.

Key Points

Key points are not available for this paper at this time.

Abstract

선형 및 시간 불변(LTI) 시스템을 활용하는 상태 공간 모델(SSM)은 긴 시퀀스를 학습하는 데 효과적입니다. 그러나 이러한 모델은 일반적으로 여러 가지 문제에 직면합니다: (i) 최첨단 성능을 달성하기 위해 시스템 행렬의 특별히 설계된 초기화가 필요하며, (ii) 불안정을 방지하기 위해 매우 작은 학습 속도로 로그 스케일에서 상태 행렬 훈련이 필요하고, (iii) 점근적으로 안정적인 LTI 시스템을 보장하기 위해 모델이 기하급수적으로 감소하는 메모리를 가져야 합니다. 이러한 문제를 해결하기 위해 우리는 Hankel 연산자 이론을 통해 SSM을 바라보며, 이는 SSM의 초기화 및 훈련을 위한 통합 이론을 제공합니다. 이 이론을 바탕으로 Hankel 연산자 내의 마르코프 매개변수를 활용하는 LTI 시스템을 위한 새로운 매개변수화 방식인 HOPE를 개발합니다. 이 접근 방식은 LTI 시스템의 무작위 초기화를 허용하고 훈련 안정성을 향상시키며 SSM에 비감쇠 메모리 기능을 제공합니다. 우리 모델은 LTI 시스템의 전달 함수를 비균일하게 샘플링하여 이러한 혁신을 효율적으로 구현하며, 정형화된 SSM에 비해 더 적은 매개변수를 요구합니다. S4 및 S4D와 같이 HiPPO로 초기화된 모델과 비교했을 때, Hankel 연산자로 매개변수화된 SSM은 Long-Range Arena(LRA) 작업에서 향상된 성능을 보여줍니다. 또한 우리는 패딩된 노이즈가 있는 연속 CIFAR-10 작업을 사용하여 우리 SSM의 긴 메모리 용량을 실험적으로 확인합니다.

장기 메모리 상태 공간 모델에서 HiPPO를 피할 수 있는 희망이 있습니다.

Key Points

Abstract

Cite This Study

Also Consider

Also Consider