수어는 음성 언어와 달리 손과 표정, 동작으로 이루어진 언어다. 본 논문에서는 수어 인식을 위한 히트맵 기반 인식 모델을 제시한다. 히트맵은 기존 그래프 기반 모델에 비해 시공간 특성을 효과적으로 학습하며, 높은 강건성과 일반화 성능을 보인다. 제안된 모델은 수어 영상을 히트맵으로 변환해, 3D CNN으로 시공간 특징을 추출하여 1차원 feature로 압축한다. 이후 Vision Transformer(ViT)를 활용하여 동작 라벨을 학습한다. 성능 평가 결과 TEST: 98%, Non-experiment TEST: 70%의 정확도를 기록하였다. 연구를 통해 본 모델이 손의 정교한 움직임과 표정 등 복합적인 요소가 포함된 수어 인식에서 뛰어난 성능을 보이며, 인간 동작 인식의 고도화된 영역까지 확장 가능함을 확인하였다.
Lim et al. (Wed,) studied this question.