March 3, 2026

A Hybrid 3D CNN-ViT Model for Korean Sign Language Recognition with Heatmap Representation

Key Points

The model achieves a remarkable TEST accuracy of 98%, showcasing its effectiveness in recognizing complex sign language gestures.
Heatmap representation effectively captures spatial and temporal features, enhancing overall model performance in sign language recognition.
Analysis uses a hybrid approach, combining 3D CNN for feature extraction with Vision Transformer for learning motion labels from video data.
This advanced model may enable further development in human action recognition, highlighting the potential for broader applications.

Abstract

수어는 음성 언어와 달리 손과 표정, 동작으로 이루어진 언어다. 본 논문에서는 수어 인식을 위한 히트맵 기반 인식 모델을 제시한다. 히트맵은 기존 그래프 기반 모델에 비해 시공간 특성을 효과적으로 학습하며, 높은 강건성과 일반화 성능을 보인다. 제안된 모델은 수어 영상을 히트맵으로 변환해, 3D CNN으로 시공간 특징을 추출하여 1차원 feature로 압축한다. 이후 Vision Transformer(ViT)를 활용하여 동작 라벨을 학습한다. 성능 평가 결과 TEST: 98%, Non-experiment TEST: 70%의 정확도를 기록하였다. 연구를 통해 본 모델이 손의 정교한 움직임과 표정 등 복합적인 요소가 포함된 수어 인식에서 뛰어난 성능을 보이며, 인간 동작 인식의 고도화된 영역까지 확장 가능함을 확인하였다.

Bookmark

A Hybrid 3D CNN-ViT Model for Korean Sign Language Recognition with Heatmap Representation

Key Points

Abstract

Cite This Study