What question did this study set out to answer?

이 연구의 목적은 다중 모드 딥 러닝 기술을 이용하여 강력한 수화 인식 시스템을 개발하는 것입니다.

May 21, 2026Open Access

딥 러닝을 이용한 강력한 수화 인식을 위한 다중 모드 주의 기반 프레임워크

Key Points

이 연구의 목적은 다중 모드 딥 러닝 기술을 이용하여 강력한 수화 인식 시스템을 개발하는 것입니다.
RGB 비디오, 인간 자세 랜드마크 및 손 키 포인트를 결합한 다중 모드 프레임워크를 설계했습니다.
공간 특징 추출을 위해 합성곱 신경망을 활용하고, 순서 모델링을 위해 시간적 합성곱 신경망과 변환기 주의 메커니즘을 사용했습니다.
100개의 제스처 클래스를 특징으로 하는 AUTSL 데이터셋에서 평가했습니다.
단일 모드 방법에 비해 정확도가 크게 향상되면서 강력한 인식 성능을 달성했습니다.
적응형 주의 주도 메커니즘을 통해 효과적인 특징 융합을 입증했습니다.
사용자 정의 Streamlit 기반 인터페이스를 통해 실시간 상호작용을 가능하게 했습니다.

Abstract

수화 인식(SLR)은 청각 장애인과 더 넓은 커뮤니티 간의 의사소통을 가능하게 하는 중요한 기술로 자리 잡았습니다. 그러나 많은 기존 방법들은 RGB 비디오나 골격 데이터와 같은 단일 모드 입력에 의존하며, 이러한 방법들은 종종 폐색, 조명 변화 및 복잡한 제스처 패턴이 포함된 실제 조건에서 신뢰성 있게 수행하기 어려움을 겪습니다. 본 연구는 RGB 시각 정보, 인간 자세 랜드마크 및 세부 손 키 포인트를 결합하여 수화 제스처에서 공간 구조와 시간적 움직임을 효과적으로 포착하는 다중 모드 딥 러닝 프레임워크를 제시합니다. 제안된 시스템은 공간 특징 추출을 위한 합성곱 신경망(CNN), 순서 모델링을 위한 시간적 합성곱 신경망(TCN), 그리고 프레임 간 장기 의존성을 학습하기 위한 변환기 기반 주의 메커니즘을 통합합니다. 추가로, 여러 모드의 특징을 동적으로 결합하는 적응형 주의 주도 융합 모듈이 도입됩니다. 이 모델은 100개의 제스처 클래스를 포함하는 AUTSL 데이터셋에서 훈련 및 평가됩니다. 실험 평가 결과, 제안된 접근법은 강력한 인식 성능을 달성하고 단일 모드 기준선에 비해 명확한 개선을 보여줍니다. 또한, 실시간 상호작용 및 실용적 사용성을 가능하게 하는 Streamlit 기반의 인터페이스가 개발되었습니다. 전반적으로 결과는 다중 모드 표현과 주의 메커니즘을 결합하는 것이 강력하고 확장 가능한 수화 인식 시스템 구축에 효과적임을 강조합니다.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Swapnil Ohol (화요일,) 이 질문을 연구했습니다.

synapsesocial.com/papers/6a0ea196be05d6e3efb605ce https://doi.org/https://doi.org/10.5281/zenodo.20286329

Bookmark

View Full Paper