수화 인식(SLR)은 청각 장애인과 더 넓은 커뮤니티 간의 의사소통을 가능하게 하는 중요한 기술로 자리 잡았습니다. 그러나 많은 기존 방법들은 RGB 비디오나 골격 데이터와 같은 단일 모드 입력에 의존하며, 이러한 방법들은 종종 폐색, 조명 변화 및 복잡한 제스처 패턴이 포함된 실제 조건에서 신뢰성 있게 수행하기 어려움을 겪습니다. 본 연구는 RGB 시각 정보, 인간 자세 랜드마크 및 세부 손 키 포인트를 결합하여 수화 제스처에서 공간 구조와 시간적 움직임을 효과적으로 포착하는 다중 모드 딥 러닝 프레임워크를 제시합니다. 제안된 시스템은 공간 특징 추출을 위한 합성곱 신경망(CNN), 순서 모델링을 위한 시간적 합성곱 신경망(TCN), 그리고 프레임 간 장기 의존성을 학습하기 위한 변환기 기반 주의 메커니즘을 통합합니다. 추가로, 여러 모드의 특징을 동적으로 결합하는 적응형 주의 주도 융합 모듈이 도입됩니다. 이 모델은 100개의 제스처 클래스를 포함하는 AUTSL 데이터셋에서 훈련 및 평가됩니다. 실험 평가 결과, 제안된 접근법은 강력한 인식 성능을 달성하고 단일 모드 기준선에 비해 명확한 개선을 보여줍니다. 또한, 실시간 상호작용 및 실용적 사용성을 가능하게 하는 Streamlit 기반의 인터페이스가 개발되었습니다. 전반적으로 결과는 다중 모드 표현과 주의 메커니즘을 결합하는 것이 강력하고 확장 가능한 수화 인식 시스템 구축에 효과적임을 강조합니다.
Swapnil Ohol (화요일,) 이 질문을 연구했습니다.