April 27, 2022Open Access

ضبط Wav2Vec2 للتعرف على المتحدثين

Key Points

Key points are not available for this paper at this time.

Abstract

تستكشف هذه الورقة تطبيق إطار عمل wav2vec2 للتعرف على المتحدثين بدلاً من التعرف على الكلام. ندرس فعالية الأوزان المسبقة التدريب على مهمة التعرف على المتحدثين، وكيفية تجميع سلسلة إخراج wav2vec2 في تمثيل ثابت الطول للمتحدث. للتكيف مع التعرف على المتحدثين، نقترح نوع تصنيف ذو عبارة واحدة مع خسارة تقاطع الانتروبي أو خسارة زاوية إضافية، ونوع تصنيف زوج العبارة مع خسارة BCE. أفضل نوع لدينا حقق نسبة خطأ متساوية تبلغ 1.88٪ على مجموعة اختبار voxceleb1 الموسعة مقارنة بـ 1.69٪ مع خط أساس ECAPA-TDNN. الكود متاح على github.com/nikvaessen/w2v2-speaker.

Bookmark

View Full Paper

Bookmark

View Full Paper

ضبط Wav2Vec2 للتعرف على المتحدثين

Key Points

Abstract

Cite This Study