Key points are not available for this paper at this time.
تستكشف هذه الورقة تطبيق إطار عمل wav2vec2 للتعرف على المتحدثين بدلاً من التعرف على الكلام. ندرس فعالية الأوزان المسبقة التدريب على مهمة التعرف على المتحدثين، وكيفية تجميع سلسلة إخراج wav2vec2 في تمثيل ثابت الطول للمتحدث. للتكيف مع التعرف على المتحدثين، نقترح نوع تصنيف ذو عبارة واحدة مع خسارة تقاطع الانتروبي أو خسارة زاوية إضافية، ونوع تصنيف زوج العبارة مع خسارة BCE. أفضل نوع لدينا حقق نسبة خطأ متساوية تبلغ 1.88٪ على مجموعة اختبار voxceleb1 الموسعة مقارنة بـ 1.69٪ مع خط أساس ECAPA-TDNN. الكود متاح على github.com/nikvaessen/w2v2-speaker.
درس فايزن وآخرون (الأربعاء) هذا السؤال.