Key points are not available for this paper at this time.
مؤخراً، حقق تحويل النجاح في مجال التعرف التلقائي على الكلام (ASR). ومع ذلك، من التحدي نشر نموذج قائم على التحويل من النهاية إلى النهاية (E2E) للتعرف على الكلام عبر الإنترنت. في هذه الورقة، نقترح هيكل التعرف على الكلام القائم على تحويلات CTC / الانتباه عبر الإنترنت، والذي يحتوي على مشفر الانتباه الذاتي للقطعات (chunk-SAE) ومفكك الشيفرات القائم على الانتباه الذاتي المقطوع الأحادي (MTA). أولاً، يقوم chunk-SAE بتقسيم الكلام إلى قطع معزولة. لتقليل التكلفة الحاسوبية وتحسين الأداء، نقترح إعادة استخدام الحالة في chunk-SAE. ثانياً، يقوم مفكك الشيفرات القائم على MTA بقطع ميزات الكلام بشكل أحادي وينفذ الانتباه على الميزات المقطوعة. لدعم التعرف عبر الإنترنت، ندمج chunk-SAE المعاد استخدامه مع مفكك الشيفرات القائم على MTA في هيكل CTC / الانتباه عبر الإنترنت. نقيم النماذج المقترحة عبر الإنترنت على معايير HKUST Mandarin ASR ونحقق معدل خطأ في الأحرف (CER) بنسبة 23.66% مع زمن استجابة قدره 320 مللي ثانية. ينتج نموذجنا عبر الإنترنت انخفاضاً قدره 0.19% في CER المطلق مقارنة بالخط الأساسي غير المتصل، ويحقق تحسناً ملحوظاً على عملنا السابق على نماذج E2E القائمة على الذاكرة القصيرة والطويلة (LSTM).
درس مياو وزملاؤه (الخميس) هذا السؤال.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: