في عصر الاتصال عن بعد والأرشفة الرقمية، أصبحت التحليلات الآلية لبيانات الصوت ذات أهمية متزايدة في مجالات تطبيقية مختلفة. على الرغم من التقدم الكبير في مجال التعرف التلقائي على الكلام، فإن دمج التعرف على المتحدث، وتحليل المشاعر النصية، ورصد المشاعر الصوتية ضمن خط معالجة موحد في الوقت الحقيقي لا يزال يمثل تحديًا. غالبًا ما تقتصر الأساليب الحالية على تصميمات أحادية أو تعمل في أوضاع معالجة دفعات، مما يقيد قدرتها على التوسع وملاءمتها في الوقت الحقيقي. لمعالجة هذه الفجوة، يقترح هذا العمل طريقة جديدة لاختيار الميزات تسمى RAM، جنبًا إلى جنب مع نهج دمج على مستوى القرار الهجين يجمع بين نماذج Conv1D CNN و AutoML. يمكّن الإطار الهجين المقترح التدريب المستقل للنماذج ويدمج مخرجاته الاحتمالية من خلال استراتيجية دمج موزونة لتحسين الأداء. علاوة على ذلك، تم تطوير هندسة برمجيات تعتمد على الخدمات الصغيرة لتدعيم المعالجة في الوقت الحقيقي، واختيار الميزات، ونشر النماذج. يعزز هذا التصميم مرونة النظام وقدرته على التكامل في التطبيقات العملية. تظهر النتائج التجريبية أنه عند استخدام طريقة RAM المقترحة مع نموذج AI هجين، تحقق دقة تزيد عن 97% في التعرف على المتحدث و82% في تصنيف المشاعر، حتى مع عينات صوتية قصيرة. توضح هذه النتائج أن النهج المقترح يوفر حلاً قويًا وفعالًا لمهام تحليل الكلام في الوقت الحقيقي.
درس بوزيغر وآخرون (Sun) هذا السؤال.