What type of study is this?

September 10, 2025Open Access

نموذج التعرف على الكلام باللغة العربية باستخدام التعلم العميق والتكتلات من بايدو

Key Points

The model achieved a word error rate of 0.3720 and a character error rate of 0.0568, highlighting its effectiveness.
Utilizing mel-frequency cepstral coefficients with k-means clustering enables improved organization of acoustic segments.
Deep speech technology, incorporating neural networks, processes Arabic audio with efficiency and precision.
This approach significantly enhances automated Arabic speech recognition, reducing loss while maintaining quality.

Abstract

تتضمن هذه الدراسة استخراج الطيف من إشارة الصوت العربية الخام وغير المسمى وإنتاج معاملات تكافؤ التردد ميل (MFCCs). يقوم خوارزمية التكتل بتجميع MFCCs المسترجعة مع ميزات مشابهة. لعبت تقنية التكتل K-means دورًا حاسمًا في بحثنا، حيث تمكّنت من تصنيف بيانات الصوت العربية غير المسمّاة بشكل غير إشرافي. سمح استخدام K-means على ميزات MFCC المستخرجة بتصنيف المقاطع الصوتية المتشابهة صوتيًا إلى مجموعات متميزة دون معرفة مسبقة بخصائصها. كانت هذه المرحلة الأولية حاسمة لفهم التنوع الكامن في مجموعة البيانات المتنوعة التي تم أخذ عينات منها. تم استخدام تشويه الوقت الديناميكي (DTW) والمسافة الإقليدية للتوضيح. تم استخدام خوارزميات التصنيف مثل شجرة القرار، والتعزيز الشديد (XGBoost)، وأقرب الجيران (KNN)، والغابة العشوائية لتصنيف الفئات المختلفة المستمدة من التكتل. توضح هذه الدراسة أيضًا فعالية إطار عمل

نموذج التعرف على الكلام باللغة العربية باستخدام التعلم العميق والتكتلات من بايدو

Key Points

Abstract

Cite This Study