تتضمن هذه الدراسة استخراج الطيف من إشارة الصوت العربية الخام وغير المسمى وإنتاج معاملات تكافؤ التردد ميل (MFCCs). يقوم خوارزمية التكتل بتجميع MFCCs المسترجعة مع ميزات مشابهة. لعبت تقنية التكتل K-means دورًا حاسمًا في بحثنا، حيث تمكّنت من تصنيف بيانات الصوت العربية غير المسمّاة بشكل غير إشرافي. سمح استخدام K-means على ميزات MFCC المستخرجة بتصنيف المقاطع الصوتية المتشابهة صوتيًا إلى مجموعات متميزة دون معرفة مسبقة بخصائصها. كانت هذه المرحلة الأولية حاسمة لفهم التنوع الكامن في مجموعة البيانات المتنوعة التي تم أخذ عينات منها. تم استخدام تشويه الوقت الديناميكي (DTW) والمسافة الإقليدية للتوضيح. تم استخدام خوارزميات التصنيف مثل شجرة القرار، والتعزيز الشديد (XGBoost)، وأقرب الجيران (KNN)، والغابة العشوائية لتصنيف الفئات المختلفة المستمدة من التكتل. توضح هذه الدراسة أيضًا فعالية إطار عمل
Al–Anzi et al. (Thu,) studied this question.