Key points are not available for this paper at this time.
تعزز نماذج الصوت واللغة الكبيرة (LALMs) نماذج اللغة الكبيرة التقليدية من خلال دمج قدرات الإدراك الصوتي، مما يسمح لها بالتعامل مع المهام المتعلقة بالصوت. ركزت الأبحاث السابقة بشكل أساسي على تقييم أداء LALMs عبر مهام متنوعة، لكنها أغفلت موثوقيتها، خاصة فيما يتعلق بمشكلات مثل الهلوسة الكائنية. في دراستنا، نقدم طرقًا لتقييم مدى الهلوسة الكائنية لنماذج LALMs المتاحة للجمهور. تكشف نتائجنا أن LALMs قابلة للمقارنة مع نماذج التسمية الصوتية المتخصصة في فهم المحتوى الصوتي، لكنها تواجه صعوبة في الإجابة على الأسئلة التمييزية، وبشكل خاص تلك التي تتطلب تحديد وجود أصوات كائنات معينة داخل مقطع صوتي. يبرز هذا القيد ضعفًا حاسمًا في نماذج LALMs الحالية: فهمها غير الكافي للاستفسارات التمييزية. علاوة على ذلك، نستكشف إمكانية تحسين الأداء من خلال هندسة المحفزات لتعزيز أداء LALMs على الأسئلة التمييزية.
قام كووان وآخرون (Sun,) بدراسة هذا السؤال.