تسعى هذه الدراسة إلى التحقيق في إمكانية تطبيق نموذج اللغة المرئية CLIP كجهد لأتمتة تقييم حسّية صور المنتجات. تم حساب الانطباعات بواسطة CLIP باستخدام ثلاثة فئات من المنتجات (كراسي، أكواب، أقلام) من خلال استخدام نماذج جماعية، وتحليل العلاقة مع التقييمات الذاتية البشرية (مقياس ليكرت). أظهرت نتائج التجربة وجود ارتباط إيجابي معتدل مع كلمات الانطباع مثل "لطيف" و"غير رسمي"، مما يدل على فعالية CLIP. من ناحية أخرى، أظهرت كلمات الانطباع مثل "ثقيل" و"رسمي" ارتباطًا منخفضًا أو ارتباطًا سلبياً. وعلاوة على ذلك، توضح تحليل الأضداد أن CLIP غير قادر على الحفاظ على الهيكل المتعارض للمعاني مثل "ثقيل" مقابل "خفيف". تشير هذه النتائج إلى أنه على الرغم من إمكانية إجراء تقييمات انطباعية معينة من خلال CLIP، إلا أن هناك حدوداً في استنتاج المعلومات المحتملة من البيانات البصرية.
درس أتا سوشي شيباتا (سات) هذا السؤال.