December 8, 2025Open Access

التفكير للكشف: الكشف عن الت anomaly المدفوع بالعقل

Key Points

يدعم تعزيز الشفافية في الكشف عن anomalies اتخاذ قرارات أفضل في الإعدادات الصناعية.
تحقيق دقة تصنيف رائدة بلغت 93.9% على MVTec-AD و90.3% على VisA.
النهج التكامل يجمع بين ضبط نموذج الرؤية–اللغة مع إنشاء مبررات هيكلية للتحليل.
تشير تحسينات أداء النموذج إلى خطوة إلى الأمام في موثوقية ودقة التفتيش الصناعي.

Abstract

يمكن لنماذج الرؤية–اللغة الكبيرة (VLMs) وصف الصور بطلاقة، ومع ذلك تعتمد قراراتها المتعلقة بال anomalies عادةً على heuristics غير واضحة وعتبات يدوية. نقدم ThinkAnomaly، وهو إطار عمل مدفوع بالعقل للكشف عن الت anomalies الصناعية. يقوم النموذج بإنشاء مبررات هيكلية موجزة ثم يصدر قرارًا محسوبًا بنعم/لا، مما يلغي العتبات لكل فئة. للإشراف على التفكير، نقوم بإنشاء تعليقات سلسلة الأفكار ل MVTec-AD وVisA عبر التركيب، التصفية التلقائية، والتحقق البشري. نقوم بتحسين Llama-3.2-Vision بهدفين في مرحلتين وفقدان تناسق المبررات–العلامات، مما يؤدي إلى دقة تصنيف رائدة مع الحفاظ على AUC للكشف تنافسية: MVTec-AD—93.9% دقة و93.8 Image-AUC؛ VisA—90.3% دقة و85.0 Image-AUC. هذا يحسن دقة التصنيف عن AnomalyGPT بمقدار +7.8 (MVTec-AD) و+12.9 (VisA) نقطة مئوية. تجعل الأسباب الواضحة والقرارات المحسوبة ThinkAnomaly شفافًا وجاهزًا للنشر لتفتيش الصناعة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper