يمكن لنماذج الرؤية–اللغة الكبيرة (VLMs) وصف الصور بطلاقة، ومع ذلك تعتمد قراراتها المتعلقة بال anomalies عادةً على heuristics غير واضحة وعتبات يدوية. نقدم ThinkAnomaly، وهو إطار عمل مدفوع بالعقل للكشف عن الت anomalies الصناعية. يقوم النموذج بإنشاء مبررات هيكلية موجزة ثم يصدر قرارًا محسوبًا بنعم/لا، مما يلغي العتبات لكل فئة. للإشراف على التفكير، نقوم بإنشاء تعليقات سلسلة الأفكار ل MVTec-AD وVisA عبر التركيب، التصفية التلقائية، والتحقق البشري. نقوم بتحسين Llama-3.2-Vision بهدفين في مرحلتين وفقدان تناسق المبررات–العلامات، مما يؤدي إلى دقة تصنيف رائدة مع الحفاظ على AUC للكشف تنافسية: MVTec-AD—93.9% دقة و93.8 Image-AUC؛ VisA—90.3% دقة و85.0 Image-AUC. هذا يحسن دقة التصنيف عن AnomalyGPT بمقدار +7.8 (MVTec-AD) و+12.9 (VisA) نقطة مئوية. تجعل الأسباب الواضحة والقرارات المحسوبة ThinkAnomaly شفافًا وجاهزًا للنشر لتفتيش الصناعة.
أبدالله وآخرون (مون) درسوا هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: