Key points are not available for this paper at this time.
딥 러닝 기반 기계 추론 및 시각적 질문 응답 모델은 각자의 데이터셋에서 거의 인간에 가까운 성능을 달성하지만, 도메인 변화에서 성능이 급격히 떨어지며 모델이 인간과 유사한 추론 수준으로 일반화되지 못함을 시사합니다. 본 논문에서는 심층 모델의 시각적 추론 능력을 평가하기 위해 이미지-질문 쌍으로 구성된 새로운 CLEVR와 유사한 데이터셋을 제시합니다. 이미지의 객체는 질문의 전반부가 모호하여 이 시점까지 여러 답변이 정답처럼 보이도록 배치되어 있습니다. 그러나 질문의 후반부는 상황을 명확히 하고 전체 시각적 질문-응답 (VQA) 작업을 모호하지 않게 만들어 독특한 답변을 보고할 수 있게 합니다. 따라서 심층 모델은 추론 과정에서 신경망의 모호성을 처리할 필요가 있습니다. 이들은 탐색 공간에서 그래프(또는 트리)를 탐색하며 백트래킹 기법을 사용하거나, 일부 추론 계산을 통해 잘못된 답변을 반복적으로 제거함으로써 가능성 있는 정답 후보 집합을 수정하여 이를 처리할 수 있습니다. 우리는 이 데이터셋을 CLEVR with Back-Tracking Database, CLEVR-BT-DB라고 부릅니다. 이 데이터셋은 표준 CLEVR와 동일한 형식으로 2,500개의 이미지와 10,000개의 질문으로 구성되어 있으며, https://huggingface.co/datasets/Aborevsky01/CLEVR-BT-DB 사이트에서 이용 가능합니다. 추가 데이터를 생성하기 위한 코드는 https://github.com/AFigaro/CLEVRBTDB 사이트에서 이용할 수 있습니다. 우리는 Meta Research의 VQA를 위한 최근 심층 모델인 MDETR 방법을 테스트했으며, 표준 CLEVR 데이터셋에서 99.7%의 정확도를 달성했습니다. 그러나 우리의 CLEVR-BT-DB 데이터셋에서는 28.01%의 정확도를 보였습니다.
Latipov 외(월) 이 질문을 연구하였습니다.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: