June 6, 2024Open Access

합成 벤치마크를 통한 실제 세계의 복잡성에 대한 대규모 비전-언어 모델의 이해 평가

Key Points

Key points are not available for this paper at this time.

Abstract

본 연구에서는 대규모 비전-언어 모델(LVLM)의 AI 생성 이미지와 인간 생성 이미지 간의 구별 능력을 평가합니다. 이 평가를 위한 새로운 자동화된 벤치마크 구축 방법을 소개합니다. 실험에서는 AI와 인간이 생성한 이미지를 혼합한 데이터 세트를 사용하여 일반적인 LVLM과 인간 참가자를 비교했습니다. 결과적으로 LVLM은 이미지 유형을 어느 정도 구별할 수 있었지만 오른쪽 편향을 보였고, 인간에 비해 상당히 낮은 성능을 보였습니다. 이러한 발견을 바탕으로 AI를 사용하여 자동화된 벤치마크 구축 프로세스를 개발했습니다. 이 프로세스에는 주제 검색, 내러티브 스크립트 생성, 오류 삽입 및 이미지 생성이 포함되어 의도적인 오류가 포함된 다양한 텍스트-이미지 쌍을 생성했습니다. 두 개의 동등한 벤치마크를 구축하여 우리의 방법을 검증했습니다. 본 연구는 LVLM의 실제 세계 이해에 대한 강점과 약점을 강조하고 벤치마크 구축 기법을 발전시켜 AI 모델 평가를 위한 확장 가능하고 자동화된 접근 방식을 제공합니다.

합成 벤치마크를 통한 실제 세계의 복잡성에 대한 대규모 비전-언어 모델의 이해 평가

Key Points

Abstract

Cite This Study

Also Consider

Also Consider