Key points are not available for this paper at this time.
본 연구에서는 대규모 비전-언어 모델(LVLM)의 AI 생성 이미지와 인간 생성 이미지 간의 구별 능력을 평가합니다. 이 평가를 위한 새로운 자동화된 벤치마크 구축 방법을 소개합니다. 실험에서는 AI와 인간이 생성한 이미지를 혼합한 데이터 세트를 사용하여 일반적인 LVLM과 인간 참가자를 비교했습니다. 결과적으로 LVLM은 이미지 유형을 어느 정도 구별할 수 있었지만 오른쪽 편향을 보였고, 인간에 비해 상당히 낮은 성능을 보였습니다. 이러한 발견을 바탕으로 AI를 사용하여 자동화된 벤치마크 구축 프로세스를 개발했습니다. 이 프로세스에는 주제 검색, 내러티브 스크립트 생성, 오류 삽입 및 이미지 생성이 포함되어 의도적인 오류가 포함된 다양한 텍스트-이미지 쌍을 생성했습니다. 두 개의 동등한 벤치마크를 구축하여 우리의 방법을 검증했습니다. 본 연구는 LVLM의 실제 세계 이해에 대한 강점과 약점을 강조하고 벤치마크 구축 기법을 발전시켜 AI 모델 평가를 위한 확장 가능하고 자동화된 접근 방식을 제공합니다.
Zhou et al. (Thu,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: