일반 대중에게 텍스트-이미지 생성기, 예를 들어 Midjourney와 DALL-E는 마법처럼 작동하는 것처럼 보이며, 실제로 그 내부 작동 방식은 종종 불투명하게 느껴집니다. 이는 부분적으로 교육 데이터와 생성기 작동 알고리즘 같은 측면에 대한 대형 기술 기업들의 투명성 부족과, 이러한 작동 방식을 이해하는 데 필요한 컴퓨터 과학 및 기계 학습에 대한 깊고 기술적인 지식 때문입니다. 이러한 측면을 인정하여, 이 질적 조사는 알고리즘적 비전의 블랙 박스를 더 잘 이해하고자 큰 언어 모델에게 두 세트의 시각적으로 구별되는 저널리즘 이미지를 먼저 설명하도록 요청합니다. 결과적으로 얻은 설명은 동일한 큰 언어 모델에 입력되어 AI 도구가 이 이미지를 어떻게 교정하는지 확인합니다. 이렇게 함으로써 이 연구는 기계가 각 세트의 이미지를 처리하는 방법과 세 차원(대표성, 미학 및 기술)에 걸쳐 기계 비전이 설명에 중요하다고 간주하는 특정 시각적 스타일 요소를 평가합니다. 이 탐색은 학자들이 컴퓨터가 이미지를 처리하고 설명하며 렌더링하는 방법, 즉 그들이 집중하는 속성과 무시하는 경향이 있는 속성에 대해 더 잘 이해하는 데 도움을 줍니다.
T.J. Thomson (금요일)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: