October 5, 2025Open Access

컴퓨터 매개 표현: 알고리즘적 비전과 시각적 스타일에 대한 질적 조사

Key Points

이 조사는 기계가 이미지 설명에서 특정 시각적 스타일 요소를 우선시하는 방식을 보여줍니다.
연구 결과는 교육 데이터의 처리 방식이 AI 도구가 인식하는 예술적 속성에 영향을 미친다는 것을 시사합니다.
이 질적 조사는 큰 언어 모델을 사용하여 독특한 저널리즘 이미지를 분석하고 교정합니다.
알고리즘적 비전을 이해하는 것은 컴퓨터 과학 맥락에서 AI 기술의 더 나은 투명성을 informing할 수 있습니다.

Abstract

일반 대중에게 텍스트-이미지 생성기, 예를 들어 Midjourney와 DALL-E는 마법처럼 작동하는 것처럼 보이며, 실제로 그 내부 작동 방식은 종종 불투명하게 느껴집니다. 이는 부분적으로 교육 데이터와 생성기 작동 알고리즘 같은 측면에 대한 대형 기술 기업들의 투명성 부족과, 이러한 작동 방식을 이해하는 데 필요한 컴퓨터 과학 및 기계 학습에 대한 깊고 기술적인 지식 때문입니다. 이러한 측면을 인정하여, 이 질적 조사는 알고리즘적 비전의 블랙 박스를 더 잘 이해하고자 큰 언어 모델에게 두 세트의 시각적으로 구별되는 저널리즘 이미지를 먼저 설명하도록 요청합니다. 결과적으로 얻은 설명은 동일한 큰 언어 모델에 입력되어 AI 도구가 이 이미지를 어떻게 교정하는지 확인합니다. 이렇게 함으로써 이 연구는 기계가 각 세트의 이미지를 처리하는 방법과 세 차원(대표성, 미학 및 기술)에 걸쳐 기계 비전이 설명에 중요하다고 간주하는 특정 시각적 스타일 요소를 평가합니다. 이 탐색은 학자들이 컴퓨터가 이미지를 처리하고 설명하며 렌더링하는 방법, 즉 그들이 집중하는 속성과 무시하는 경향이 있는 속성에 대해 더 잘 이해하는 데 도움을 줍니다.

컴퓨터 매개 표현: 알고리즘적 비전과 시각적 스타일에 대한 질적 조사

Key Points

Abstract

Cite This Study

Also Consider

Also Consider