March 12, 2024Open Access

Synth²: 합성 캡션과 이미지 임베딩으로 비주얼-언어 모델 강화

Key Points

Key points are not available for this paper at this time.

Abstract

고품질 인간 레이블 이미지-캡션 데이터셋의 생성은 비주얼-언어 모델(VLM) 개발에서 중요한 병목 현상을 나타냅니다. 우리는 대형 언어 모델(LLM)과 이미지 생성 모델의 강점을 활용하여 효율적이고 효과적인 VLM 훈련을 위한 합성 이미지-텍스트 쌍을 생성하는 새로운 접근 방식을 제안합니다. 우리 방법은 LLM에 의해 생성된 캡션에서 시작하여 이미지 임베딩을 합성하기 위해 텍스트-이미지 모델을 사전 훈련하는 것을 포함합니다. 이 합성 쌍은 이후 VLM 훈련에 사용됩니다. 광범위한 실험 결과, 합성 데이터로 훈련된 VLM은 이미지 캡션 작업에서 비교 가능한 성능을 보이며, 인간 주석 데이터로만 훈련된 모델이 사용하는 데이터의 일부만을 필요로 합니다. 특히, 우리는 합성 데이터셋으로 보강하여 기준선보다 17% 더 뛰어난 성능을 기록했습니다. 또한, 이미지 임베딩 공간에서 합성하는 것이 픽셀 공간에서보다 25% 더 빠르다는 것을 보여줍니다. 이 연구는 대규모, 사용자 정의 가능 이미지 데이터셋을 생성하기 위한 유망한 기술을 소개하며, 이를 통해 VLM 성능이 향상되고 다양한 분야에서의 적용성이 확대되며, 데이터를 효율적으로 사용하고 자원 활용성을 개선합니다.

Synth²: 합성 캡션과 이미지 임베딩으로 비주얼-언어 모델 강화

Key Points

Abstract

Cite This Study

Also Consider

Also Consider