March 2, 2024Open Access

데이터 없는 다중 레이블 이미지 인식을 위한 LLM 기반 프롬프트 튜닝

Key Points

Key points are not available for this paper at this time.

Abstract

이 논문은 데이터 없이 다중 레이블 이미지 인식을 위한 새로운 프레임워크인 데이터 없는 프레임워크를 제안합니다. 이 프레임워크는 사전 훈련된 대형 언어 모델(LLM)의 지식을 활용하여 프롬프트를 학습해 사전 훈련된 비전-언어 모델(VLM)인 CLIP을 다중 레이블 분류에 적응시킵니다. 잘 설계된 질문을 통해 LLM에 문의함으로써 객체의 특성과 맥락에 대한 포괄적인 지식을 얻으며, 이는 학습 프롬프트에 대한 귀중한 텍스트 설명을 제공합니다. 그런 다음, 다중 레이블 의존성을 고려하여 분류별 프롬프트 토큰의 하위 집합을 공유하는 계층적 프롬프트 학습 방법을 제안합니다. 이는 해당 객체가 유사한 속성을 보이거나 함께 발생할 가능성이 높은 경우입니다. CLIP의 시각적 및 언어적 의미 간의 뛰어난 정렬의 이점을 받아, 텍스트 설명에서 학습된 계층적 프롬프트는 추론 중 이미지 분류를 수행하는 데 적용됩니다. 우리의 프레임워크는 새로운 카테고리 인식을 위한 여러 사전 훈련 모델 간의 시너지를 탐색하는 새로운 방식을 제시합니다. 세 가지 공개 데이터셋(MS-COCO, VOC2007 및 NUS-WIDE)에 대한 광범위한 실험을 통해 우리 방법이 최첨단 방법보다 더 나은 결과를 달성하며, 특히 MS-COCO에서 mAP에서 제로샷 다중 레이블 인식 방법보다 4.7% 향상된 성능을 나타냅니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper