특징 융합 및 키워드-캡션 증강을 통한 대규모 대비적 언어-오디오 사전학습

Key Points

Key points are not available for this paper at this time.

Abstract

대비 학습은 다중 양식 표현 학습 분야에서 눈에 띄는 성공을 거두었습니다. 본 논문에서는 자연어 설명과 오디오 데이터를 결합하여 오디오 표현을 개발하기 위한 대비적 언어-오디오 사전학습 파이프라인을 제안합니다. 이를 위해 먼저 다양한 데이터 소스에서 수집한 633,526개의 오디오-텍스트 쌍으로 구성된 대규모 컬렉션인 LAION-Audio-630K를 공개합니다. 둘째, 다양한 오디오 인코더와 텍스트 인코더를 고려해 대비적 언어-오디오 사전학습 모델을 구축합니다. 모델 설계에 특징 융합 메커니즘과 키워드-캡션 증강을 도입하여 가변 길이의 오디오 입력을 처리하고 성능을 향상시킵니다. 셋째, 텍스트-오디오 검색, 제로샷 오디오 분류, 지도 오디오 분류의 세 가지 과제에 대해 포괄적인 실험을 수행하여 모델을 평가합니다. 결과는 텍스트-오디오 검색 과제에서 모델이 뛰어난 성능을 보임을 입증합니다. 오디오 분류 과제에서는 제로샷 설정에서 최첨단 성능을 달성하며, 비제로샷 설정에서는 기존 모델들과 유사한 성능을 나타냅니다. LAION-Audio-630K와 제안된 모델 모두 공개되어 있습니다.

Bookmark

View Full Paper

Bookmark

View Full Paper

특징 융합 및 키워드-캡션 증강을 통한 대규모 대비적 언어-오디오 사전학습

Key Points

Abstract

Cite This Study

Also Consider

Also Consider