Key points are not available for this paper at this time.
대조 언어-오디오 사전 학습~(CLAP)은 오디오와 언어의 표현을 정렬하기 위해 개발되어, 검색 및 분류 작업에서 놀라운 성능을 달성했습니다. 그러나 현재 CLAP은 오디오와 텍스트 특성 내에서 시간 정보를 포착하는 데 어려움을 겪고 있으며, 이는 오디오 검색 및 생성과 같은 작업에 상당한 한계를 제시합니다. 이러한 격차를 해결하기 위해, 우리는 시간 향상 CLAP 모델인 T-CLAP을 소개합니다. 우리는 대규모 언어 모델~(LLMs)과 혼합 전략을 사용하여 방대한 오디오-텍스트 데이터셋에서 오디오 클립에 대한 시간 대조 캡션을 생성합니다. 이후, 이러한 합성 데이터를 통합하여 CLAP 모델을 미세 조정하기 위한 새로운 시간 중심 대조 손실을 설계합니다. 우리는 여러 하위 작업에서 포괄적인 실험과 분석을 수행합니다. T-CLAP은 소리 사건의 시간적 관계를 포착하는 능력이 향상되었으며, 최첨단 모델보다 상당한 차이로 성능이 개선되었습니다.
Yuan et al. (Sat,)는 이 질문을 연구했습니다.