Key points are not available for this paper at this time.
최근 음성-언어 공동 학습 분야에서 CLAP와 같은 놀라운 발전이 있었으며, 이는 다중 모달 이해 작업에서 많은 성공을 보여주고 있습니다. 이러한 모델은 일반적으로 단일 모달 국소 표현, 즉 프레임 또는 단어 특징을 집계하여, 이를 바탕으로 대조 손실을 사용하여 조잘한 크기의 교차 모달 정렬을 이루고 있습니다. 그러나 텍스트와의 프레임 수준의 대응이 무시될 수 있어, 설명 가능성 및 세분화된 문제에서 잘 형성되지 않을 수 있으며, 이는 조잡한 작업의 성능에도 악영향을 미칠 수 있습니다. 본 연구에서는 대규모 대조 사전 훈련에서 조잡한 및 세분화된 음성-언어 정렬을 모두 향상시키는 것을 목표로 합니다. 두 모달리티의 세분화 및 잠재 분포를 통일하기 위해, 공유 코드북이 채택되어 다중 모달 글로벌 특징을 공통 기반으로 표현하고, 각 코드워드는 모달리티 공유 의미를 인코딩하도록 정규화됩니다. 이를 통해 프레임과 단어 특징 간의 간극을 연결합니다. 이를 바탕으로 지역 밀접 블록이 포함되어 국소 패턴을 정화하고, 하드 네거티브 유도 손실이 정렬을 향상시키도록 설계되었습니다. 11개의 제로샷 조잡한 및 세분화된 작업에 대한 실험 결과는 우리 모델이 기존의 CLAP을 현저히 초과할 뿐만 아니라 현재의 SOTA 작품들과 비교하여 우수하거나 경쟁력 있는 결과를 산출함을 시사합니다.
Li et al. (Sat,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: