Key points are not available for this paper at this time.
오디오 처리 분야에서 전이 학습은 자가 감독 학습 및 제로 샷 학습 기술의 발전을 촉진해왔습니다. 이러한 접근 방식은 다양한 작업을 처리하면서 최첨단 성능을 제공하는 다재다능한 모델의 개발로 이어졌습니다. 그러나 현재 모델은 오디오 캡셔닝 또는 오디오 질문 및 답변과 같은 개방형 작업을 위한 필수 언어를 생성하는 능력이 본질적으로 부족합니다. 우리는 모든 오디오 작업을 텍스트 생성 작업으로 구성하여 전이 학습을 활용하는 새로운 오디오 언어 모델인 펭기를 소개합니다. 이 모델은 오디오 녹음과 텍스트를 입력으로 받아들여 자유 형식의 텍스트를 출력으로 생성합니다. 입력된 오디오는 오디오 인코더에 의해 연속 임베딩 시퀀스로 표현됩니다. 텍스트 인코더도 해당 텍스트 입력에 대해 동일한 작업을 수행합니다. 두 시퀀스는 사전 훈련된 고정 언어 모델을 촉진하는 접두사로 결합됩니다. 펭기의 통합 아키텍처는 추가 미세 조정이나 작업-specific 확장 없이 개방형 작업과 폐쇄형 작업을 가능하게 합니다. 22개의 하위 작업에서 평가했을 때, 우리의 접근 방식은 그 중 여러 작업에서 최첨단 성능을 보여줍니다. 우리의 결과는 언어 모델과 오디오 모델을 연결하는 것이 일반 목적 오디오 이해를 향한 주요 단계임을 보여줍니다.
Deshmukh 외 (금요일), 이 질문을 연구했습니다.