대형 오디오 언어 모델(LALM)의 최근 발전은 음성, 음악 및 일반적인 소리에 걸쳐 보편적인 이해 및 추론에서 인상적인 결과와 유망한 전망을 보여주었습니다. 그러나 이러한 모델들은 여전히 자신의 지식 경계를 인식하고 모르는 질문에 대해 적극적으로 답하지 못하는 능력이 부족합니다. LLM의 신뢰성을 향상시키기 위한 성공적인 시도가 있었지만, 신뢰할 수 있는 LALM은 여전히 대부분 탐색되지 않았습니다. 본 논문에서는 훈련 없는 방법(예: 다중 모드 사고 과정(MCoT))과 훈련 기반 방법(예: 감독 하에 미세 조정(SFT))을 포함하여 신뢰할 수 있는 LALM을 위한 다양한 접근 방식을 체계적으로 조사합니다. 또한, 기존 평가 지표의 한계를 식별하고 다양한 신뢰성 향상 방법의 효과를 평가하기 위한 새로운 지표인 신뢰성 증가 지수(RGI)를 제안합니다. 우리의 발견은 훈련 없는 방법과 훈련 기반 방법 모두 LALM의 신뢰성을 서로 다른 정도로 향상시킨다는 것을 시사합니다. 게다가, 신뢰성에 대한 인식은 음성, 소리 및 음악과 같은 서로 다른 오디오 모드에서 전이될 수 있는 '메타 능력'으로 확인됩니다.
Ma et al. (Sun,) 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: