What type of study is this?

This is a Quantitative Study study.

September 29, 2025Open Access

신뢰할 수 있는 대형 오디오 언어 모델을 향하여

Key Points

훈련 없는 방법과 훈련 기반 방법 모두 대형 오디오 언어 모델의 신뢰성을 크게 향상시킵니다.
제안된 신뢰성 증가 지수는 신뢰성을 향상시키기 위한 다양한 방법의 효과를 평가하는 데 도움을 줍니다.
신뢰성에 대한 인식은 음성, 소리, 음악과 같은 서로 다른 오디오 모드 간에 전이 가능한 메타 능력으로 확인됩니다.
조사는 대형 오디오 언어 모델의 신뢰성을 평가하는 기존 평가 지표의 한계를 드러냅니다.

Abstract

대형 오디오 언어 모델(LALM)의 최근 발전은 음성, 음악 및 일반적인 소리에 걸쳐 보편적인 이해 및 추론에서 인상적인 결과와 유망한 전망을 보여주었습니다. 그러나 이러한 모델들은 여전히 자신의 지식 경계를 인식하고 모르는 질문에 대해 적극적으로 답하지 못하는 능력이 부족합니다. LLM의 신뢰성을 향상시키기 위한 성공적인 시도가 있었지만, 신뢰할 수 있는 LALM은 여전히 대부분 탐색되지 않았습니다. 본 논문에서는 훈련 없는 방법(예: 다중 모드 사고 과정(MCoT))과 훈련 기반 방법(예: 감독 하에 미세 조정(SFT))을 포함하여 신뢰할 수 있는 LALM을 위한 다양한 접근 방식을 체계적으로 조사합니다. 또한, 기존 평가 지표의 한계를 식별하고 다양한 신뢰성 향상 방법의 효과를 평가하기 위한 새로운 지표인 신뢰성 증가 지수(RGI)를 제안합니다. 우리의 발견은 훈련 없는 방법과 훈련 기반 방법 모두 LALM의 신뢰성을 서로 다른 정도로 향상시킨다는 것을 시사합니다. 게다가, 신뢰성에 대한 인식은 음성, 소리 및 음악과 같은 서로 다른 오디오 모드에서 전이될 수 있는 '메타 능력'으로 확인됩니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper