Key points are not available for this paper at this time.
優れた推論能力、一般化能力、および多様な分野にわたる流暢さで知られる大型言語モデル(LLMs)は、スピーチ関連タスクの向上に向けて有望な道を示しています。本論文では、スピーチからテキスト翻訳(S2TT)のタスクにデコーダー専用LLMsを統合することに焦点を当てます。私たちは、LLMがエンコードされた音声表現を直接消費し、テキスト翻訳を生成することを可能にするデコーダー専用のアーキテクチャを提案します。さらに、異なるパラメータ効率の良いファインチューニング技術およびタスクの定式化の効果を調査します。我々のモデルは、プロプライエタリデータなしで訓練されたモデルの中でCoVoST 2とFLEURSで最先端のパフォーマンスを達成しています。また、提案したモデルの設計選択を検証し、LLMsをS2TTに統合するための洞察を提供する分析も行います。
Huang et al. (水曜日) はこの問題を研究しました。