July 3, 2024Open Access

スピーチからテキストへの翻訳のためのデコーダー専用大型言語モデルの調査

Key Points

Key points are not available for this paper at this time.

Abstract

優れた推論能力、一般化能力、および多様な分野にわたる流暢さで知られる大型言語モデル（LLMs）は、スピーチ関連タスクの向上に向けて有望な道を示しています。本論文では、スピーチからテキスト翻訳（S2TT）のタスクにデコーダー専用LLMsを統合することに焦点を当てます。私たちは、LLMがエンコードされた音声表現を直接消費し、テキスト翻訳を生成することを可能にするデコーダー専用のアーキテクチャを提案します。さらに、異なるパラメータ効率の良いファインチューニング技術およびタスクの定式化の効果を調査します。我々のモデルは、プロプライエタリデータなしで訓練されたモデルの中でCoVoST 2とFLEURSで最先端のパフォーマンスを達成しています。また、提案したモデルの設計選択を検証し、LLMsをS2TTに統合するための洞察を提供する分析も行います。

スピーチからテキストへの翻訳のためのデコーダー専用大型言語モデルの調査

Key Points

Abstract

Cite This Study