What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

スペイン語での医療相談の記録のためのスピーカー認識と音声からテキストへの転写のための臨床インターフェースに向けて

Key Points

平均ROUGEスコアはSmallモデルで0.9028、Mediumモデルで0.9260であり、それぞれ高い転写精度を示しています。
スピーカーダイアライゼーションを持つ高度な言語モデルの統合が、スペイン語圏の臨床記録を強化します。
評価には、文脈の関連性と現地のニュアンスの統合を確保するために、10件の医師–患者間の会話が含まれました。
この研究は、臨床文書作成の効率を改善するための自動音声からテキストへの技術の効果を強調しています。

Abstract

本論文では、エッジコンピューティング用に設計された組み込みデバイス、LattePanda Sigmaを基盤とした高度な臨床インターフェースの開発について述べます。このインターフェースは、OpenAIの言語モデルとWhisperを統合し、自動音声からテキストへの転写を行うとともに、pyannote/speaker-diarization-3.1モデルを使用して臨床環境における正確なスピーカーダイアライゼーションを実現します。スペイン語での10件の医師–患者間の会話のデータセットが使用され、現地の文脈に合わせて翻訳・再録音されました。モデルによって生成された自動転写は、ROUGEメトリックを使用して基準転写と比較されました。Smallモデルの平均ROUGEスコアは0.9028、Mediumモデルは0.9260であり、転写精度が高いことを示しています。基準転写も、pyannoteモデルによって確認されたセグメントの評価に使用されました。最後に、本論文ではスペイン語での医療記録を改善するためのシステムの有用性と効果を分析します。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper