本論文では、エッジコンピューティング用に設計された組み込みデバイス、LattePanda Sigmaを基盤とした高度な臨床インターフェースの開発について述べます。このインターフェースは、OpenAIの言語モデルとWhisperを統合し、自動音声からテキストへの転写を行うとともに、pyannote/speaker-diarization-3.1モデルを使用して臨床環境における正確なスピーカーダイアライゼーションを実現します。スペイン語での10件の医師–患者間の会話のデータセットが使用され、現地の文脈に合わせて翻訳・再録音されました。モデルによって生成された自動転写は、ROUGEメトリックを使用して基準転写と比較されました。Smallモデルの平均ROUGEスコアは0.9028、Mediumモデルは0.9260であり、転写精度が高いことを示しています。基準転写も、pyannoteモデルによって確認されたセグメントの評価に使用されました。最後に、本論文ではスペイン語での医療記録を改善するためのシステムの有用性と効果を分析します。
Jonathan et al. (Sun) は、この問題を研究しました。