背景/目的:大規模言語モデル(LLMs)は、2型糖尿病(T2DM)患者の食事計画を含む臨床栄養における意思決定支援ツールとしてますます利用されています。しかし、AIが生成した食事プランの臨床的安全性、定量的精度、ガイドラインの遵守は不確かです。この研究は、LLMが生成した食事とガイドラインに準拠した基準食との間の系統的偏りと一致度を評価し、現在のLLMsがT2DMにおける信頼できる臨床栄養意思決定支援ツールとして機能できるかどうかを評価することを目的としています。方法:6つの広く利用されているLLMが、同一のプロンプトを使用してT2DM向けの標準化された3日間、1800 kcalの食事プランを生成しました。それぞれの日は独立した観察(n = 18)として扱われました。エネルギーおよびマクロ栄養素の含有量は専門の栄養ソフトウェアを使用して分析され、ADA、EASD、IDFおよび国内ガイドラインに基づいて栄養士が設計した基準食と比較されました。一致度はBland–Altman分析、比率偏り評価、そしてクラス内相関係数を使用して評価されました。ガイドラインの遵守および臨床的適切性は、登録栄養士によって独立して評価されました。結果:ほとんどのLLMが生成した食事は基準食から系統的に逸脱し、総エネルギーが低く、炭水化物と食物繊維の含有量が減少し、タンパク質の分布が変動しました。Bland–Altman分析は、主要栄養素に対して有意な偏りと広範な一致限界を示し、臨床的に意味のある不一致を示しています。ガイドラインの遵守スコアはモデルごとに大きく異なり、1つのモデルのみが比較的一貫したパフォーマンスを示しました。栄養士間の評価者間信頼性は高かった(ICC = 0.806)。結論:現在のLLMsは、T2DMの食事計画に使用される際に、系統的な定量的偏りと不一致なガイドライン遵守を示しています。AIが生成した食事プランは、栄養士の指導による医療栄養療法とは交換可能ではなく、専門的監視なしで使用すると臨床的リスクを伴う可能性があります。糖尿病ケアへの実装には、慎重な検証、領域特有の微調整、および監視された臨床プロセス内での統合が必要です。
Karakasら(Fri)はこの問題を研究しました。