致命的なリスクが高いCOVID-19患者を特定することは、医療専門家にとって極めて重要です。これは、情報に基づく意思決定をサポートし、医療システム内での新たな危機への対応能力を高めます。しかし、COVID-19のデータセットはしばしば非常に不均衡であり、致命例が著しく少ないため、効果的な機械学習アルゴリズムの開発に課題をもたらします。本研究の目的は、メキシコの疫学データセットを使用してCOVID-19死亡率を予測する高性能な機械学習アプローチを開発することです。クラス不均衡の問題に対処するため、SMOTE、SMOTE-ENN、ADASYN、SMOTE-Tomek、ランダムアンダーサンプリング(RUS)など多数のサンプリング手法が適用されます。ロジスティック回帰、決定木、ガウシアンナイーブベイズ、K近傍法、ランダムフォレストなどのいくつかの機械学習アルゴリズムを使用して予測モデルが作成されます。さらに、Shap技術を用いて特徴選択分析を実施し、COVID-19の死亡率を予測するために主要な関連属性を特定しました。その結果、SMOTE-ENN技術でバランスの取れたデータで訓練されたランダムフォレストモデルが最良のパフォーマンスを示し、89.44%の精度、87.88%の再現率、88.74%のROC AUCスコアを達成しました。さらに、特徴選択分析は、患者のタイプ、年齢、肺炎、気管挿管、COVID-19感染患者との接触が入院患者におけるCOVID-19死亡リスクを予測するための重要な属性であることを示しています。
Khamlichi et al. (Wed,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: