本研究では,任意の差し替え可能な回帰モデルを用いて欠損値を補完するMissForest(MF)アルゴリズムを用いて,淀川水系12観測所の10年分の河川流量データの欠損値を一括で自動補完するフレームワークを構築した.観測値の10%を人為的に取り除いたデータを作成し,その欠測に対するMFの補完精度を決定係数𝑅2で評価した.MF内部で用いる回帰モデルとして複数の機械学習モデルを比較した結果,最も単純な線形回帰においても平均𝑅2=0.8の実用上十分な精度を示した.また,MFの補完に用いるデータを選別した場合としなかった場合を比較すると,後者のほうが全体的に高い補完精度を示した.これらの結果から,MFは複雑な調整を要さずに,大規模な流量データの欠損値を自動補完する実用的な手法となり得る.
YAMAGUCHI et al. (Thu,) studied this question.