June 26, 2024Open Access

Temporale Heterogenität in der Leistung von Machine-Learning-Modellen zur Schätzung der PM2.5-Konzentration

Key Points

Key points are not available for this paper at this time.

Abstract

Methoden des maschinellen Lernens (ML) wurden umfassend angewendet, um die Konzentrationen von Luftschadstoffen zu simulieren und die individuelle Exposition in epidemiologischen Studien zu bewerten. Es gibt jedoch immer noch einen Mangel an Forschung zur zeitlichen Heterogenität der ML-Modellleistung und zur Auswirkung der Datensatzgröße. Um die temporale Heterogenität in der Modellleistung bei der Schätzung der täglichen Konzentrationen von feinen Partikeln (PM2.5) in China im Jahr 2021 zu untersuchen, verglichen wir fünf auf Entscheidungsbäumen basierende ML-Modelle (Random Forest (RF), Categorical Boosting (CatBoost), Gradient Boost Regression Tree (GBRT), eXtreme Gradient Boosting (XGBoost) und Light Gradient Boosting Machine (LightGBM)) über tägliche Skalen innerhalb von drei unterschiedlichen Zeitrahmen. Die Leistung aller Modelle wurde mittels Kreuzvalidierung bewertet. Wir beobachteten, dass die Leistung der ML-Modelle mit der Zeit variierte, was eine signifikante Korrelation mit der PM2.5-Konzentration zeigte. Unter den 365 Tagen im Jahr 2021 erzielte das RF-Modell die beste Leistung, der jährliche Mittelwert R2 betrug 0,86, mit einem Minimum von 0,84 und einem Maximum von bis zu 0,95. Für RF wählten wir eine kubische Polynomkurve, um die Beziehung zwischen Modellleistung und PM2.5-Konzentrationen zu modellieren, und basierend darauf entwickelten wir eine Modell-Auswahlstrategie für verschiedene Zeitskalen, die eine Genauigkeitsrate von bis zu 79,45 % erzielte, wobei die ausgewählten Modelle einen durchschnittlichen R2 von 0,85 und ein Maximum von bis zu 0,95 hatten. Darüber hinaus fanden wir heraus, dass eine Vergrößerung der Datensatzgröße die Modellleistung nicht signifikant verbesserte. Stattdessen führte sie zu erheblich längeren Laufzeiten und erhöhtem Speicherbedarf. Die Methodik und Ergebnisse dieser Studie haben einen erheblichen Wert für die Weiterentwicklung effizienterer und präziserer Modellierungsansätze für die Konzentrationen von Luftschadstoffen. Darüber hinaus bietet diese Forschung eine Grundlage für die regionale Governance von Luftschadstoffen und zukünftige gesundheitsbezogene Forschungen.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper