Key points are not available for this paper at this time.
ML-Modelle weisen oft unerwartet schlechtes Verhalten auf, wenn sie in realen Anwendungsbereichen eingesetzt werden. Wir identifizieren die Underspezifizierung als einen der Hauptgründe für diese Misserfolge. Eine ML-Pipeline ist underspezifiziert, wenn sie viele Prädiktoren mit gleich starken, zurückgehaltenen Leistungen im Trainingsbereich zurückgeben kann. Underspezifizierung ist in modernen ML-Pipelines, wie z. B. solchen, die auf Deep Learning basieren, häufig. Prädiktoren, die von underspezifizierten Pipelines zurückgegeben werden, werden oft basierend auf ihrer Leistung im Trainingsbereich als gleichwertig angesehen, aber wir zeigen hier, dass solche Prädiktoren in Einsatzzwecken sehr unterschiedlich agieren können. Diese Mehrdeutigkeit kann zu Instabilität und schlechtem Modellverhalten in der Praxis führen und stellt einen klaren Fehlermodus dar, der sich von zuvor identifizierten Problemen unterscheidet, die aus strukturellen Diskrepanzen zwischen Trainings- und Einsatzbereichen resultieren. Wir zeigen, dass dieses Problem in einer Vielzahl praktischer ML-Pipelines auftritt, und verwenden Beispiele aus der Computer Vision, der medizinischen Bildgebung, der Verarbeitung natürlicher Sprache, der klinischen Risikoabschätzung basierend auf elektronischen Gesundheitsakten und der medizinischen Genomik. Unsere Ergebnisse zeigen die Notwendigkeit, die Underspezifizierung in Modellierungspipelines, die für den realen Einsatz in irgendeinem Bereich vorgesehen sind, ausdrücklich zu berücksichtigen.
D’Amour et al. (Fri,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: