May 29, 2024

Imputación de Datos Faltantes con una Red Impulsada por Incertidumbre

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Estudiamos el problema de la imputación de datos faltantes, que es una tarea fundamental en el área de calidad de datos que tiene como objetivo imputar los datos faltantes para lograr la integridad de los conjuntos de datos. Aunque las técnicas recientes basadas en modelado de distribución (por ejemplo, generación de distribución y ajuste de distribución) pueden lograr un rendimiento de vanguardia en términos de precisión de imputación, notamos que (1) implementan un modelo de aprendizaje profundo sofisticado que tiende a sobreajustarse para la imputación de datos faltantes; (2) dependen directamente de una distribución de datos global mientras pasan por alto la información local. Impulsados por la variabilidad inherente tanto en los datos faltantes como en los mecanismos de falta, en este documento, exploramos la naturaleza incierta de esta tarea y buscamos abordar las limitaciones de los trabajos existentes proponiendo una red impulsada por la incertidumbre para la imputación de datos faltantes, denominada NOMI. NOMI tiene tres componentes clave, es decir, el módulo de recuperación, el imputador de proceso gaussiano de red neuronal (NNGPI) y el módulo de calibración basado en incertidumbre. NOMI ejecuta estos componentes secuencialmente y de manera iterativa para lograr un mejor rendimiento de imputación. Específicamente, en el módulo de recuperación, NOMI recupera vecinos locales de las muestras de datos incompletas basándose en la métrica de similitud predefinida. Posteriormente, diseñamos NNGPI que combina las ventajas tanto del Proceso Gaussiano como de la capacidad de aproximación universal de las redes neuronales. NNGPI modela la incertidumbre aprendiendo la distribución posterior sobre los datos para imputar valores faltantes mientras alivia el problema de sobreajuste. Además, proponemos un módulo de calibración basado en incertidumbre que utiliza la incertidumbre del imputador en su predicción para ayudar al módulo de recuperación a obtener información local más fiable, mejorando así aún más el rendimiento de imputación. También demostramos que nuestro NOMI puede ser reformulado como una instancia del conocido algoritmo de Maximización de Expectativas (EM), destacando la sólida base teórica de nuestros métodos propuestos. Se realizan extensos experimentos en 12 conjuntos de datos del mundo real. Los resultados demuestran la excelente performance de NOMI en términos de precisión y eficiencia.

Me gusta

Guardar