June 20, 2018Open Access

Núcleo Tangente Neural: Convergencia y Generalización en Redes Neuronales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En la inicialización, las redes neuronales artificiales (RNAs) son equivalentes a procesos gaussianos en el límite de ancho infinito, conectándolas así a métodos de núcleo. Proponemos que la evolución de una RNA durante el entrenamiento también puede ser descrita por un núcleo: durante el descenso por gradiente sobre los parámetros de una RNA, la función de la red f_θ (que mapea vectores de entrada a vectores de salida) sigue el gradiente del núcleo del costo funcional (que es convexo, en contraste con el costo de parámetros) respecto a un nuevo núcleo: el Núcleo Tangente Neural (NTK). Este núcleo es central para describir las características de generalización de las RNAs. Si bien el NTK es aleatorio en la inicialización y varía durante el entrenamiento, en el límite de ancho infinito converge a un núcleo límite explícito y permanece constante durante el entrenamiento. Esto hace posible estudiar el entrenamiento de las RNAs en el espacio funcional en lugar del espacio de parámetros. La convergencia del entrenamiento puede estar relacionada con la positividad definida del NTK límite. Demostramos la positividad definida del NTK límite cuando los datos son soportados en la esfera y la no linealidad es no polinómica. Luego nos enfocamos en el contexto de la regresión de mínimos cuadrados y mostramos que en el límite de ancho infinito, la función de la red f_θ sigue una ecuación diferencial lineal durante el entrenamiento. La convergencia es más rápida a lo largo de los principales componentes del núcleo más grandes de los datos de entrada con respecto al NTK, sugiriendo así una motivación teórica para la detención temprana. Finalmente, estudiamos el NTK numéricamente, observamos su comportamiento para redes anchas y lo comparamos con el límite de ancho infinito.

Me gusta

Guardar

Ver artículo completo