Los puntos clave no están disponibles para este artículo en este momento.
En este artículo nos ocupamos de la aproximación de funciones mediante redes neuronales de una sola capa oculta con funciones de activación ReLU en el círculo unitario. En particular, estamos interesados en el caso en que el número de puntos de datos supera el número de nodos. Primero estudiamos la convergencia al equilibrio del flujo de gradiente estocástico asociado con la función de costo con una penalización cuadrática. Específicamente, probamos una desigualdad de Poincaré para una versión penalizada de la función de costo con constantes explícitas que son independientes de los datos y del número de nodos. Dado que nuestra penalización sesga los pesos para que sean acotados, esto nos lleva a estudiar qué tan bien una red con pesos acotados puede aproximar una función dada de variación acotada (BV). Nuestra principal contribución con respecto a la aproximación de funciones BV es un resultado que llamamos el teorema de localización. Específicamente, establece que el error esperado del problema restringido, donde la longitud de los pesos es menor que R, es del orden R^-1/9 con respecto al problema no restringido (el óptimo global). La prueba es novedosa en este tema e inspira técnicas de teoría de regularidad de ecuaciones diferenciales parciales elípticas. Finalmente, cuantificamos el valor esperado del óptimo global probando una versión cuantitativa del teorema de aproximación universal.
Avelin et al. (Fri,) estudiaron esta cuestión.