Los puntos clave no están disponibles para este artículo en este momento.
Demostramos que el entrenamiento por descenso de gradiente de una red neuronal de dos capas sobre riesgo empírico o poblacional puede no disminuir el riesgo poblacional a un orden más rápido que t^-4/(d-2) bajo la escala de campo medio. La función de pérdida es el error cuadrático medio con una función objetivo continua de Lipschitz y datos distribuidos uniformemente en el cubo unitario de d dimensiones. Por lo tanto, el entrenamiento por descenso de gradiente para ajustar datos razonablemente suaves, pero verdaderamente de alta dimensión, puede estar sujeto a la maldición de la dimensionalidad. Presentamos evidencia numérica de que el entrenamiento por descenso de gradiente con funciones objetivo generales de Lipschitz se vuelve más lento a medida que aumenta la dimensión, pero converge a aproximadamente la misma tasa en todas las dimensiones cuando la función objetivo se encuentra en el espacio de funciones natural para redes ReLU de dos capas. Declaración de Impacto: las redes neuronales artificiales funcionan bien en muchas aplicaciones de la vida real, pero pueden sufrir de la maldición de la dimensionalidad en ciertos problemas. Proporcionamos evidencia teórica y numérica de que esto puede estar relacionado con si una función objetivo se encuentra en la clase de hipótesis descrita por redes infinitamente anchas. La dinámica de entrenamiento se considera en el régimen completamente no lineal y no se reduce a núcleos tangentes neuronales. Creemos que será fundamental estudiar estas clases de hipótesis en detalle para elegir modelos de aprendizaje automático apropiados para un problema dado. El objetivo del artículo es ilustrar esto de manera matemáticamente sólida y numéricamente convincente.
Wojtowytsch et al. (Jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: