March 3, 2026

Descida do Gradiente Natural Dual para Treinamento Escalável de Redes Neurais Informadas por Física

Key Points

A D-NGD alcança um erro final L2 de uma a três ordens de magnitude menor em comparação com métodos de primeira ordem.
O método calcula o passo de Gauss-Newton em um espaço residual menor, melhorando significativamente a eficiência.
Utilizando um solucionador denso para problemas menores, a D-NGD escala com sucesso para redes com 12,8 milhões de parâmetros.
O treinamento completo do gradiente natural em uma única GPU demonstra a efetividade prática da D-NGD na otimização.

Abstract

Os métodos de gradiente natural aceleram marcadamente o treinamento de Redes Neurais Informadas por Física (PINNs), no entanto, sua atualização de Gauss–Newton deve ser resolvida no espaço de parâmetros, incorrendo em uma complexidade de tempo O(n3), onde n é o número de pesos treináveis da rede. Mostramos que exatamente o mesmo passo pode, em vez disso, ser formulado em um espaço residual geralmente menor de tamanho m = ∑γNγdγ, onde cada classe residual γ (por exemplo, interior da PDE, contorno, dados iniciais) contribui com Nγ pontos de colocalização de dimensão de saída dγ. Com base nessa percepção, introduzimos a Descida do Gradiente Natural Dual (D-NGD). A D-NGD calcula o passo de Gauss–Newton no espaço residual, o complementa com uma correção de aceleração geodésica a um custo extra negligenciável e fornece tanto um solucionador direto denso para m modesto quanto um solucionador de gradiente conjugado pré-condicionado de Nyström para m maior. Experimentalmente, a D-NGD escala a otimização de PINN de segunda ordem para redes com até 12,8 milhões de parâmetros, entrega um erro final L2 de um a três ordens de magnitude menor do que métodos de primeira ordem (Adam, SGD) e quasi-Newton, e — crucialmente — possibilita o treinamento completo do gradiente natural de PINNs em grande escala em uma única GPU.

Bookmark

Descida do Gradiente Natural Dual para Treinamento Escalável de Redes Neurais Informadas por Física

Key Points

Abstract

Cite This Study