Os métodos de gradiente natural aceleram marcadamente o treinamento de Redes Neurais Informadas por Física (PINNs), no entanto, sua atualização de Gauss–Newton deve ser resolvida no espaço de parâmetros, incorrendo em uma complexidade de tempo O(n3), onde n é o número de pesos treináveis da rede. Mostramos que exatamente o mesmo passo pode, em vez disso, ser formulado em um espaço residual geralmente menor de tamanho m = ∑γNγdγ, onde cada classe residual γ (por exemplo, interior da PDE, contorno, dados iniciais) contribui com Nγ pontos de colocalização de dimensão de saída dγ. Com base nessa percepção, introduzimos a Descida do Gradiente Natural Dual (D-NGD). A D-NGD calcula o passo de Gauss–Newton no espaço residual, o complementa com uma correção de aceleração geodésica a um custo extra negligenciável e fornece tanto um solucionador direto denso para m modesto quanto um solucionador de gradiente conjugado pré-condicionado de Nyström para m maior. Experimentalmente, a D-NGD escala a otimização de PINN de segunda ordem para redes com até 12,8 milhões de parâmetros, entrega um erro final L2 de um a três ordens de magnitude menor do que métodos de primeira ordem (Adam, SGD) e quasi-Newton, e — crucialmente — possibilita o treinamento completo do gradiente natural de PINNs em grande escala em uma única GPU.
A. et al. (Quarta-feira) estudaram essa questão.