Las redes de puertas lógicas diferenciables (DLGNs) exhiben una eficiencia extraordinaria en la inferencia mientras mantienen una precisión competitiva. Sin embargo, los gradientes que se desvanecen, los errores de discretización y el alto costo de entrenamiento obstaculizan la escalabilidad de estas redes. Incluso con esquemas de inicialización de parámetros dedicados de trabajos posteriores, aumentar la profundidad aún perjudica la precisión. Mostramos que la raíz de estos problemas radica en la parametrización subyacente de las neuronas de las puertas lógicas. Para superar este problema, proponemos una reparametrización que también reduce el tamaño del parámetro logarítmicamente en función del número de entradas por puerta. Para entradas binarias, esto ya reduce el tamaño del modelo en 4x, acelera el paso hacia atrás hasta en 1.86x y converge en 8.5x menos pasos de entrenamiento. Además, demostramos que la precisión en CIFAR-100 se mantiene estable y a veces es superior a la parametrización original.
Rüttgers et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: