October 10, 2017Open Access

Entraînement à Précision Mixte

Key Points

Key points are not available for this paper at this time.

Abstract

Les réseaux neuronaux profonds ont permis des avancées dans une large variété d'applications. Augmenter la taille du réseau neuronal entraîne généralement une amélioration de la précision. À mesure que les tailles des modèles augmentent, les exigences en mémoire et en calcul pour l'entraînement de ces modèles augmentent également. Nous introduisons une technique pour entraîner des réseaux neuronaux profonds en utilisant des nombres à virgule flottante de demi-précision. Dans notre technique, les poids, les activations et les gradients sont stockés au format IEEE de demi-précision. Les nombres à virgule flottante de demi-précision ont une portée numérique limitée par rapport aux nombres à virgule flottante de simple précision. Nous proposons deux techniques pour gérer cette perte d'information. Premièrement, nous recommandons de maintenir une copie en simple précision des poids qui cumule les gradients après chaque étape d'optimisation. Cette copie en simple précision est arrondie au format de demi-précision pendant l'entraînement. Deuxièmement, nous proposons de mettre à l'échelle la perte de manière appropriée pour gérer la perte d'information avec des gradients de demi-précision. Nous démontrons que cette approche fonctionne pour une large variété de modèles, y compris les réseaux de neurones convolutionnels, les réseaux de neurones récurrents et les réseaux antagonistes génératifs. Cette technique fonctionne pour des modèles à grande échelle avec plus de 100 millions de paramètres entraînés sur de grands ensembles de données. En utilisant cette approche, nous pouvons réduire la consommation mémoire des modèles d'apprentissage profond de près de 2x. Dans les futurs processeurs, nous pouvons également nous attendre à un gain de vitesse de calcul significatif en utilisant des unités matérielles de demi-précision.

Demander à l'IA

Bookmark

View Full Paper