Los puntos clave no están disponibles para este artículo en este momento.
Aunque las GPU son responsables de entrenar la gran mayoría de los modelos de aprendizaje profundo de última generación, las implicaciones de su arquitectura a menudo se pasan por alto al diseñar nuevos modelos de aprendizaje profundo (DL). Como consecuencia, modificar un modelo de DL para que sea más adecuado al hardware objetivo puede mejorar significativamente el rendimiento de tiempo de ejecución del entrenamiento e inferencia de DL. En este documento, proporcionamos un conjunto de directrices para que los usuarios maximicen el rendimiento de tiempo de ejecución de sus modelos de transformadores. Estas directrices han sido creadas considerando cuidadosamente el impacto de varios hiperparámetros del modelo que controlan la forma del modelo sobre la eficiencia de los núcleos de computación subyacentes ejecutados en la GPU. Encontramos que el rendimiento de modelos con formas de modelo "eficientes" es hasta un 39% más alto mientras se preserva la precisión en comparación con modelos con un número similar de parámetros pero con formas no optimizadas.
Anthony et al. (Jue,) estudiaron esta cuestión.