June 12, 2024Open Access

Reconciliando las leyes de escalado de Kaplan y Chinchilla

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Kaplan et al. 2020 (`Kaplan') y Hoffmann et al. 2022 (`Chinchilla') estudiaron el comportamiento de escalado de los transformadores entrenados en la predicción del siguiente token de lenguaje. Estos estudios produjeron diferentes estimaciones sobre cómo el número de parámetros (N) y tokens de entrenamiento (D) deberían establecerse para lograr la menor pérdida posible para un presupuesto de cómputo dado (C). Kaplan: Nₒptimal C^0. 73, Chinchilla: Nₒptimal C^0. 50. Esta nota encuentra que gran parte de esta discrepancia puede atribuirse a que Kaplan cuenta parámetros no de inversión en lugar de parámetros totales, combinado con su análisis realizado a pequeña escala. Simular el estudio de Chinchilla bajo estas condiciones produce coeficientes de escalado sesgados cercanos a los de Kaplan. Por lo tanto, esta nota reafirma los coeficientes de escalado de Chinchilla, explicando la causa de la sobreestimación original de Kaplan.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo