Los puntos clave no están disponibles para este artículo en este momento.
Kaplan et al. 2020 (`Kaplan') y Hoffmann et al. 2022 (`Chinchilla') estudiaron el comportamiento de escalado de los transformadores entrenados en la predicción del siguiente token de lenguaje. Estos estudios produjeron diferentes estimaciones sobre cómo el número de parámetros (N) y tokens de entrenamiento (D) deberían establecerse para lograr la menor pérdida posible para un presupuesto de cómputo dado (C). Kaplan: Nₒptimal C^0. 73, Chinchilla: Nₒptimal C^0. 50. Esta nota encuentra que gran parte de esta discrepancia puede atribuirse a que Kaplan cuenta parámetros no de inversión en lugar de parámetros totales, combinado con su análisis realizado a pequeña escala. Simular el estudio de Chinchilla bajo estas condiciones produce coeficientes de escalado sesgados cercanos a los de Kaplan. Por lo tanto, esta nota reafirma los coeficientes de escalado de Chinchilla, explicando la causa de la sobreestimación original de Kaplan.
Pearce et al. (Wed,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: