Los puntos clave no están disponibles para este artículo en este momento.
Cuando los Modelos de Lenguaje Grandes (LLMs) se comprimen utilizando técnicas como la cuantificación, la forma predominante de demostrar la validez de tales técnicas es midiendo la precisión del modelo en varios puntos de referencia. Si las precisiones del modelo base y del modelo comprimido son similares, se asume que hubo una degradación negligible en la calidad. Sin embargo, incluso cuando la precisión del modelo base y del modelo comprimido son similares, observamos el fenómeno de los cambios, donde las respuestas cambian de correctas a incorrectas y viceversa en proporción. Realizamos un estudio detallado de métricas a través de múltiples técnicas de compresión, modelos y conjuntos de datos, demostrando que el comportamiento de los modelos comprimidos, tal como es visible para los usuarios finales, es a menudo significativamente diferente del modelo base, incluso cuando la precisión es similar. Además, evaluamos los modelos comprimidos cualitativa y cuantitativamente utilizando MT-Bench y mostramos que los modelos comprimidos son significativamente peores que los modelos base en esta tarea generativa de forma libre. Por lo tanto, argumentamos que las técnicas de compresión también deberían evaluarse utilizando métricas de distancia. Proponemos dos métricas de este tipo, Divergencia KL y cambios, y mostramos que están bien correlacionadas.
Dutta et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: