May 7, 2024Open Access

Implementación Robusta de Generación Aumentada por Recuperación en Arquitecturas de Computación en Memoria Basadas en el Borde

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los Modelos de Lenguaje Grande (LLMs) desplegados en dispositivos de borde aprenden mediante microajustes y actualizando una cierta porción de sus parámetros. Aunque tales métodos de aprendizaje pueden optimizarse para reducir la utilización de recursos, los recursos generales requeridos siguen siendo una carga considerable en los dispositivos de borde. En su lugar, la Generación Aumentada por Recuperación (RAG), un método de aprendizaje de LLM eficiente en recursos, puede mejorar la calidad del contenido generado por el LLM sin actualizar los parámetros del modelo. Sin embargo, el LLM basado en RAG puede implicar búsquedas repetitivas en los datos de perfil en cada interacción usuario-LLM. Esta búsqueda puede conducir a una latencia significativa junto con la acumulación de datos de usuario. Los esfuerzos convencionales para disminuir la latencia resultan en restringir el tamaño de los datos de usuario guardados, lo que reduce la escalabilidad de RAG a medida que los datos de usuario crecen continuamente. Sigue siendo una pregunta abierta: ¿cómo liberar a RAG de las limitaciones de latencia y escalabilidad en los dispositivos de borde? En este trabajo, proponemos un marco novedoso para acelerar RAG a través de arquitecturas de Computación en Memoria (CiM). Acelera las multiplicaciones de matrices realizando cálculos in-situ dentro de la memoria mientras se evita la costosa transferencia de datos entre la unidad de computación y la memoria. Nuestro marco, RAG respaldado por CiM Robusto (RoCR), que utiliza un nuevo método de entrenamiento basado en aprendizaje contrastivo y entrenamiento consciente del ruido, puede permitir que RAG busque eficientemente datos de perfil con CiM. Hasta donde sabemos, este es el primer trabajo que utiliza CiM para acelerar RAG.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ruiyang Qin

University of Notre Dame

Zheyu Yan

University of Notre Dame

Dewen Zeng

Central South University

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Implementación Robusta de Generación Aumentada por Recuperación en Arquitecturas de Computación en Memoria Basadas en el Borde

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider