Los puntos clave no están disponibles para este artículo en este momento.
Los Modelos de Lenguaje Grande (LLMs) desplegados en dispositivos de borde aprenden mediante microajustes y actualizando una cierta porción de sus parámetros. Aunque tales métodos de aprendizaje pueden optimizarse para reducir la utilización de recursos, los recursos generales requeridos siguen siendo una carga considerable en los dispositivos de borde. En su lugar, la Generación Aumentada por Recuperación (RAG), un método de aprendizaje de LLM eficiente en recursos, puede mejorar la calidad del contenido generado por el LLM sin actualizar los parámetros del modelo. Sin embargo, el LLM basado en RAG puede implicar búsquedas repetitivas en los datos de perfil en cada interacción usuario-LLM. Esta búsqueda puede conducir a una latencia significativa junto con la acumulación de datos de usuario. Los esfuerzos convencionales para disminuir la latencia resultan en restringir el tamaño de los datos de usuario guardados, lo que reduce la escalabilidad de RAG a medida que los datos de usuario crecen continuamente. Sigue siendo una pregunta abierta: ¿cómo liberar a RAG de las limitaciones de latencia y escalabilidad en los dispositivos de borde? En este trabajo, proponemos un marco novedoso para acelerar RAG a través de arquitecturas de Computación en Memoria (CiM). Acelera las multiplicaciones de matrices realizando cálculos in-situ dentro de la memoria mientras se evita la costosa transferencia de datos entre la unidad de computación y la memoria. Nuestro marco, RAG respaldado por CiM Robusto (RoCR), que utiliza un nuevo método de entrenamiento basado en aprendizaje contrastivo y entrenamiento consciente del ruido, puede permitir que RAG busque eficientemente datos de perfil con CiM. Hasta donde sabemos, este es el primer trabajo que utiliza CiM para acelerar RAG.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ruiyang Qin
University of Notre Dame
Zheyu Yan
University of Notre Dame
Dewen Zeng
Central South University
Building similarity graph...
Analyzing shared references across papers
Loading...
Qin et al. (Martes,) estudiaron esta cuestión.
synapsesocial.com/papers/68e6b4c2b6db643587635a8a — DOI: https://doi.org/10.48550/arxiv.2405.04700
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: