May 23, 2024

Demostrando CAESURA: Modelos de Lenguaje como Planificadores de Consultas Multi-Modales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En muchos dominios, los datos multi-modales juegan un papel importante y los modernos sistemas de respuesta a preguntas basados en LLMs permiten a los usuarios consultar estos datos utilizando simples consultas en lenguaje natural. La Generación Aumentada por Recuperación (RAG) es un enfoque reciente que extiende los Modelos de Lenguaje Grande (LLM) con tecnología de bases de datos para habilitar dichos sistemas de QA multi-modales. En RAG, primero se recupera datos relevantes de una base de datos vectorial y luego se alimentan a un LLM que computa el resultado de la consulta. Sin embargo, los enfoques basados en RAG tienen graves problemas, como en términos de eficiencia y escalabilidad, ya que los LLMs tienen altos costos de inferencia y solo pueden procesar cantidades limitadas de datos. Por lo tanto, en este artículo de demostración, proponemos CAESURA, un enfoque primero de base de datos que extiende las bases de datos con LLMs. La idea principal es que CAESURA utiliza las capacidades de razonamiento de los LLMs para traducir consultas en lenguaje natural en planes de ejecución. Usar tales planes de ejecución permite a CAESURA procesar datos multi-modales fuera del LLM usando operadores de consulta y estrategias de optimización que se basan en estrategias de ejecución de consultas escalables de bases de datos. Nuestra demostración permite a los usuarios experimentar CAESURA en dos conjuntos de datos de ejemplo que contienen tablas, textos e imágenes.

Me gusta

Guardar

Me gusta

Guardar

Demostrando CAESURA: Modelos de Lenguaje como Planificadores de Consultas Multi-Modales

Puntos clave

Resumen

Cite This Study