Anthony Alcaraz - Planeta Chatbot

Para mitigar este problema de alucinación, ha surgido como solución prometedora la generación aumentada por recuperación (RAG). Los métodos RAG pretenden mejorar la precisión y la base de conocimiento de los LLM incorporando información relevante de bases de conocimiento o corpus externos a la entrada del modelo lingüístico durante el proceso de generación. Esta información externa sirve como fuente de conocimiento complementaria, lo que permite al LLM generar respuestas más precisas, actualizadas y basadas en el conocimiento del mundo real.

Sin embargo, aunque los métodos RAG han demostrado su eficacia para mejorar la precisión de los LLM, también introducen una sobrecarga computacional y una latencia adicionales. El propio proceso de recuperación, que implica consultar y recuperar información relevante de bases de conocimientos potencialmente grandes, puede consumir muchos recursos. Además, la integración de la información recuperada en la entrada del LLM aumenta la longitud total del token, lo que conlleva mayores costes computacionales durante la fase de generación.

Un aspecto crítico que afecta significativamente a la eficiencia y eficacia de los sistemas RAG es decidir cuándo activar el proceso de recuperación. Activar indiscriminadamente la recuperación para cada consulta, independientemente de su complejidad o de las capacidades de conocimiento interno del LLM, puede generar una sobrecarga y una latencia computacionales innecesarias, especialmente en el caso de consultas sencillas que el LLM podría responder sin información externa.

En el mundo real, los usuarios plantean una amplia gama de consultas con distintos niveles de complejidad, desde preguntas sencillas basadas en hechos hasta complejas tareas de razonamiento en varios pasos que requieren sintetizar información de múltiples fuentes. Por lo tanto, es crucial optimizar el tiempo de recuperación para equilibrar precisión y eficiencia, minimizando la sobrecarga computacional para las consultas sencillas y asignando más recursos para las tareas complejas y de conocimiento intensivo.

En este artículo analizaremos dos investigaciones recientes que proponen técnicas innovadoras para abordar el reto de optimizar el tiempo de recuperación en los sistemas RAG: Adaptive-RAG y DRAGIN. Estos enfoques pretenden mejorar la eficiencia y eficacia generales de la RAG adaptando dinámicamente la estrategia de recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del LLM, respectivamente.

El coste de la recuperación indiscriminada

Los sistemas de generación aumentada por recuperación (RAG) suelen constar de dos componentes principales: un recuperador y un modelo lingüístico. El recuperador se encarga de obtener la información pertinente de una base de conocimientos o un corpus externo, mientras que el modelo lingüístico genera el resultado final integrando y razonando sobre la información recuperada.

El proceso de recuperación en sí puede ser costoso desde el punto de vista informático, sobre todo cuando se trata de bases de conocimiento o corpus a gran escala. Varios factores contribuyen a la sobrecarga asociada a la recuperación:

Una vez recuperada la información pertinente, hay que integrarla en la entrada del modelo lingüístico para su generación. Este proceso de integración también puede introducir costes computacionales adicionales:

Activar indiscriminadamente el proceso de recuperación para cada consulta, independientemente de su complejidad o de las capacidades internas de conocimiento del modelo lingüístico, puede dar lugar a importantes ineficiencias y a una sobrecarga computacional innecesaria. En el caso de las consultas sencillas que pueden responderse únicamente con los conocimientos paramétricos del modelo lingüístico, los costes adicionales de recuperación e integración pueden no aportar ningún beneficio tangible, lo que se traduce en un desperdicio de recursos informáticos y un aumento de la latencia.

Esta ineficacia se acentúa aún más en escenarios reales en los que los usuarios plantean una amplia gama de consultas, desde preguntas sencillas basadas en hechos hasta complejas tareas de razonamiento en varios pasos que requieren sintetizar información procedente de múltiples fuentes. Tratar todas las consultas por igual y aplicar la misma estrategia de recuperación aumentada puede conducir a un rendimiento subóptimo, tanto en términos de precisión como de eficiencia.

Para hacer frente a estas ineficiencias, es crucial optimizar el momento de la recuperación en los sistemas RAG, activando selectivamente el proceso de recuperación sólo cuando sea necesario y pueda mejorar potencialmente el rendimiento del modelo lingüístico. Al determinar de forma inteligente el momento de la recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del modelo lingüístico, los sistemas RAG pueden lograr un equilibrio entre precisión y eficiencia, minimizando la sobrecarga computacional en las consultas sencillas y asignando más recursos a las tareas complejas que requieren un uso intensivo de conocimientos.

Adaptive-RAG: adaptar las estrategias de recuperación a la complejidad de la consulta

Reconociendo la ineficacia de la recuperación indiscriminada y la necesidad de un enfoque adaptativo que adapte la estrategia de recuperación a la complejidad de cada consulta, los investigadores propusieron Adaptive-RAG (Adaptive Retrieval-Augmented Generation).

El núcleo de Adaptive-RAG es un componente novedoso denominado «clasificador de complejidad de consultas», que es un modelo lingüístico más pequeño entrenado específicamente para predecir el nivel de complejidad de las consultas entrantes. Este clasificador desempeña un papel crucial en la naturaleza adaptativa del marco.

El clasificador de la complejidad de las consultas las clasifica en tres niveles distintos:

Para entrenar el clasificador de la complejidad de la consulta, Adaptive-RAG emplea un proceso automatizado que aprovecha los resultados reales previstos de diferentes estrategias LLM de recuperación aumentada y los sesgos inductivos inherentes presentes en los conjuntos de datos de referencia.

Una vez entrenado, el clasificador de complejidad de consultas puede predecir el nivel de complejidad de cualquier consulta entrante durante el tiempo de inferencia.

En función del nivel de complejidad previsto, Adaptive-RAG selecciona dinámicamente la estrategia más adecuada para gestionar la consulta:

Esta naturaleza adaptativa permite a Adaptive-RAG alcanzar un equilibrio entre precisión y eficacia. Para consultas sencillas, minimiza la carga computacional evitando recuperaciones innecesarias, mientras que para consultas complejas, asigna más recursos para recuperar e integrar el conocimiento externo necesario, mejorando la precisión de los resultados del modelo lingüístico.

Mediante experimentos exhaustivos en varios conjuntos de datos de dominios abiertos de respuesta a preguntas, Adaptive-RAG demostró un rendimiento superior al de las líneas de base existentes, mostrando su capacidad para adaptar eficazmente las estrategias de recuperación en función de la complejidad de la consulta, lo que se traduce en una mejora de la eficiencia y la precisión generales.

DRAGIN: Optimización de la recuperación basada en las necesidades de información en tiempo real

DRAGIN (Dynamic Retrieval Augmented Generation based on the real-time Information Needs of Large Language Models) aborda el reto de optimizar cuándo y qué recuperar durante la recuperación-generación aumentada.

Detección de Necesidades de Información en Tiempo Real (RIND).
Formulación de consultas basada en la autoatención (QFS).

Detección de necesidades de información en tiempo real (RIND)

El componente RIND determina el momento óptimo para activar el módulo de recuperación durante el proceso de generación analizando las necesidades de información en tiempo real del modelo lingüístico. Para ello, tiene en cuenta tres factores para cada token generado:

Incertidumbre: El RIND cuantifica la incertidumbre de cada token registrando la entropía de su distribución de probabilidad en el vocabulario. Una entropía más alta implica una mayor incertidumbre y la necesidad potencial de información externa.
Importancia: RIND aprovecha el mecanismo de autoatención de los LLM basados en transformadores para asignar pesos a los tokens en función de su impacto en el contexto posterior. Los tokens con mayor atención se consideran más importantes.
Importancia semántica: El RIND emplea un indicador semántico binario para filtrar las palabras vacías y centrarse en los tokens semánticamente significativos, ya que es menos probable que las palabras vacías requieran información externa.

Combinando estos tres factores, RIND calcula una puntuación global para cada token que representa la necesidad de información en tiempo real del modelo lingüístico. Si esta puntuación supera un umbral predefinido para cualquier token durante la generación, se activa el módulo de recuperación.

Formulación de consultas basadas en la autoatención (QFS)

Una vez que RIND determina el momento óptimo para la recuperación, entra en juego el componente QFS para formular una consulta eficaz que permita recuperar información relevante de bases de conocimiento o corpus externos.

A diferencia de los enfoques existentes, que se basan únicamente en tokens u oraciones recientes para formular consultas, QFS aprovecha el mecanismo de autoatención para captar las necesidades de información del modelo lingüístico en todo el contexto. Para ello:

Evaluando los pesos de la atención en toda la secuencia de tokens precedente para la posición de recuperación identificada.
Prioriza los tokens en función de sus puntuaciones de atención y selecciona los n tokens con las puntuaciones más altas.
Construye la consulta a partir de las palabras correspondientes a estas n palabras principales, ordenadas en el orden original de la secuencia de entrada.

Este enfoque garantiza que la consulta refleje los aspectos más relevantes del contexto determinados por el mecanismo de autoatención del modelo lingüístico, capturando las necesidades de información en tiempo real de forma más exhaustiva que los métodos que sólo tienen en cuenta los tokens o las frases recientes.

Mediante experimentos exhaustivos en varios conjuntos de datos de generación intensiva de conocimiento, como 2WikiMultihopQA, HotpotQA, IIRC y StrategyQA, DRAGIN demostró un rendimiento superior al de las líneas de base existentes, incluidos los enfoques de recuperación adaptativa.

Al optimizar tanto el momento de la recuperación (a través de RIND) como el proceso de formulación de la consulta (a través de QFS), DRAGIN equilibra eficazmente la precisión y la eficiencia en la generación de recuperación aumentada. Minimiza la recuperación innecesaria de tokens o contextos en los que el modelo lingüístico tiene conocimientos suficientes, al tiempo que prioriza la recuperación y formula consultas eficaces cuando las necesidades de información en tiempo real exigen conocimientos externos.

Los innovadores componentes de DRAGIN, RIND y QFS, aprovechan el funcionamiento interno de los LLM basados en Transformer, como las distribuciones de probabilidad de los tokens y los mecanismos de autoatención, para adaptar dinámicamente el proceso de recuperación a las necesidades de información en tiempo real del modelo lingüístico, lo que se traduce en una mejora del rendimiento general en tareas de generación intensivas en conocimiento.

La importancia de optimizar el momento de la recuperación

Los esfuerzos de investigación de Adaptive-RAG y DRAGIN ponen de relieve la importancia primordial de optimizar el momento de la recuperación a la hora de poner en funcionamiento los sistemas de generación de recuperación aumentada. Al determinar de forma inteligente cuándo activar el proceso de recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del LLM, estos enfoques evitan una sobrecarga computacional y una latencia innecesarias para las consultas sencillas, al tiempo que asignan más recursos para las tareas complejas y de conocimiento intensivo.

A medida que los LLM sigan encontrando aplicaciones en diversos ámbitos, desde la respuesta a preguntas hasta las tareas de generación abiertas, la capacidad de integrar de forma eficiente y eficaz el conocimiento externo será cada vez más crucial. Las técnicas como las propuestas en Adaptive-RAG y DRAGIN no sólo mejoran la precisión y la eficiencia general de los sistemas basados en LLM, sino que también allanan el camino para un despliegue más práctico y escalable de la generación aumentada por recuperación en escenarios del mundo real.

Aunque estos esfuerzos de investigación han dado pasos significativos, aún quedan vías para seguir mejorando. Los trabajos futuros podrían explorar clasificadores más avanzados de la complejidad de las consultas, incorporar fuentes de información multimodales o investigar métodos de optimización integral de los procesos de recuperación y generación. Además, a medida que los LLM sigan evolucionando y se vuelvan más capaces, los límites entre las consultas simples y complejas pueden cambiar, lo que requerirá técnicas adaptativas que puedan ajustarse sin problemas a estos paisajes cambiantes.

En conclusión, la optimización de la sincronización de la recuperación es un aspecto crítico de la puesta en funcionamiento de los sistemas de generación aumentados por recuperación. Al adaptar la estrategia de recuperación a la complejidad o a las necesidades de información de cada consulta, enfoques como Adaptive-RAG y DRAGIN demuestran el potencial para mejorar tanto la precisión como la eficiencia de los sistemas basados en LLM, allanando el camino para despliegues más prácticos y escalables en diversas aplicaciones del mundo real.

El coste de la recuperación indiscriminada

Adaptive-RAG: adaptar las estrategias de recuperación a la complejidad de la consulta

DRAGIN: Optimización de la recuperación basada en las necesidades de información en tiempo real

Detección de necesidades de información en tiempo real (RIND)

Formulación de consultas basadas en la autoatención (QFS)

La importancia de optimizar el momento de la recuperación

Degradación en el aprendizaje en contexto prolongado

Retos y requisitos para aprovechar los Long Context LLMs

Recuperación selectiva en lugar de ingestión exhaustiva del contexto

El caso de la generación aumentada por recuperación (RAG)

Limitaciones de la actual RAG sobre la relevancia textual

Representaciones estructuradas del conocimiento para el razonamiento

Cambio de paradigma: del escalado al razonamiento aumentado