acf domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131all-in-one-seo-pack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131wp-user-avatar domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131The post Operacionalización de la generación mejorada por recuperación first appeared on Planeta Chatbot.
]]>Para mitigar este problema de alucinación, ha surgido como solución prometedora la generación aumentada por recuperación (RAG). Los métodos RAG pretenden mejorar la precisión y la base de conocimiento de los LLM incorporando información relevante de bases de conocimiento o corpus externos a la entrada del modelo lingüístico durante el proceso de generación. Esta información externa sirve como fuente de conocimiento complementaria, lo que permite al LLM generar respuestas más precisas, actualizadas y basadas en el conocimiento del mundo real.
Sin embargo, aunque los métodos RAG han demostrado su eficacia para mejorar la precisión de los LLM, también introducen una sobrecarga computacional y una latencia adicionales. El propio proceso de recuperación, que implica consultar y recuperar información relevante de bases de conocimientos potencialmente grandes, puede consumir muchos recursos. Además, la integración de la información recuperada en la entrada del LLM aumenta la longitud total del token, lo que conlleva mayores costes computacionales durante la fase de generación.
Un aspecto crítico que afecta significativamente a la eficiencia y eficacia de los sistemas RAG es decidir cuándo activar el proceso de recuperación. Activar indiscriminadamente la recuperación para cada consulta, independientemente de su complejidad o de las capacidades de conocimiento interno del LLM, puede generar una sobrecarga y una latencia computacionales innecesarias, especialmente en el caso de consultas sencillas que el LLM podría responder sin información externa.
En el mundo real, los usuarios plantean una amplia gama de consultas con distintos niveles de complejidad, desde preguntas sencillas basadas en hechos hasta complejas tareas de razonamiento en varios pasos que requieren sintetizar información de múltiples fuentes. Por lo tanto, es crucial optimizar el tiempo de recuperación para equilibrar precisión y eficiencia, minimizando la sobrecarga computacional para las consultas sencillas y asignando más recursos para las tareas complejas y de conocimiento intensivo.
En este artículo analizaremos dos investigaciones recientes que proponen técnicas innovadoras para abordar el reto de optimizar el tiempo de recuperación en los sistemas RAG: Adaptive-RAG y DRAGIN. Estos enfoques pretenden mejorar la eficiencia y eficacia generales de la RAG adaptando dinámicamente la estrategia de recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del LLM, respectivamente.

Los sistemas de generación aumentada por recuperación (RAG) suelen constar de dos componentes principales: un recuperador y un modelo lingüístico. El recuperador se encarga de obtener la información pertinente de una base de conocimientos o un corpus externo, mientras que el modelo lingüístico genera el resultado final integrando y razonando sobre la información recuperada.
El proceso de recuperación en sí puede ser costoso desde el punto de vista informático, sobre todo cuando se trata de bases de conocimiento o corpus a gran escala. Varios factores contribuyen a la sobrecarga asociada a la recuperación:
Una vez recuperada la información pertinente, hay que integrarla en la entrada del modelo lingüístico para su generación. Este proceso de integración también puede introducir costes computacionales adicionales:
Activar indiscriminadamente el proceso de recuperación para cada consulta, independientemente de su complejidad o de las capacidades internas de conocimiento del modelo lingüístico, puede dar lugar a importantes ineficiencias y a una sobrecarga computacional innecesaria. En el caso de las consultas sencillas que pueden responderse únicamente con los conocimientos paramétricos del modelo lingüístico, los costes adicionales de recuperación e integración pueden no aportar ningún beneficio tangible, lo que se traduce en un desperdicio de recursos informáticos y un aumento de la latencia.
Esta ineficacia se acentúa aún más en escenarios reales en los que los usuarios plantean una amplia gama de consultas, desde preguntas sencillas basadas en hechos hasta complejas tareas de razonamiento en varios pasos que requieren sintetizar información procedente de múltiples fuentes. Tratar todas las consultas por igual y aplicar la misma estrategia de recuperación aumentada puede conducir a un rendimiento subóptimo, tanto en términos de precisión como de eficiencia.
Para hacer frente a estas ineficiencias, es crucial optimizar el momento de la recuperación en los sistemas RAG, activando selectivamente el proceso de recuperación sólo cuando sea necesario y pueda mejorar potencialmente el rendimiento del modelo lingüístico. Al determinar de forma inteligente el momento de la recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del modelo lingüístico, los sistemas RAG pueden lograr un equilibrio entre precisión y eficiencia, minimizando la sobrecarga computacional en las consultas sencillas y asignando más recursos a las tareas complejas que requieren un uso intensivo de conocimientos.
Reconociendo la ineficacia de la recuperación indiscriminada y la necesidad de un enfoque adaptativo que adapte la estrategia de recuperación a la complejidad de cada consulta, los investigadores propusieron Adaptive-RAG (Adaptive Retrieval-Augmented Generation).
El núcleo de Adaptive-RAG es un componente novedoso denominado «clasificador de complejidad de consultas», que es un modelo lingüístico más pequeño entrenado específicamente para predecir el nivel de complejidad de las consultas entrantes. Este clasificador desempeña un papel crucial en la naturaleza adaptativa del marco.
El clasificador de la complejidad de las consultas las clasifica en tres niveles distintos:
Para entrenar el clasificador de la complejidad de la consulta, Adaptive-RAG emplea un proceso automatizado que aprovecha los resultados reales previstos de diferentes estrategias LLM de recuperación aumentada y los sesgos inductivos inherentes presentes en los conjuntos de datos de referencia.
En concreto, el proceso de formación consta de los siguientes pasos:
Una vez entrenado, el clasificador de complejidad de consultas puede predecir el nivel de complejidad de cualquier consulta entrante durante el tiempo de inferencia.
En función del nivel de complejidad previsto, Adaptive-RAG selecciona dinámicamente la estrategia más adecuada para gestionar la consulta:
Esta naturaleza adaptativa permite a Adaptive-RAG alcanzar un equilibrio entre precisión y eficacia. Para consultas sencillas, minimiza la carga computacional evitando recuperaciones innecesarias, mientras que para consultas complejas, asigna más recursos para recuperar e integrar el conocimiento externo necesario, mejorando la precisión de los resultados del modelo lingüístico.
Mediante experimentos exhaustivos en varios conjuntos de datos de dominios abiertos de respuesta a preguntas, Adaptive-RAG demostró un rendimiento superior al de las líneas de base existentes, mostrando su capacidad para adaptar eficazmente las estrategias de recuperación en función de la complejidad de la consulta, lo que se traduce en una mejora de la eficiencia y la precisión generales.
DRAGIN (Dynamic Retrieval Augmented Generation based on the real-time Information Needs of Large Language Models) aborda el reto de optimizar cuándo y qué recuperar durante la recuperación-generación aumentada.
DRAGIN introduce dos componentes innovadores clave:
El componente RIND determina el momento óptimo para activar el módulo de recuperación durante el proceso de generación analizando las necesidades de información en tiempo real del modelo lingüístico. Para ello, tiene en cuenta tres factores para cada token generado:
Combinando estos tres factores, RIND calcula una puntuación global para cada token que representa la necesidad de información en tiempo real del modelo lingüístico. Si esta puntuación supera un umbral predefinido para cualquier token durante la generación, se activa el módulo de recuperación.
Una vez que RIND determina el momento óptimo para la recuperación, entra en juego el componente QFS para formular una consulta eficaz que permita recuperar información relevante de bases de conocimiento o corpus externos.
A diferencia de los enfoques existentes, que se basan únicamente en tokens u oraciones recientes para formular consultas, QFS aprovecha el mecanismo de autoatención para captar las necesidades de información del modelo lingüístico en todo el contexto. Para ello:
Este enfoque garantiza que la consulta refleje los aspectos más relevantes del contexto determinados por el mecanismo de autoatención del modelo lingüístico, capturando las necesidades de información en tiempo real de forma más exhaustiva que los métodos que sólo tienen en cuenta los tokens o las frases recientes.
Mediante experimentos exhaustivos en varios conjuntos de datos de generación intensiva de conocimiento, como 2WikiMultihopQA, HotpotQA, IIRC y StrategyQA, DRAGIN demostró un rendimiento superior al de las líneas de base existentes, incluidos los enfoques de recuperación adaptativa.
Al optimizar tanto el momento de la recuperación (a través de RIND) como el proceso de formulación de la consulta (a través de QFS), DRAGIN equilibra eficazmente la precisión y la eficiencia en la generación de recuperación aumentada. Minimiza la recuperación innecesaria de tokens o contextos en los que el modelo lingüístico tiene conocimientos suficientes, al tiempo que prioriza la recuperación y formula consultas eficaces cuando las necesidades de información en tiempo real exigen conocimientos externos.
Los innovadores componentes de DRAGIN, RIND y QFS, aprovechan el funcionamiento interno de los LLM basados en Transformer, como las distribuciones de probabilidad de los tokens y los mecanismos de autoatención, para adaptar dinámicamente el proceso de recuperación a las necesidades de información en tiempo real del modelo lingüístico, lo que se traduce en una mejora del rendimiento general en tareas de generación intensivas en conocimiento.
Los esfuerzos de investigación de Adaptive-RAG y DRAGIN ponen de relieve la importancia primordial de optimizar el momento de la recuperación a la hora de poner en funcionamiento los sistemas de generación de recuperación aumentada. Al determinar de forma inteligente cuándo activar el proceso de recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del LLM, estos enfoques evitan una sobrecarga computacional y una latencia innecesarias para las consultas sencillas, al tiempo que asignan más recursos para las tareas complejas y de conocimiento intensivo.
A medida que los LLM sigan encontrando aplicaciones en diversos ámbitos, desde la respuesta a preguntas hasta las tareas de generación abiertas, la capacidad de integrar de forma eficiente y eficaz el conocimiento externo será cada vez más crucial. Las técnicas como las propuestas en Adaptive-RAG y DRAGIN no sólo mejoran la precisión y la eficiencia general de los sistemas basados en LLM, sino que también allanan el camino para un despliegue más práctico y escalable de la generación aumentada por recuperación en escenarios del mundo real.
Aunque estos esfuerzos de investigación han dado pasos significativos, aún quedan vías para seguir mejorando. Los trabajos futuros podrían explorar clasificadores más avanzados de la complejidad de las consultas, incorporar fuentes de información multimodales o investigar métodos de optimización integral de los procesos de recuperación y generación. Además, a medida que los LLM sigan evolucionando y se vuelvan más capaces, los límites entre las consultas simples y complejas pueden cambiar, lo que requerirá técnicas adaptativas que puedan ajustarse sin problemas a estos paisajes cambiantes.
En conclusión, la optimización de la sincronización de la recuperación es un aspecto crítico de la puesta en funcionamiento de los sistemas de generación aumentados por recuperación. Al adaptar la estrategia de recuperación a la complejidad o a las necesidades de información de cada consulta, enfoques como Adaptive-RAG y DRAGIN demuestran el potencial para mejorar tanto la precisión como la eficiencia de los sistemas basados en LLM, allanando el camino para despliegues más prácticos y escalables en diversas aplicaciones del mundo real.
The post Operacionalización de la generación mejorada por recuperación first appeared on Planeta Chatbot.
]]>The post Long context LLM’s para tareas complejas: Desbloqueo de capacidades con recuperación selectiva first appeared on Planeta Chatbot.
]]>Sin embargo, no basta con ampliar la longitud de los contextos.
A pesar de los impresionantes tamaños de las ventanas de contexto, cada vez son más las investigaciones que revelan limitaciones críticas en la capacidad de los LLM actuales para aprovechar realmente estos contextos ampliados de forma eficaz. El simple aumento del tamaño de los modelos y de la longitud de los contextos no se traduce automáticamente en una mejora del rendimiento en tareas que requieren una comprensión y un razonamiento profundos en contextos extensos. Varios estudios clave han puesto de manifiesto estas deficiencias:
Uno de los enfoques más utilizados con modelos lingüísticos de gran tamaño es el «few-shots learning» o el aprendizaje en contexto, en el que los modelos se condicionan a una secuencia de ejemplos para aprender y realizar una nueva tarea de una manera eficiente desde el punto de vista de los datos. Sin embargo, un estudio reciente titulado «Long-context LLMs Struggle with Long In-context Learning» ha revelado las limitaciones críticas de los LLM actuales cuando este paradigma de aprendizaje en contexto implica secuencias que abarcan miles de tokens y más.
Los investigadores introdujeron un nuevo punto de referencia denominado LongICLBench para evaluar sistemáticamente el rendimiento de los LLM en tareas extremas de clasificación de textos con múltiples etiquetas que se basan en largas demostraciones en contexto que abarcan diversos conjuntos de datos y miles de etiquetas únicas. Probaron exhaustivamente 13 LLM’s de última generación, incluidos GPT-4, PaLM y otros modelos comerciales y de código abierto, en tareas con longitudes de contexto que oscilaban entre 2.000 y 50.000 tokens.
Los resultados pusieron de manifiesto deficiencias notables en la capacidad de los LLM para aprovechar el aprendizaje en contexto ampliado a lo largo de secuencias largas:
Los investigadores plantearon la hipótesis de que, si bien los LLM destacan en el procesamiento de contextos locales, sus arquitecturas de autoatención se enfrentan a cuellos de botella a la hora de mantener mapeados coherentes a lo largo de secuencias ultralargas durante el condicionamiento de «few shots» sobre distribuciones complejas.
Este estudio subraya que no basta con escalar la longitud de los contextos, sino que pueden ser necesarias nuevas innovaciones arquitectónicas, como módulos de memoria explícita o atenciones dispersas, para mejorar el razonamiento de los LLM en demostraciones contextuales ampliadas con múltiples ejemplos, cruciales en ámbitos como el análisis jurídico.
El LongICLBench pone de relieve un área clave de investigación futura para liberar todo el potencial de los LLM en el «few shots learning» sobre contextos largos de diversas fuentes. La superación de estas limitaciones podría ser fundamental para una comprensión robusta de contextos extensos y sistemas de generación mejorados para la recuperación.
Aunque estas limitaciones puedan parecer desalentadoras, en realidad arrojan luz sobre los retos y requisitos clave que deben abordarse para aprovechar todo el potencial de los LLM en aplicaciones complejas de contexto largo o long context.
En lugar de aumentar indiscriminadamente la longitud de los contextos, cada vez está más claro que es crucial una recuperación de información más específica y una representación estructurada de la información relevante. No basta con proporcionar más contexto: los modelos necesitan orientación para aislar los elementos precisos de información pertinentes para la tarea en cuestión, filtrando al mismo tiempo los contenidos que distraen.
Combinación de LLM con representaciones estructuradas del conocimiento. Los métodos tradicionales de recuperación de la información basados únicamente en la relevancia textual pueden resultar inadecuados para el razonamiento complejo y multipaso en contextos extensos. Las representaciones estructuradas del conocimiento, como los grafos de conocimiento, pueden proporcionar sesgos inductivos que se ajusten mejor a los patrones de razonamiento subyacentes y codificar las relaciones semánticas de forma más transparente que el texto en bruto.
Cambios de paradigma: Del escalado al razonamiento aumentado. En última instancia, para seguir avanzando en el aprovechamiento de contextos extensos con los LLM probablemente se necesiten cambios de paradigma que vayan más allá del simple aumento de las ventanas de contexto y el tamaño de los modelos. Se necesitan nuevas arquitecturas que combinen la flexibilidad y la amplia cobertura de los LLM con capacidades de razonamiento basado en principios sobre representaciones estructuradas del conocimiento.
Para aprovechar al máximo el potencial de las grandes ventanas de contexto, lo que se necesita es una recuperación más selectiva y una representación estructurada de sólo la información más pertinente para una tarea determinada. En lugar de abrumar a los LLM con contextos exhaustivos, necesitan orientación en forma de:
Al proporcionar a los LLM un contexto cuidadosamente elaborado y organizado, específico para los requisitos de la tarea, pueden superar limitaciones como el escaso recuerdo de la información relevante y la vulnerabilidad a los efectos de orden/premisa.
Esta necesidad de recuperación y representación específicas refuerza los argumentos a favor de los marcos de recuperación y generación mejorada (RAG). Los sistemas RAG combinan dos componentes:
Al delegar la recuperación de información pertinente en un módulo especializado, los marcos RAG pueden proporcionar a los LLM contextos centrados y adaptados a la tarea actual. De este modo, se evita que el LLM se atasque con un exceso de información irrelevante en contextos exhaustivos.
Sin embargo, los métodos tradicionales de RAG que se basan únicamente en la recuperación de información a partir de señales de relevancia textual pueden seguir siendo insuficientes para soportar razonamientos complejos de varios pasos en contextos largos. La similitud textual sólo capta las asociaciones superficiales y no representa la semántica, las relaciones y la lógica subyacentes necesarias para «unir los puntos» de forma eficaz en el razonamiento.
Para que el razonamiento en contextos amplios sea realmente sólido, los marcos de RAG deben ir más allá de la recuperación textual e incorporar representaciones estructuradas del conocimiento que puedan restringir y andamiar el proceso de razonamiento de los LLM.
Las representaciones estructuradas del conocimiento, como los grafos de conocimiento, ofrecen una solución prometedora. Los grafos de conocimiento modelan la información como entidades/conceptos y sus interrelaciones siguiendo ontologías/esquemas formales. Esta estructura de representación ofrece varias ventajas clave:
Si se amplían los marcos RAG para recuperar y operar sobre grafos de conocimiento estructurados en lugar de sólo sobre texto, se podría proporcionar a los LLM contextos que codifiquen de forma transparente la semántica, las restricciones y los sesgos inductivos para guiar mejor el razonamiento sobre contextos largos con menos ruido.
En esencia, la recuperación selectiva de representaciones de conocimiento estructurado podría ser la clave para que los LLM aprovechen al máximo sus capacidades de gran contexto en tareas que requieran un razonamiento robusto en varios pasos y la síntesis de conocimiento a partir de diversas fuentes. Es probable que las soluciones fusionen la amplia cobertura de los LLM con los conocimientos de la representación del conocimiento y el razonamiento automatizado. Este paradigma estructurado de RAG representa una dirección prometedora para maximizar la comprensión de contextos largos en los LLM.
Las limitaciones señaladas ponen de manifiesto que para seguir avanzando en la IA de contexto amplio no basta con aumentar las ventanas de contexto y el tamaño de los modelos. Se necesitan nuevos paradigmas que combinen grandes modelos lingüísticos con capacidades de razonamiento basados en principios sobre representaciones estructuradas.
Esto podría implicar aumentar los LLM generativos con módulos especializados de «razonamiento» que intercalen la recuperación, el razonamiento en varios pasos y la generación de una manera interpretable. Tomar prestadas ideas de campos como la representación del conocimiento y el razonamiento automatizado podría dar resultados.
Esencialmente, el camino a seguir probablemente combine la flexibilidad y la amplia cobertura de los grandes modelos lingüísticos con la estructura, la transparencia y las posibilidades de composición de los sistemas de razonamiento simbólico. Sólo mediante arquitecturas unificadas de este tipo podremos desarrollar sistemas de IA capaces de comprender en profundidad y razonar sobre entornos ricos en información a gran escala.
Esta nueva frontera en la intersección de los grandes modelos lingüísticos y el razonamiento estructurado está repleta de oportunidades para la innovación. Aunque la ampliación de las longitudes de contexto ha dado el pistoletazo de salida, para liberar todo el potencial de la IA de contexto largo será necesario adoptar la recuperación y la representación inteligentes. Las soluciones darán forma a asistentes de IA fiables, transparentes y robustos que puedan navegar por fin por nuestros cada vez más complejos entornos de información.
The post Long context LLM’s para tareas complejas: Desbloqueo de capacidades con recuperación selectiva first appeared on Planeta Chatbot.
]]>