Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the acf domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the all-in-one-seo-pack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wp-user-avatar domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131

Warning: Cannot modify header information - headers already sent by (output started at /home/planetac/desa.planetachatbot.com/wp-includes/functions.php:6131) in /home/planetac/desa.planetachatbot.com/wp-content/plugins/all-in-one-seo-pack/app/Common/Meta/Robots.php on line 87

Warning: Cannot modify header information - headers already sent by (output started at /home/planetac/desa.planetachatbot.com/wp-includes/functions.php:6131) in /home/planetac/desa.planetachatbot.com/wp-includes/feed-rss2.php on line 8
Anthony Alcaraz - Planeta Chatbot https://desa.planetachatbot.com Comunidad de expertos en IA Conversacional Mon, 27 May 2024 11:11:35 +0000 es hourly 1 https://wordpress.org/?v=6.9.4 https://desa.planetachatbot.com/wp-content/uploads/2021/05/cropped-favicon-32x32.png Anthony Alcaraz - Planeta Chatbot https://desa.planetachatbot.com 32 32 Operacionalización de la generación mejorada por recuperación https://desa.planetachatbot.com/operacionalizacion-de-generacion-mejorada-por-recuperacion/?utm_source=rss&utm_medium=rss&utm_campaign=operacionalizacion-de-generacion-mejorada-por-recuperacion https://desa.planetachatbot.com/operacionalizacion-de-generacion-mejorada-por-recuperacion/#respond Wed, 29 May 2024 06:00:23 +0000 https://desa.planetachatbot.com/?p=17759 A medida que han ido aumentando sus capacidades, los modelos lingüísticos de gran tamaño (LLM) han encontrado numerosas aplicaciones en diversos ámbitos, como la respuesta a preguntas, la generación de textos y las tareas de análisis. Sin embargo, a pesar de su impresionante rendimiento, los LLM a menudo adolecen del problema de la alucinación, por […]

The post Operacionalización de la generación mejorada por recuperación first appeared on Planeta Chatbot.

]]>
A medida que han ido aumentando sus capacidades, los modelos lingüísticos de gran tamaño (LLM) han encontrado numerosas aplicaciones en diversos ámbitos, como la respuesta a preguntas, la generación de textos y las tareas de análisis. Sin embargo, a pesar de su impresionante rendimiento, los LLM a menudo adolecen del problema de la alucinación, por el que generan textos que parecen coherentes y plausibles pero que contienen inexactitudes factuales o contradicen el conocimiento del mundo real. Esta limitación se debe a que el conocimiento de los LLM se deriva principalmente de los datos de texto con los que fueron entrenados, que pueden estar incompletos, desfasados o sesgados.

Para mitigar este problema de alucinación, ha surgido como solución prometedora la generación aumentada por recuperación (RAG). Los métodos RAG pretenden mejorar la precisión y la base de conocimiento de los LLM incorporando información relevante de bases de conocimiento o corpus externos a la entrada del modelo lingüístico durante el proceso de generación. Esta información externa sirve como fuente de conocimiento complementaria, lo que permite al LLM generar respuestas más precisas, actualizadas y basadas en el conocimiento del mundo real.

Sin embargo, aunque los métodos RAG han demostrado su eficacia para mejorar la precisión de los LLM, también introducen una sobrecarga computacional y una latencia adicionales. El propio proceso de recuperación, que implica consultar y recuperar información relevante de bases de conocimientos potencialmente grandes, puede consumir muchos recursos. Además, la integración de la información recuperada en la entrada del LLM aumenta la longitud total del token, lo que conlleva mayores costes computacionales durante la fase de generación.

Un aspecto crítico que afecta significativamente a la eficiencia y eficacia de los sistemas RAG es decidir cuándo activar el proceso de recuperación. Activar indiscriminadamente la recuperación para cada consulta, independientemente de su complejidad o de las capacidades de conocimiento interno del LLM, puede generar una sobrecarga y una latencia computacionales innecesarias, especialmente en el caso de consultas sencillas que el LLM podría responder sin información externa.

En el mundo real, los usuarios plantean una amplia gama de consultas con distintos niveles de complejidad, desde preguntas sencillas basadas en hechos hasta complejas tareas de razonamiento en varios pasos que requieren sintetizar información de múltiples fuentes. Por lo tanto, es crucial optimizar el tiempo de recuperación para equilibrar precisión y eficiencia, minimizando la sobrecarga computacional para las consultas sencillas y asignando más recursos para las tareas complejas y de conocimiento intensivo.

En este artículo analizaremos dos investigaciones recientes que proponen técnicas innovadoras para abordar el reto de optimizar el tiempo de recuperación en los sistemas RAG: Adaptive-RAG y DRAGIN. Estos enfoques pretenden mejorar la eficiencia y eficacia generales de la RAG adaptando dinámicamente la estrategia de recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del LLM, respectivamente.

generación
Una escena fantástica en la que un artista pinta un paisaje que incluye a otro artista más pequeño haciendo lo mismo, creando un patrón recursivo. Es una metáfora de las capas de la creatividad y la exploración infinita dentro de la mente artística.

El coste de la recuperación indiscriminada

Los sistemas de generación aumentada por recuperación (RAG) suelen constar de dos componentes principales: un recuperador y un modelo lingüístico. El recuperador se encarga de obtener la información pertinente de una base de conocimientos o un corpus externo, mientras que el modelo lingüístico genera el resultado final integrando y razonando sobre la información recuperada.

El proceso de recuperación en sí puede ser costoso desde el punto de vista informático, sobre todo cuando se trata de bases de conocimiento o corpus a gran escala. Varios factores contribuyen a la sobrecarga asociada a la recuperación:

  1. Tamaño del índex: Las grandes bases de conocimiento, como Wikipedia o los corpus de dominios específicos, pueden contener millones o miles de millones de documentos, lo que da lugar a índices masivos en los que es necesario realizar búsquedas eficientes.
  2. Procesamiento de consultas: Transformar la consulta de entrada en un formato adecuado para la recuperación, como codificarla en un vector denso o construir una consulta booleana, puede implicar pasos computacionales no triviales.
  3. Algoritmo de recuperación: Dependiendo del algoritmo de recuperación utilizado (por ejemplo, BM25, búsqueda de similitud de vectores densos o recorrido de grafos para grafos de conocimiento), la complejidad computacional puede variar significativamente, especialmente para consultas complejas que requieren múltiples rondas de recuperación o sofisticadas estrategias de clasificación y filtrado.
  4. Fusión y clasificación de resultados: En algunos casos, pueden ser necesarias múltiples rondas de recuperación o fuentes, lo que requiere pasos adicionales para fusionar y clasificar los resultados recuperados en función de la relevancia u otros criterios.

Una vez recuperada la información pertinente, hay que integrarla en la entrada del modelo lingüístico para su generación. Este proceso de integración también puede introducir costes computacionales adicionales:

  1. Aumento de la longitud de los tokens: La incorporación de la información recuperada a la secuencia de entrada puede aumentar significativamente la longitud total de los tokens, lo que repercute directamente en la complejidad computacional del proceso de generación del modelo lingüístico. Las secuencias de entrada más largas requieren más cálculos de atención y un mayor uso de la memoria, que aumenta cuadráticamente con la longitud de la secuencia en las arquitecturas Transformer estándar.
  2. Estrategia de integración: Las distintas estrategias de integración de la información recuperada, como la concatenación, el preanexado o métodos más sofisticados como los modelos lingüísticos de memoria aumentada (MALM), pueden tener distintos requisitos computacionales.

Activar indiscriminadamente el proceso de recuperación para cada consulta, independientemente de su complejidad o de las capacidades internas de conocimiento del modelo lingüístico, puede dar lugar a importantes ineficiencias y a una sobrecarga computacional innecesaria. En el caso de las consultas sencillas que pueden responderse únicamente con los conocimientos paramétricos del modelo lingüístico, los costes adicionales de recuperación e integración pueden no aportar ningún beneficio tangible, lo que se traduce en un desperdicio de recursos informáticos y un aumento de la latencia.

Esta ineficacia se acentúa aún más en escenarios reales en los que los usuarios plantean una amplia gama de consultas, desde preguntas sencillas basadas en hechos hasta complejas tareas de razonamiento en varios pasos que requieren sintetizar información procedente de múltiples fuentes. Tratar todas las consultas por igual y aplicar la misma estrategia de recuperación aumentada puede conducir a un rendimiento subóptimo, tanto en términos de precisión como de eficiencia.

Para hacer frente a estas ineficiencias, es crucial optimizar el momento de la recuperación en los sistemas RAG, activando selectivamente el proceso de recuperación sólo cuando sea necesario y pueda mejorar potencialmente el rendimiento del modelo lingüístico. Al determinar de forma inteligente el momento de la recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del modelo lingüístico, los sistemas RAG pueden lograr un equilibrio entre precisión y eficiencia, minimizando la sobrecarga computacional en las consultas sencillas y asignando más recursos a las tareas complejas que requieren un uso intensivo de conocimientos.

Adaptive-RAG: adaptar las estrategias de recuperación a la complejidad de la consulta

Reconociendo la ineficacia de la recuperación indiscriminada y la necesidad de un enfoque adaptativo que adapte la estrategia de recuperación a la complejidad de cada consulta, los investigadores propusieron Adaptive-RAG (Adaptive Retrieval-Augmented Generation).

El núcleo de Adaptive-RAG es un componente novedoso denominado «clasificador de complejidad de consultas», que es un modelo lingüístico más pequeño entrenado específicamente para predecir el nivel de complejidad de las consultas entrantes. Este clasificador desempeña un papel crucial en la naturaleza adaptativa del marco.

El clasificador de la complejidad de las consultas las clasifica en tres niveles distintos:

  1. Nivel «A»: Consultas que pueden ser respondidas únicamente por el modelo lingüístico, sin necesidad de recuperación externa.
  2. Nivel «B»: Consultas que requieren un proceso de recuperación de un solo paso, en el que la información relevante se recupera de la base de conocimientos y se integra en la entrada del modelo lingüístico.
  3. Nivel «C»: Consultas más complejas que requieren un proceso de recuperación en varios pasos, con rondas iterativas de recuperación y razonamiento para sintetizar la información procedente de múltiples fuentes.

Para entrenar el clasificador de la complejidad de la consulta, Adaptive-RAG emplea un proceso automatizado que aprovecha los resultados reales previstos de diferentes estrategias LLM de recuperación aumentada y los sesgos inductivos inherentes presentes en los conjuntos de datos de referencia.

En concreto, el proceso de formación consta de los siguientes pasos:

  1. Muestreo de consultas de varios conjuntos de datos, incluidas pruebas comparativas de respuesta a preguntas de un solo salto y de varios saltos, para simular un escenario realista con consultas de distinta complejidad.
  2. Ejecutar estas consultas a través de tres estrategias diferentes de LLM con recuperación mejorada: sin recuperación (LLM solo), recuperación en un solo paso y recuperación en varios pasos.
  3. Etiquetar cada consulta en función de la estrategia que produjo la respuesta correcta, dando prioridad a las estrategias más sencillas. Por ejemplo, si la estrategia de no recuperación produce la respuesta correcta, la consulta se etiqueta como «A»; si la estrategia de un solo paso tiene éxito, se etiqueta como «B»; y si sólo tiene éxito la estrategia de varios pasos, se etiqueta como «C».
  4. Para las consultas que quedan sin etiquetar tras el paso anterior, se aprovechan los sesgos inductivos de los conjuntos de datos de referencia. Las consultas de conjuntos de datos de un solo salto se etiquetan como «B», y las de conjuntos de datos de varios saltos como «C».
  5. Entrenamiento del clasificador de complejidad de consulta en este conjunto de datos generado automáticamente de pares de consulta-complejidad utilizando la pérdida de entropía cruzada.

Una vez entrenado, el clasificador de complejidad de consultas puede predecir el nivel de complejidad de cualquier consulta entrante durante el tiempo de inferencia.

En función del nivel de complejidad previsto, Adaptive-RAG selecciona dinámicamente la estrategia más adecuada para gestionar la consulta:

  • Para las consultas de nivel «A», el modelo lingüístico genera directamente la respuesta sin recuperación externa, lo que minimiza la carga computacional.
  • Para las consultas de nivel «B», se activa un proceso de recuperación de un solo paso, que recupera la información pertinente de la base de conocimientos y la integra en la entrada del modelo lingüístico.
  • Para las consultas de nivel «C», se emplea un método de recuperación en varios pasos, que implica rondas iterativas de recuperación y razonamiento para sintetizar la información procedente de múltiples fuentes.

Esta naturaleza adaptativa permite a Adaptive-RAG alcanzar un equilibrio entre precisión y eficacia. Para consultas sencillas, minimiza la carga computacional evitando recuperaciones innecesarias, mientras que para consultas complejas, asigna más recursos para recuperar e integrar el conocimiento externo necesario, mejorando la precisión de los resultados del modelo lingüístico.

Mediante experimentos exhaustivos en varios conjuntos de datos de dominios abiertos de respuesta a preguntas, Adaptive-RAG demostró un rendimiento superior al de las líneas de base existentes, mostrando su capacidad para adaptar eficazmente las estrategias de recuperación en función de la complejidad de la consulta, lo que se traduce en una mejora de la eficiencia y la precisión generales.

DRAGIN: Optimización de la recuperación basada en las necesidades de información en tiempo real

DRAGIN (Dynamic Retrieval Augmented Generation based on the real-time Information Needs of Large Language Models) aborda el reto de optimizar cuándo y qué recuperar durante la recuperación-generación aumentada.

DRAGIN introduce dos componentes innovadores clave:

  1. Detección de Necesidades de Información en Tiempo Real (RIND).
  2. Formulación de consultas basada en la autoatención (QFS).

Detección de necesidades de información en tiempo real (RIND)

El componente RIND determina el momento óptimo para activar el módulo de recuperación durante el proceso de generación analizando las necesidades de información en tiempo real del modelo lingüístico. Para ello, tiene en cuenta tres factores para cada token generado:

  1. Incertidumbre: El RIND cuantifica la incertidumbre de cada token registrando la entropía de su distribución de probabilidad en el vocabulario. Una entropía más alta implica una mayor incertidumbre y la necesidad potencial de información externa.
  2. Importancia: RIND aprovecha el mecanismo de autoatención de los LLM basados en transformadores para asignar pesos a los tokens en función de su impacto en el contexto posterior. Los tokens con mayor atención se consideran más importantes.
  3. Importancia semántica: El RIND emplea un indicador semántico binario para filtrar las palabras vacías y centrarse en los tokens semánticamente significativos, ya que es menos probable que las palabras vacías requieran información externa.

Combinando estos tres factores, RIND calcula una puntuación global para cada token que representa la necesidad de información en tiempo real del modelo lingüístico. Si esta puntuación supera un umbral predefinido para cualquier token durante la generación, se activa el módulo de recuperación.

Formulación de consultas basadas en la autoatención (QFS)

Una vez que RIND determina el momento óptimo para la recuperación, entra en juego el componente QFS para formular una consulta eficaz que permita recuperar información relevante de bases de conocimiento o corpus externos.

A diferencia de los enfoques existentes, que se basan únicamente en tokens u oraciones recientes para formular consultas, QFS aprovecha el mecanismo de autoatención para captar las necesidades de información del modelo lingüístico en todo el contexto. Para ello:

  1. Evaluando los pesos de la atención en toda la secuencia de tokens precedente para la posición de recuperación identificada.
  2. Prioriza los tokens en función de sus puntuaciones de atención y selecciona los n tokens con las puntuaciones más altas.
  3. Construye la consulta a partir de las palabras correspondientes a estas n palabras principales, ordenadas en el orden original de la secuencia de entrada.

Este enfoque garantiza que la consulta refleje los aspectos más relevantes del contexto determinados por el mecanismo de autoatención del modelo lingüístico, capturando las necesidades de información en tiempo real de forma más exhaustiva que los métodos que sólo tienen en cuenta los tokens o las frases recientes.

Mediante experimentos exhaustivos en varios conjuntos de datos de generación intensiva de conocimiento, como 2WikiMultihopQA, HotpotQA, IIRC y StrategyQA, DRAGIN demostró un rendimiento superior al de las líneas de base existentes, incluidos los enfoques de recuperación adaptativa.

Al optimizar tanto el momento de la recuperación (a través de RIND) como el proceso de formulación de la consulta (a través de QFS), DRAGIN equilibra eficazmente la precisión y la eficiencia en la generación de recuperación aumentada. Minimiza la recuperación innecesaria de tokens o contextos en los que el modelo lingüístico tiene conocimientos suficientes, al tiempo que prioriza la recuperación y formula consultas eficaces cuando las necesidades de información en tiempo real exigen conocimientos externos.

Los innovadores componentes de DRAGIN, RIND y QFS, aprovechan el funcionamiento interno de los LLM basados en Transformer, como las distribuciones de probabilidad de los tokens y los mecanismos de autoatención, para adaptar dinámicamente el proceso de recuperación a las necesidades de información en tiempo real del modelo lingüístico, lo que se traduce en una mejora del rendimiento general en tareas de generación intensivas en conocimiento.

La importancia de optimizar el momento de la recuperación

Los esfuerzos de investigación de Adaptive-RAG y DRAGIN ponen de relieve la importancia primordial de optimizar el momento de la recuperación a la hora de poner en funcionamiento los sistemas de generación de recuperación aumentada. Al determinar de forma inteligente cuándo activar el proceso de recuperación en función de la complejidad de la consulta o de las necesidades de información en tiempo real del LLM, estos enfoques evitan una sobrecarga computacional y una latencia innecesarias para las consultas sencillas, al tiempo que asignan más recursos para las tareas complejas y de conocimiento intensivo.

A medida que los LLM sigan encontrando aplicaciones en diversos ámbitos, desde la respuesta a preguntas hasta las tareas de generación abiertas, la capacidad de integrar de forma eficiente y eficaz el conocimiento externo será cada vez más crucial. Las técnicas como las propuestas en Adaptive-RAG y DRAGIN no sólo mejoran la precisión y la eficiencia general de los sistemas basados en LLM, sino que también allanan el camino para un despliegue más práctico y escalable de la generación aumentada por recuperación en escenarios del mundo real.

Aunque estos esfuerzos de investigación han dado pasos significativos, aún quedan vías para seguir mejorando. Los trabajos futuros podrían explorar clasificadores más avanzados de la complejidad de las consultas, incorporar fuentes de información multimodales o investigar métodos de optimización integral de los procesos de recuperación y generación. Además, a medida que los LLM sigan evolucionando y se vuelvan más capaces, los límites entre las consultas simples y complejas pueden cambiar, lo que requerirá técnicas adaptativas que puedan ajustarse sin problemas a estos paisajes cambiantes.

En conclusión, la optimización de la sincronización de la recuperación es un aspecto crítico de la puesta en funcionamiento de los sistemas de generación aumentados por recuperación. Al adaptar la estrategia de recuperación a la complejidad o a las necesidades de información de cada consulta, enfoques como Adaptive-RAG y DRAGIN demuestran el potencial para mejorar tanto la precisión como la eficiencia de los sistemas basados en LLM, allanando el camino para despliegues más prácticos y escalables en diversas aplicaciones del mundo real.

The post Operacionalización de la generación mejorada por recuperación first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/operacionalizacion-de-generacion-mejorada-por-recuperacion/feed/ 0
Long context LLM’s para tareas complejas: Desbloqueo de capacidades con recuperación selectiva https://desa.planetachatbot.com/llms-de-contexto-largo-para-tareas-complejas-desbloqueo-de-capacidades-con-recuperacion-selectiva/?utm_source=rss&utm_medium=rss&utm_campaign=llms-de-contexto-largo-para-tareas-complejas-desbloqueo-de-capacidades-con-recuperacion-selectiva https://desa.planetachatbot.com/llms-de-contexto-largo-para-tareas-complejas-desbloqueo-de-capacidades-con-recuperacion-selectiva/#respond Tue, 30 Apr 2024 06:00:06 +0000 https://desa.planetachatbot.com/?p=17553 El desarrollo de LLM como Gemini 1.5 Pro, con ventanas de contexto sin precedentes de hasta un millón de tokens, ha generado gran expectación por sus posibles aplicaciones en ámbitos que manejan gran cantidad de información. Algunos ejemplos son el análisis de documentos jurídicos, la síntesis de conocimientos en múltiples artículos científicos y la comprensión […]

The post Long context LLM’s para tareas complejas: Desbloqueo de capacidades con recuperación selectiva first appeared on Planeta Chatbot.

]]>
El desarrollo de LLM como Gemini 1.5 Pro, con ventanas de contexto sin precedentes de hasta un millón de tokens, ha generado gran expectación por sus posibles aplicaciones en ámbitos que manejan gran cantidad de información. Algunos ejemplos son el análisis de documentos jurídicos, la síntesis de conocimientos en múltiples artículos científicos y la comprensión de libros enteros para la escritura creativa o el análisis literario. Con unas capacidades de contexto tan amplias, hay grandes esperanzas de que los LLM’s puedan ingerir y razonar sobre fuentes de información extensas en su totalidad.

Sin embargo, no basta con ampliar la longitud de los contextos.

A pesar de los impresionantes tamaños de las ventanas de contexto, cada vez son más las investigaciones que revelan limitaciones críticas en la capacidad de los LLM actuales para aprovechar realmente estos contextos ampliados de forma eficaz. El simple aumento del tamaño de los modelos y de la longitud de los contextos no se traduce automáticamente en una mejora del rendimiento en tareas que requieren una comprensión y un razonamiento profundos en contextos extensos. Varios estudios clave han puesto de manifiesto estas deficiencias:

  1. Las pruebas de rendimiento como BABILong han demostrado que incluso los modelos más avanzados, como GPT-4, tienen dificultades para recordar y utilizar con precisión información clave cuando ésta se encuentra en contextos extensos de hasta 128.000 caracteres. Los estudios revelaron que el rendimiento de los modelos depende en gran medida del 25% inicial del contexto, lo que sugiere una incapacidad para procesar y utilizar plenamente la información distribuida en secuencias largas.
  2. Efectos del orden en el razonamiento multipaso largo
    La investigación ha demostrado que el orden de la información en contextos de entrada largos puede afectar significativamente a la capacidad de razonamiento de los LLM en tareas lógicas multipaso. Por ejemplo, la precisión del GPT-4 en tareas de razonamiento lógico puede disminuir hasta un 30% cuando se reordenan las premisas, a pesar de que la tarea de razonamiento subyacente y las conclusiones permanecen inalteradas. Estos efectos del orden se agravan a medida que aumenta la complejidad del razonamiento con contextos más largos que contienen información que distrae.
  3. Degradación en el aprendizaje en contexto prolongado. Un enfoque popular con los LLM es el «few – shots learning», en el que los modelos se condicionan a una secuencia de ejemplos para aprender una nueva tarea. Sin embargo, los estudios han revelado una fuerte degradación del rendimiento cuando este aprendizaje en contexto implica secuencias de más de unos pocos miles de tokens, a pesar de que los LLM tienen ventanas de contexto mucho mayores. Los modelos tienen dificultades para aprovechar y aprender eficazmente de las extensas demostraciones repartidas en contextos largos.

Degradación en el aprendizaje en contexto prolongado

Uno de los enfoques más utilizados con modelos lingüísticos de gran tamaño es el «few-shots learning» o el aprendizaje en contexto, en el que los modelos se condicionan a una secuencia de ejemplos para aprender y realizar una nueva tarea de una manera eficiente desde el punto de vista de los datos. Sin embargo, un estudio reciente titulado «Long-context LLMs Struggle with Long In-context Learning» ha revelado las limitaciones críticas de los LLM actuales cuando este paradigma de aprendizaje en contexto implica secuencias que abarcan miles de tokens y más.

Los investigadores introdujeron un nuevo punto de referencia denominado LongICLBench para evaluar sistemáticamente el rendimiento de los LLM en tareas extremas de clasificación de textos con múltiples etiquetas que se basan en largas demostraciones en contexto que abarcan diversos conjuntos de datos y miles de etiquetas únicas. Probaron exhaustivamente 13 LLM’s de última generación, incluidos GPT-4, PaLM y otros modelos comerciales y de código abierto, en tareas con longitudes de contexto que oscilaban entre 2.000 y 50.000 tokens.

Los resultados pusieron de manifiesto deficiencias notables en la capacidad de los LLM para aprovechar el aprendizaje en contexto ampliado a lo largo de secuencias largas:

  1. Aunque los LLM funcionaron relativamente bien en tareas más sencillas con demostraciones más cortas de 2.000/3.000 tokens, su precisión cayó en picado en tareas más complejas que requerían demostraciones más largas de más de 10.000 tokens en contexto que abarcaban distribuciones completas de etiquetas.
  2. En el conjunto de datos más difícil, «Discovery», con 174 etiquetas, incluso modelos como GPT-4 fracasaron por completo cuando se les presentaron más de 10.000 contextos de tokens que ilustraban todos los ejemplos de etiquetas antes de las consultas.
  3. El análisis reveló que los LLM tenían dificultades para conectar y razonar sobre ejemplos de etiquetas distribuidos en los largos contextos de demostración de varias rondas, y no lograban establecer asociaciones distantes.
  4. El aumento de la escala del modelo no contribuyó a mitigar estos problemas, ya que tanto los modelos 7B como los más grandes mostraron tendencias similares de degradación del rendimiento en tareas largas de aprendizaje en contexto.

Los investigadores plantearon la hipótesis de que, si bien los LLM destacan en el procesamiento de contextos locales, sus arquitecturas de autoatención se enfrentan a cuellos de botella a la hora de mantener mapeados coherentes a lo largo de secuencias ultralargas durante el condicionamiento de «few shots» sobre distribuciones complejas.

Este estudio subraya que no basta con escalar la longitud de los contextos, sino que pueden ser necesarias nuevas innovaciones arquitectónicas, como módulos de memoria explícita o atenciones dispersas, para mejorar el razonamiento de los LLM en demostraciones contextuales ampliadas con múltiples ejemplos, cruciales en ámbitos como el análisis jurídico.

El LongICLBench pone de relieve un área clave de investigación futura para liberar todo el potencial de los LLM en el «few shots learning» sobre contextos largos de diversas fuentes. La superación de estas limitaciones podría ser fundamental para una comprensión robusta de contextos extensos y sistemas de generación mejorados para la recuperación.

Retos y requisitos para aprovechar los Long Context LLMs

Aunque estas limitaciones puedan parecer desalentadoras, en realidad arrojan luz sobre los retos y requisitos clave que deben abordarse para aprovechar todo el potencial de los LLM en aplicaciones complejas de contexto largo o long context.

En lugar de aumentar indiscriminadamente la longitud de los contextos, cada vez está más claro que es crucial una recuperación de información más específica y una representación estructurada de la información relevante. No basta con proporcionar más contexto: los modelos necesitan orientación para aislar los elementos precisos de información pertinentes para la tarea en cuestión, filtrando al mismo tiempo los contenidos que distraen.

Combinación de LLM con representaciones estructuradas del conocimiento. Los métodos tradicionales de recuperación de la información basados únicamente en la relevancia textual pueden resultar inadecuados para el razonamiento complejo y multipaso en contextos extensos. Las representaciones estructuradas del conocimiento, como los grafos de conocimiento, pueden proporcionar sesgos inductivos que se ajusten mejor a los patrones de razonamiento subyacentes y codificar las relaciones semánticas de forma más transparente que el texto en bruto.

Cambios de paradigma: Del escalado al razonamiento aumentado. En última instancia, para seguir avanzando en el aprovechamiento de contextos extensos con los LLM probablemente se necesiten cambios de paradigma que vayan más allá del simple aumento de las ventanas de contexto y el tamaño de los modelos. Se necesitan nuevas arquitecturas que combinen la flexibilidad y la amplia cobertura de los LLM con capacidades de razonamiento basado en principios sobre representaciones estructuradas del conocimiento.

Recuperación selectiva en lugar de ingestión exhaustiva del contexto

Para aprovechar al máximo el potencial de las grandes ventanas de contexto, lo que se necesita es una recuperación más selectiva y una representación estructurada de sólo la información más pertinente para una tarea determinada. En lugar de abrumar a los LLM con contextos exhaustivos, necesitan orientación en forma de:

  1. Recuperación precisa de hechos, pruebas y conocimientos clave necesarios para razonar sobre la tarea.
  2. Representaciones estructuradas que destacan la relevancia y las relaciones entre la información recuperada.
  3. Filtrado del ruido y los distractores que podrían desviar la atención del LLM.

Al proporcionar a los LLM un contexto cuidadosamente elaborado y organizado, específico para los requisitos de la tarea, pueden superar limitaciones como el escaso recuerdo de la información relevante y la vulnerabilidad a los efectos de orden/premisa.

El caso de la generación aumentada por recuperación (RAG)

Esta necesidad de recuperación y representación específicas refuerza los argumentos a favor de los marcos de recuperación y generación mejorada (RAG). Los sistemas RAG combinan dos componentes:

  1. Un módulo de recuperación neuronal que identifica y extrae información relevante de un amplio corpus para servir de contexto a un modelo lingüístico.
  2. Un modelo lingüístico generativo que toma el contexto recuperado para generar resultados como responder a consultas, redactar resúmenes o participar en razonamientos de varios pasos.

Al delegar la recuperación de información pertinente en un módulo especializado, los marcos RAG pueden proporcionar a los LLM contextos centrados y adaptados a la tarea actual. De este modo, se evita que el LLM se atasque con un exceso de información irrelevante en contextos exhaustivos.

Limitaciones de la actual RAG sobre la relevancia textual

Sin embargo, los métodos tradicionales de RAG que se basan únicamente en la recuperación de información a partir de señales de relevancia textual pueden seguir siendo insuficientes para soportar razonamientos complejos de varios pasos en contextos largos. La similitud textual sólo capta las asociaciones superficiales y no representa la semántica, las relaciones y la lógica subyacentes necesarias para «unir los puntos» de forma eficaz en el razonamiento.

Para que el razonamiento en contextos amplios sea realmente sólido, los marcos de RAG deben ir más allá de la recuperación textual e incorporar representaciones estructuradas del conocimiento que puedan restringir y andamiar el proceso de razonamiento de los LLM.

Representaciones estructuradas del conocimiento para el razonamiento

Las representaciones estructuradas del conocimiento, como los grafos de conocimiento, ofrecen una solución prometedora. Los grafos de conocimiento modelan la información como entidades/conceptos y sus interrelaciones siguiendo ontologías/esquemas formales. Esta estructura de representación ofrece varias ventajas clave:

  • Relaciones semánticas: en lugar de asociaciones textuales ambiguas, las relaciones entre conceptos se definen formalmente (por ejemplo, isA, partOf, locatedAt).
  • Posibilidades de razonamiento: la estructura del grafo codifica de forma natural vías lógicas para encadenar hechos y recorrer conexiones con el fin de obtener información.
  • Conocimiento externo: los grafos de conocimiento del mundo real, como Wikidata, proporcionan un amplio conocimiento externo curado para aumentar los contextos de recuperación.
  • Algoritmos de grafos: la importancia de nodos y aristas, la extracción de subgrafos, la predicción de enlaces y otros algoritmos de grafos pueden priorizar y ampliar los contextos de razonamiento.

Si se amplían los marcos RAG para recuperar y operar sobre grafos de conocimiento estructurados en lugar de sólo sobre texto, se podría proporcionar a los LLM contextos que codifiquen de forma transparente la semántica, las restricciones y los sesgos inductivos para guiar mejor el razonamiento sobre contextos largos con menos ruido.

En esencia, la recuperación selectiva de representaciones de conocimiento estructurado podría ser la clave para que los LLM aprovechen al máximo sus capacidades de gran contexto en tareas que requieran un razonamiento robusto en varios pasos y la síntesis de conocimiento a partir de diversas fuentes. Es probable que las soluciones fusionen la amplia cobertura de los LLM con los conocimientos de la representación del conocimiento y el razonamiento automatizado. Este paradigma estructurado de RAG representa una dirección prometedora para maximizar la comprensión de contextos largos en los LLM.

Cambio de paradigma: del escalado al razonamiento aumentado

Las limitaciones señaladas ponen de manifiesto que para seguir avanzando en la IA de contexto amplio no basta con aumentar las ventanas de contexto y el tamaño de los modelos. Se necesitan nuevos paradigmas que combinen grandes modelos lingüísticos con capacidades de razonamiento basados en principios sobre representaciones estructuradas.

Esto podría implicar aumentar los LLM generativos con módulos especializados de «razonamiento» que intercalen la recuperación, el razonamiento en varios pasos y la generación de una manera interpretable. Tomar prestadas ideas de campos como la representación del conocimiento y el razonamiento automatizado podría dar resultados.

Esencialmente, el camino a seguir probablemente combine la flexibilidad y la amplia cobertura de los grandes modelos lingüísticos con la estructura, la transparencia y las posibilidades de composición de los sistemas de razonamiento simbólico. Sólo mediante arquitecturas unificadas de este tipo podremos desarrollar sistemas de IA capaces de comprender en profundidad y razonar sobre entornos ricos en información a gran escala.

Esta nueva frontera en la intersección de los grandes modelos lingüísticos y el razonamiento estructurado está repleta de oportunidades para la innovación. Aunque la ampliación de las longitudes de contexto ha dado el pistoletazo de salida, para liberar todo el potencial de la IA de contexto largo será necesario adoptar la recuperación y la representación inteligentes. Las soluciones darán forma a asistentes de IA fiables, transparentes y robustos que puedan navegar por fin por nuestros cada vez más complejos entornos de información.

The post Long context LLM’s para tareas complejas: Desbloqueo de capacidades con recuperación selectiva first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/llms-de-contexto-largo-para-tareas-complejas-desbloqueo-de-capacidades-con-recuperacion-selectiva/feed/ 0