El desarrollo de LLM como Gemini 1.5 Pro, con ventanas de contexto sin precedentes de hasta un millón de tokens, ha generado gran expectación por sus posibles aplicaciones en ámbitos que manejan gran cantidad de información. Algunos ejemplos son el análisis de documentos jurídicos, la síntesis de conocimientos en múltiples artículos científicos y la comprensión de libros enteros para la escritura creativa o el análisis literario. Con unas capacidades de contexto tan amplias, hay grandes esperanzas de que los LLM’s puedan ingerir y razonar sobre fuentes de información extensas en su totalidad.
Sin embargo, no basta con ampliar la longitud de los contextos.
A pesar de los impresionantes tamaños de las ventanas de contexto, cada vez son más las investigaciones que revelan limitaciones críticas en la capacidad de los LLM actuales para aprovechar realmente estos contextos ampliados de forma eficaz. El simple aumento del tamaño de los modelos y de la longitud de los contextos no se traduce automáticamente en una mejora del rendimiento en tareas que requieren una comprensión y un razonamiento profundos en contextos extensos. Varios estudios clave han puesto de manifiesto estas deficiencias:
- Las pruebas de rendimiento como BABILong han demostrado que incluso los modelos más avanzados, como GPT-4, tienen dificultades para recordar y utilizar con precisión información clave cuando ésta se encuentra en contextos extensos de hasta 128.000 caracteres. Los estudios revelaron que el rendimiento de los modelos depende en gran medida del 25% inicial del contexto, lo que sugiere una incapacidad para procesar y utilizar plenamente la información distribuida en secuencias largas.
- Efectos del orden en el razonamiento multipaso largo
La investigación ha demostrado que el orden de la información en contextos de entrada largos puede afectar significativamente a la capacidad de razonamiento de los LLM en tareas lógicas multipaso. Por ejemplo, la precisión del GPT-4 en tareas de razonamiento lógico puede disminuir hasta un 30% cuando se reordenan las premisas, a pesar de que la tarea de razonamiento subyacente y las conclusiones permanecen inalteradas. Estos efectos del orden se agravan a medida que aumenta la complejidad del razonamiento con contextos más largos que contienen información que distrae. - Degradación en el aprendizaje en contexto prolongado. Un enfoque popular con los LLM es el «few – shots learning», en el que los modelos se condicionan a una secuencia de ejemplos para aprender una nueva tarea. Sin embargo, los estudios han revelado una fuerte degradación del rendimiento cuando este aprendizaje en contexto implica secuencias de más de unos pocos miles de tokens, a pesar de que los LLM tienen ventanas de contexto mucho mayores. Los modelos tienen dificultades para aprovechar y aprender eficazmente de las extensas demostraciones repartidas en contextos largos.
Tabla de contenidos
Degradación en el aprendizaje en contexto prolongado
Uno de los enfoques más utilizados con modelos lingüísticos de gran tamaño es el «few-shots learning» o el aprendizaje en contexto, en el que los modelos se condicionan a una secuencia de ejemplos para aprender y realizar una nueva tarea de una manera eficiente desde el punto de vista de los datos. Sin embargo, un estudio reciente titulado «Long-context LLMs Struggle with Long In-context Learning» ha revelado las limitaciones críticas de los LLM actuales cuando este paradigma de aprendizaje en contexto implica secuencias que abarcan miles de tokens y más.
Los investigadores introdujeron un nuevo punto de referencia denominado LongICLBench para evaluar sistemáticamente el rendimiento de los LLM en tareas extremas de clasificación de textos con múltiples etiquetas que se basan en largas demostraciones en contexto que abarcan diversos conjuntos de datos y miles de etiquetas únicas. Probaron exhaustivamente 13 LLM’s de última generación, incluidos GPT-4, PaLM y otros modelos comerciales y de código abierto, en tareas con longitudes de contexto que oscilaban entre 2.000 y 50.000 tokens.
Los resultados pusieron de manifiesto deficiencias notables en la capacidad de los LLM para aprovechar el aprendizaje en contexto ampliado a lo largo de secuencias largas:
- Aunque los LLM funcionaron relativamente bien en tareas más sencillas con demostraciones más cortas de 2.000/3.000 tokens, su precisión cayó en picado en tareas más complejas que requerían demostraciones más largas de más de 10.000 tokens en contexto que abarcaban distribuciones completas de etiquetas.
- En el conjunto de datos más difícil, «Discovery», con 174 etiquetas, incluso modelos como GPT-4 fracasaron por completo cuando se les presentaron más de 10.000 contextos de tokens que ilustraban todos los ejemplos de etiquetas antes de las consultas.
- El análisis reveló que los LLM tenían dificultades para conectar y razonar sobre ejemplos de etiquetas distribuidos en los largos contextos de demostración de varias rondas, y no lograban establecer asociaciones distantes.
- El aumento de la escala del modelo no contribuyó a mitigar estos problemas, ya que tanto los modelos 7B como los más grandes mostraron tendencias similares de degradación del rendimiento en tareas largas de aprendizaje en contexto.
Los investigadores plantearon la hipótesis de que, si bien los LLM destacan en el procesamiento de contextos locales, sus arquitecturas de autoatención se enfrentan a cuellos de botella a la hora de mantener mapeados coherentes a lo largo de secuencias ultralargas durante el condicionamiento de «few shots» sobre distribuciones complejas.
Este estudio subraya que no basta con escalar la longitud de los contextos, sino que pueden ser necesarias nuevas innovaciones arquitectónicas, como módulos de memoria explícita o atenciones dispersas, para mejorar el razonamiento de los LLM en demostraciones contextuales ampliadas con múltiples ejemplos, cruciales en ámbitos como el análisis jurídico.
El LongICLBench pone de relieve un área clave de investigación futura para liberar todo el potencial de los LLM en el «few shots learning» sobre contextos largos de diversas fuentes. La superación de estas limitaciones podría ser fundamental para una comprensión robusta de contextos extensos y sistemas de generación mejorados para la recuperación.
Retos y requisitos para aprovechar los Long Context LLMs
Aunque estas limitaciones puedan parecer desalentadoras, en realidad arrojan luz sobre los retos y requisitos clave que deben abordarse para aprovechar todo el potencial de los LLM en aplicaciones complejas de contexto largo o long context.
En lugar de aumentar indiscriminadamente la longitud de los contextos, cada vez está más claro que es crucial una recuperación de información más específica y una representación estructurada de la información relevante. No basta con proporcionar más contexto: los modelos necesitan orientación para aislar los elementos precisos de información pertinentes para la tarea en cuestión, filtrando al mismo tiempo los contenidos que distraen.
Combinación de LLM con representaciones estructuradas del conocimiento. Los métodos tradicionales de recuperación de la información basados únicamente en la relevancia textual pueden resultar inadecuados para el razonamiento complejo y multipaso en contextos extensos. Las representaciones estructuradas del conocimiento, como los grafos de conocimiento, pueden proporcionar sesgos inductivos que se ajusten mejor a los patrones de razonamiento subyacentes y codificar las relaciones semánticas de forma más transparente que el texto en bruto.
Cambios de paradigma: Del escalado al razonamiento aumentado. En última instancia, para seguir avanzando en el aprovechamiento de contextos extensos con los LLM probablemente se necesiten cambios de paradigma que vayan más allá del simple aumento de las ventanas de contexto y el tamaño de los modelos. Se necesitan nuevas arquitecturas que combinen la flexibilidad y la amplia cobertura de los LLM con capacidades de razonamiento basado en principios sobre representaciones estructuradas del conocimiento.
Recuperación selectiva en lugar de ingestión exhaustiva del contexto
Para aprovechar al máximo el potencial de las grandes ventanas de contexto, lo que se necesita es una recuperación más selectiva y una representación estructurada de sólo la información más pertinente para una tarea determinada. En lugar de abrumar a los LLM con contextos exhaustivos, necesitan orientación en forma de:
- Recuperación precisa de hechos, pruebas y conocimientos clave necesarios para razonar sobre la tarea.
- Representaciones estructuradas que destacan la relevancia y las relaciones entre la información recuperada.
- Filtrado del ruido y los distractores que podrían desviar la atención del LLM.
Al proporcionar a los LLM un contexto cuidadosamente elaborado y organizado, específico para los requisitos de la tarea, pueden superar limitaciones como el escaso recuerdo de la información relevante y la vulnerabilidad a los efectos de orden/premisa.
El caso de la generación aumentada por recuperación (RAG)
Esta necesidad de recuperación y representación específicas refuerza los argumentos a favor de los marcos de recuperación y generación mejorada (RAG). Los sistemas RAG combinan dos componentes:
- Un módulo de recuperación neuronal que identifica y extrae información relevante de un amplio corpus para servir de contexto a un modelo lingüístico.
- Un modelo lingüístico generativo que toma el contexto recuperado para generar resultados como responder a consultas, redactar resúmenes o participar en razonamientos de varios pasos.
Al delegar la recuperación de información pertinente en un módulo especializado, los marcos RAG pueden proporcionar a los LLM contextos centrados y adaptados a la tarea actual. De este modo, se evita que el LLM se atasque con un exceso de información irrelevante en contextos exhaustivos.
Limitaciones de la actual RAG sobre la relevancia textual
Sin embargo, los métodos tradicionales de RAG que se basan únicamente en la recuperación de información a partir de señales de relevancia textual pueden seguir siendo insuficientes para soportar razonamientos complejos de varios pasos en contextos largos. La similitud textual sólo capta las asociaciones superficiales y no representa la semántica, las relaciones y la lógica subyacentes necesarias para «unir los puntos» de forma eficaz en el razonamiento.
Para que el razonamiento en contextos amplios sea realmente sólido, los marcos de RAG deben ir más allá de la recuperación textual e incorporar representaciones estructuradas del conocimiento que puedan restringir y andamiar el proceso de razonamiento de los LLM.
Representaciones estructuradas del conocimiento para el razonamiento
Las representaciones estructuradas del conocimiento, como los grafos de conocimiento, ofrecen una solución prometedora. Los grafos de conocimiento modelan la información como entidades/conceptos y sus interrelaciones siguiendo ontologías/esquemas formales. Esta estructura de representación ofrece varias ventajas clave:
- Relaciones semánticas: en lugar de asociaciones textuales ambiguas, las relaciones entre conceptos se definen formalmente (por ejemplo, isA, partOf, locatedAt).
- Posibilidades de razonamiento: la estructura del grafo codifica de forma natural vías lógicas para encadenar hechos y recorrer conexiones con el fin de obtener información.
- Conocimiento externo: los grafos de conocimiento del mundo real, como Wikidata, proporcionan un amplio conocimiento externo curado para aumentar los contextos de recuperación.
- Algoritmos de grafos: la importancia de nodos y aristas, la extracción de subgrafos, la predicción de enlaces y otros algoritmos de grafos pueden priorizar y ampliar los contextos de razonamiento.
Si se amplían los marcos RAG para recuperar y operar sobre grafos de conocimiento estructurados en lugar de sólo sobre texto, se podría proporcionar a los LLM contextos que codifiquen de forma transparente la semántica, las restricciones y los sesgos inductivos para guiar mejor el razonamiento sobre contextos largos con menos ruido.
En esencia, la recuperación selectiva de representaciones de conocimiento estructurado podría ser la clave para que los LLM aprovechen al máximo sus capacidades de gran contexto en tareas que requieran un razonamiento robusto en varios pasos y la síntesis de conocimiento a partir de diversas fuentes. Es probable que las soluciones fusionen la amplia cobertura de los LLM con los conocimientos de la representación del conocimiento y el razonamiento automatizado. Este paradigma estructurado de RAG representa una dirección prometedora para maximizar la comprensión de contextos largos en los LLM.
Cambio de paradigma: del escalado al razonamiento aumentado
Las limitaciones señaladas ponen de manifiesto que para seguir avanzando en la IA de contexto amplio no basta con aumentar las ventanas de contexto y el tamaño de los modelos. Se necesitan nuevos paradigmas que combinen grandes modelos lingüísticos con capacidades de razonamiento basados en principios sobre representaciones estructuradas.
Esto podría implicar aumentar los LLM generativos con módulos especializados de «razonamiento» que intercalen la recuperación, el razonamiento en varios pasos y la generación de una manera interpretable. Tomar prestadas ideas de campos como la representación del conocimiento y el razonamiento automatizado podría dar resultados.
Esencialmente, el camino a seguir probablemente combine la flexibilidad y la amplia cobertura de los grandes modelos lingüísticos con la estructura, la transparencia y las posibilidades de composición de los sistemas de razonamiento simbólico. Sólo mediante arquitecturas unificadas de este tipo podremos desarrollar sistemas de IA capaces de comprender en profundidad y razonar sobre entornos ricos en información a gran escala.
Esta nueva frontera en la intersección de los grandes modelos lingüísticos y el razonamiento estructurado está repleta de oportunidades para la innovación. Aunque la ampliación de las longitudes de contexto ha dado el pistoletazo de salida, para liberar todo el potencial de la IA de contexto largo será necesario adoptar la recuperación y la representación inteligentes. Las soluciones darán forma a asistentes de IA fiables, transparentes y robustos que puedan navegar por fin por nuestros cada vez más complejos entornos de información.