Hoy es el futuro. O al menos eso parece, con todos los rumores y avances en machine learning, redes neuronales, programación en lenguaje natural y otras disciplinas de la IA. Los humanos ya no somos los únicos «seres» del planeta que utilizamos y entendemos el lenguaje hablado.
No tenemos que buscar mucho para encontrar ejemplos que van de lo gracioso a lo directamente inquietante cuando las aplicaciones creadas a partir de grandes modelos lingüísticos (LLM), como ChatGPT y Bard de Google, cometen errores embarazosos. Gran parte de ello tiene que ver con el hecho de que hay una gran diferencia entre inventar una palabra que suene adecuada, que siga correcta y gramaticalmente a la palabra anterior, pero que no tenga en cuenta el contexto, la comprensión o la empatía, elementos clave de una comunicación significativa.
Como líder en el espacio de pruebas y aseguramiento de Chatbot, Cyara está impulsada por los nuevos avances en el mundo de las aplicaciones conversacionales y nuestro enfoque principal es ayudar a nuestros clientes a entrenar, probar y monitorear sus chatbots e IA conversacional. En este artículo, compartiremos nuestra perspectiva sobre qué son realmente los LLM, qué efectos reales y potenciales podrían tener en las experiencias de los clientes, los desafíos técnicos que presentan y dónde observamos que hay margen de mejora.
Tabla de contenidos
¿Qué son los LLM?
Aunque la sofisticación de la tecnología de chatbot ha ido en aumento durante la última década, la aparición de grandes modelos lingüísticos preentrenados, como GPT3, LaMDA de Google o Bloom, está causando un revuelo nunca visto en el sector de la IA conversacional.
ChatGPT y Bard son aplicaciones conversacionales de grandes modelos lingüísticos (LLM), entrenados en un vasto corpus de texto -normalmente terabytes de datos de diversas fuentes- para que puedan generar conversaciones similares a las humanas. Estos modelos utilizan algoritmos de deep learning que reconocen, resumen, traducen, predicen y generan texto y otros contenidos, como código escrito, ecuaciones matemáticas, letras de canciones o incluso sugieren grandes ideas para la primera cita.
Grandes modelos lingüísticos en CX
El revuelo en torno a los LLM ha sido digno de verse. En ningún otro lugar se ha hablado tanto como en el mundo de la atención al cliente, inspirando un entusiasmo renovado por la aplicación de la IA en todo el proceso de atención al cliente. Cuando funcionan, las aplicaciones de autoservicio del cliente que utilizan IA conversacional basada en LLM pueden aliviar frustraciones comunes y ofrecer un camino más rápido y optimizado para que los clientes obtengan lo que necesitan, ayudando a las organizaciones a mantenerse al día con las crecientes expectativas de los clientes.
Aunque el reconocimiento de voz tiene una larga historia en la gestión de clientes y la automatización de centros de llamadas, los nuevos chatbots basados en LLM suponen avances significativos para proporcionar un servicio personalizado más similar al humano.
Las organizaciones ven oportunidades de aprovechar los LLM para obtener una ventaja estratégica. Existe un potencial real para generar un valor sin precedentes mediante la creación de experiencias de usuario superiores para conseguir más negocio y la automatización de tareas mundanas para mantener los costes bajos. Pero el éxito no está garantizado…
Los mayores retos de la adopción de los LLM
La IA conversacional experimental de Google, Bard, nos ha demostrado que, aunque versátiles, los LLM aún tienen algunos problemas que resolver.
Uno de los principales problemas de los LLM es su tendencia a afirmar de forma segura y convincente información incorrecta como si fuera un hecho. Los LLM inventan información con frecuencia, ya que no disponen de una base de datos de hechos codificados, sino sólo de la capacidad de escribir afirmaciones plausibles sin ninguna garantía de que sean correctas.
Mientras que los modelos tradicionales de Procesamiento del Lenguaje Natural (NLP) se entrenan con datos etiquetados manualmente, los LLM utilizan fuentes no supervisadas para aprender y generar respuestas. En consecuencia, existe un alto potencial para producir sinsentidos, como respuestas completamente irrelevantes, sesgadas o inexactas.
Otra limitación es que los bots basados en LLM suelen consumir muchos recursos. El volumen de datos de entrenamiento que hay detrás de un bot basado en LLM podría ralentizarlo considerablemente, por lo que podría resultar complicado utilizarlo en algunas aplicaciones en tiempo real, como el servicio de atención al cliente, donde esperamos respuestas rápidas.
Tras la reciente lucha de Bard, el mercado reaccionó inmediatamente eliminando un 7%, o 144.000 millones de dólares, de la valoración de Alphabet, mostrando así cierta pérdida de confianza en la tecnología de IA de Google. (1)
¿Cuál es la pieza que falta para el éxito de los LLM?
Aunque es posible que unos modelos lingüísticos tan complejos e impredecibles no estén preparados para interacciones sin control directamente con los clientes, el portavoz de Google destaca el elemento que falta para el éxito de los LLM: «pruebas rigurosas».
Como con cualquier tipo de prueba, el propósito de probar los LLM es evaluar su rendimiento, capacidades, limitaciones y riesgos potenciales para evitar que difundan información errónea y garantizar que sean seguros y fiables.
Lamentablemente, probar los LLM es comparable a probar el universo global de la información o un motor de búsqueda, lo que plantea un enorme desafío. En lugar de la evaluación humana, que es lenta, subjetiva, incoherente e ineficaz, deberíamos dejar esta tarea a la automatización, una estrategia de pruebas que es realmente escalable y proporciona una garantía de calidad a lo largo del camino para estos enormes modelos.
Por supuesto, las pruebas aquí no resuelven todos los problemas.
Cómo aprovechar los LLM con éxito y evitar los peligros actuales
Los LLM han demostrado unas capacidades impresionantes a la hora de generar texto de apariencia humana difícil de distinguir del texto escrito por humanos reales, pero aún persisten los peligros inherentes a su uso para aumentar el servicio de atención al cliente.
El objetivo de Cyara en este artículo es esbozar posibles estrategias que podrían aumentar la confianza de las organizaciones en los LLM mediante la creación de una estructura con resultados más predecibles.
A continuación presentamos tres formas en las que creemos que cualquiera puede aprovechar la avanzada tecnología y obtener beneficios que permite el uso de los LLM sin comprometer la calidad de su IA conversacional.
Reducir el alcance: Un enfoque que pueden adoptar las empresas es crear un modelo de IA generativa más pequeño basado en sus propios datos internos supervisados. Esto permitiría a la empresa implementar ciertos límites para sus LLM. Esta técnica implica cosas como el ajuste fino (alimentar el modelo con una pequeña cantidad de datos adaptados a la tarea en cuestión), que centrará el modelo en un caso de uso específico del dominio, reduciendo así su alcance y aumentando su precisión. Estas personalizaciones pueden mejorar el rendimiento en una tarea específica. Básicamente, es como pedirle a un robot que se especialice en la universidad y se convierta en un experto en la materia.
Híbrido: Otro posible enfoque para aprovechar el potencial de LLM sin experimentar inconvenientes o riesgos es limitar el funcionamiento sólo a determinados casos de uso. Esto podría consistir en utilizar una IA conversacional para las «conversaciones de negocios» y recurrir a los LLM para las conversaciones triviales u otras interacciones «más humanas».
Potencia tus datos de entrenamiento y prueba: La potencia de los LLM no se limita a las aplicaciones conversacionales orientadas al cliente, sino que también puede ayudar a acelerar el desarrollo de datos de entrenamiento y prueba. Botium, la plataforma de garantía de calidad de Cyara para IA conversacional, permite a los usuarios desarrollar rápidamente datos de entrenamiento y prueba a través de una integración con GPT3, desarrollado por OpenAI. GPT3 es un sistema de IA que produce lenguaje natural y sólo requiere una pequeña cantidad de texto de entrada para generar grandes volúmenes de ejemplos de usuario relevantes y sofisticados para el chatbot de su organización.
Esto significa poner a los chatbots basados en NLP a cargo de las preguntas de precisión intensiva y dejar que los LLM se ocupen de conversaciones más sencillas y generales. Esto combina más tecnologías para equilibrar las necesidades de los clientes, como la personalización y la veracidad. Una solución híbrida como esta también abriría la puerta a las pruebas automatizadas, que ayudarían a superar los principales obstáculos de control de calidad antes de declarar con confianza «¡Éxito!»
Dirigir un centro de contacto digital de autoservicio ya es una tarea difícil sin las complicaciones adicionales que plantean los LLM y las IA conversacionales. Encontrar un equilibrio entre las ventajas y los posibles riesgos de utilizar LLM es un dilema que llevará tiempo resolver, pero no tiene por qué depender únicamente de usted y de su equipo para sortear estas dificultades.
Con una solución de pruebas y monitorización como Cyara Botium, puede automatizar el control de calidad y ampliar su capacidad de pruebas mucho más allá de lo que puede hacer manualmente. Esto garantiza que pueda probar y supervisar continuamente todo su sistema y sentirse seguro de que está ofreciendo una CX impecable.