Fabio Chiusano - Planeta Chatbot

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the acf domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6170

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the all-in-one-seo-pack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6170

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wp-user-avatar domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6170

Warning: Cannot modify header information - headers already sent by (output started at /home/planetac/desa.planetachatbot.com/wp-includes/functions.php:6170) in /home/planetac/desa.planetachatbot.com/wp-content/plugins/all-in-one-seo-pack/app/Common/Meta/Robots.php on line 87

Warning: Cannot modify header information - headers already sent by (output started at /home/planetac/desa.planetachatbot.com/wp-includes/functions.php:6170) in /home/planetac/desa.planetachatbot.com/wp-includes/feed-rss2.php on line 8
Fabio Chiusano - Planeta Chatbot https://desa.planetachatbot.com Comunidad de expertos en IA Conversacional Tue, 06 Aug 2024 11:05:31 +0000 es hourly 1 https://wordpress.org/?v=7.0.2 https://desa.planetachatbot.com/wp-content/uploads/2021/05/cropped-favicon-32x32.png Fabio Chiusano - Planeta Chatbot https://desa.planetachatbot.com 32 32 Noticias mensuales sobre IA y NLP – julio 2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-julio-2024/?utm_source=rss&utm_medium=rss&utm_campaign=noticias-mensuales-sobre-ia-y-nlp-julio-2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-julio-2024/#respond Tue, 06 Aug 2024 06:00:29 +0000 https://desa.planetachatbot.com/?p=18262 Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet. 😎 Noticias 1º semana 2º semana 3º semana 4º semana 5º semana 📚 Guías 1º semana 2º semana 3º semana 4º semana 5º semana 🔬 Papers y repositorios de interés 1º semana 2º semana 3º semana 4º semana 5º semana

The post Noticias mensuales sobre IA y NLP – julio 2024 first appeared on Planeta Chatbot.

]]> Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.

Noticias

1º semana

Gemini 1.5 Pro 2M ventana de contexto, capacidades de ejecución de código, y Gemma 2 están disponibles hoy. Gemini 1.5 Pro se ha actualizado con una ventana de contexto de tokens 2M más grande y nuevas funciones de ejecución de código para mejorar el rendimiento en tareas complejas. Gemma 2 ya se puede probar en Google AI Studio, y se ha publicado el ajuste de Gemini 1.5 Flash.
Colabora con Claude en proyectos. Claude.ai introduce la función Proyectos para usuarios Pro y Team, aprovechando la ventana contextual de 200K de Claude 3.5 Sonnet para mejorar el trabajo colaborativo a través de chats organizados, integración de documentos y asistencia personalizada. La adición de artefactos y un feed de actividad compartida fomenta la co-creación y la inspiración dentro de la plataforma.
Apple es la primera empresa acusada de infringir la normativa de la UE sobre mercados digitales. La UE ha acusado a Apple de infringir la Ley de Mercados Digitales debido a las políticas restrictivas de App Store. Se ha iniciado una nueva investigación sobre la forma en que Apple gestiona las tiendas de aplicaciones alternativas y las tasas asociadas. Apple podría enfrentarse a multas de hasta el 10% de sus ingresos globales y ha declarado que cooperará con los reguladores de la UE.
Las grandes discográficas demandan a las empresas de IA Suno y Udio por supuesta infracción de derechos de autor. Los principales sellos discográficos han demandado a las empresas de IA musical Suno y Udio por infracción de derechos de autor, alegando el uso sin licencia de canciones protegidas por derechos de autor para entrenar a sus IA, que pueden producir canciones parecidas a las de artistas populares. Suno y Udio alegan que su trabajo es transformador y puede considerarse uso legítimo.
Apple no lanzará tecnología de IA en el mercado de la UE por motivos normativos. Apple Inc. ha pospuesto el lanzamiento de nuevas tecnologías de IA en la UE debido a los requisitos de cumplimiento de la Ley de Mercados Digitales, cuyo objetivo es evitar que se favorezcan productos propios y se haga un uso indebido de los datos de los consumidores, lo que afecta a la privacidad y la seguridad. Esto afecta a funciones como Apple Intelligence, iPhone Mirroring y SharePlay, ya que Apple se considera un «guardián» según la normativa de la UE.
Stability.ai consigue un nuevo CEO y un dream team inversor para iniciar su misión de rescate. Prem Akkaraju ha sido nombrado nuevo consejero delegado de Stability.ai, creadora de Stable Diffusion, además de recibir inversiones de figuras notables. El papel de Akkaraju es fundamental para dirigir los esfuerzos de cambio de rumbo de la empresa, aprovechando su experiencia como antiguo CEO de Weta Digital.
Al parecer, YouTube quiere pagar a las discográficas por utilizar sus canciones para entrenar la inteligencia artificial. YouTube busca acuerdos de licencia con los grandes sellos discográficos Sony, Universal y Warner para el entrenamiento de la IA con el fin de eludir los problemas de derechos de autor, pero se enfrenta a la oposición de los artistas. Mientras tanto, los sellos discográficos han demandado a las plataformas musicales de IA Suno y Udio por infracción de derechos de autor.
Figma AI: herramientas inteligentes para los diseñadores. Figma ha lanzado Figma AI, una nueva plataforma de diseño mejorada con inteligencia artificial que incluye funciones de búsqueda, herramientas generativas de texto e imágenes y funciones avanzadas de creación de prototipos. Actualmente está en fase beta y es gratuita hasta 2024, aunque su uso puede tener un límite en función del coste de las herramientas.
La IA de Snapchat convierte las sugerencias en nuevas lentes. Snapchat ha lanzado una función que permite a los usuarios crear lentes personalizadas basadas en la inteligencia artificial utilizando mensajes de texto, aprovechando los datos de interacción del usuario y la actividad en línea para adaptar las experiencias.

2º semana

Phil Schiller, de Apple, podría formar parte del consejo de OpenAI. Phil Schiller, jefe de la App Store de Apple, podría ser nombrado observador del consejo sin ánimo de lucro de OpenAI para profundizar en su conocimiento de la IA a medida que Apple integra ChatGPT en sus sistemas operativos. Participará en las reuniones sin derecho a voto.
Adept se une a Amazon. El equipo de Adept, incluidos sus cofundadores, se integra en la división AGI de Amazon, con el objetivo de avanzar en los esfuerzos de inteligencia general. Amazon ha adquirido la licencia de la avanzada tecnología de agentes multimodales de Adept y ha adquirido conjuntos de datos seleccionados.
Elon Musk: Grok 2 AI llegará en agosto. Elon Musk ha desvelado sus planes para Grok 2, un nuevo modelo de IA que llegará en agosto de 2024 y que promete una mayor eficiencia. Su empresa prevé una actualización a Grok 3 a finales del mismo año, utilizando la tecnología punta de GPU de Nvidia.
YouTube ya permite solicitar la eliminación de contenidos generados por IA que simulen tu cara o tu voz. La política de privacidad revisada de YouTube permite ahora a los usuarios solicitar la retirada de contenido deepfake que replique su imagen si plantea problemas de privacidad, con ciertas consideraciones sobre el contexto del contenido y el interés público.

3º semana

Microsoft renuncia a su puesto de observador en el consejo de OpenAI. Microsoft ha renunciado a su puesto de observador en el consejo de OpenAI, lo que refleja su confianza en la trayectoria de OpenAI bajo la dirección de su consejero delegado, Sam Altman. Este movimiento agiliza la relación de Microsoft con OpenAI y posiblemente también aborda cuestiones antimonopolio. OpenAI no ofrecerá funciones de observador en el futuro, prefiriendo interacciones directas de asociación, como con Microsoft y Apple.
Figma retira su herramienta de IA tras las críticas por copiar el diseño de Apple. Figma retiró su herramienta de IA, Make Designs, tras las acusaciones de replicar las interfaces de las aplicaciones meteorológicas para iOS de Apple. El CEO Dylan Field reconoció que el rápido lanzamiento había sido defectuoso, y el CDT Kris Rasmussen señaló el uso de modelos de IA de terceros, no desarrollados internamente por Figma, lo que indica posibles problemas de formación con modelos de IA potencialmente procedentes de entidades como OpenAI o Amazon.
OpenAI desvela una escala de cinco niveles de IA, con el objetivo de alcanzar pronto el nivel 2. La escala de progresión de la IAG de cinco niveles de OpenAI indica una aproximación al nivel 2 «Razonador», que demuestra una resolución de problemas similar a la humana. Se prevé que el nivel 2, caracterizado por una lógica y un razonamiento avanzados, pueda alcanzarse en los próximos 1,5 años.
Stability AI lanza las funciones del Asistente Estable. Stability AI ha mejorado su Asistente Estable con las nuevas funciones de Stable Diffusion 3, que incluyen «Buscar y reemplazar» para el intercambio de objetos en imágenes, junto con las funciones existentes para la edición de imágenes, el escalado y la generación de vídeo.
Actualización de la licencia de Stability AI. Stability AI ha revisado sus licencias y ha adoptado la «Stegree AI Community License», que ofrece condiciones más generosas para particulares y pequeñas empresas, incluido el uso gratuito por debajo de determinados umbrales de ingresos y sin restricciones para uso no comercial y de pequeñas empresas, al tiempo que aborda los problemas de calidad con el modelo SD3 Medium.

4º semana

GPT-4o mini: inteligencia rentable. OpenAI ha lanzado GPT-4o mini, un modelo de IA avanzado y rentable con un precio de 0,15 $/millón de tokens de entrada y 0,60 $/millón de tokens de salida, que ofrece un rendimiento superior a un coste inferior que GPT-3.5 Turbo.
Mistral NeMo. Mistral, en colaboración con NVIDIA, ha lanzado el modelo Mistral NeMo de 12B parámetros, que incluye una ventana de contexto de tokens de 128.000, compatibilidad con FP8 y un tokenizador Tekken de última generación. Es de código abierto Apache 2.0, ofrece funciones multilingües mejoradas y supera a la versión anterior de 7B en tareas de seguimiento de instrucciones.
Apple, Nvidia y Anthropic utilizaron miles de vídeos robados de YouTube para entrenar la IA. Una investigación ha revelado que grandes empresas de IA, como Apple, Nvidia y Anthropic, han entrenado sus modelos de IA utilizando subtítulos de más de 173.000 vídeos de YouTube, lo que podría infringir la política de YouTube contra la captación de datos y plantear cuestiones sobre los derechos y la compensación de los creadores.
Codestral Mamba. Mistral ha presentado Codestral Mamba, un nuevo modelo de Mamba centrado en la codificación y conocido por gestionar eficazmente secuencias largas con inferencia en tiempo lineal y soporte teórico para longitudes de secuencia ilimitadas. Compite con los principales modelos SOTA y es de código abierto, accesible para la extensión a través del repositorio GitHub con opciones de integración como mistral-inference SDK, TensorRT-LLM, y una próxima llama.cpp.
Meta lanzará Llama 3 400b la semana que viene – aquí tienes por qué debería importarte. Meta planea lanzar Llama 3 400B en julio de 2024, ampliando la serie de modelos Llama 3 AI. Este modelo de código abierto ofrecerá funciones mejoradas para chatbots y aplicaciones multilingües, con el objetivo de proporcionar un amplio acceso a los últimos avances en IA.
Kevin Scott, CTO de Microsoft, cree que las «leyes de escalado» de LLM se mantendrán a pesar de las críticas. En un podcast de Sequoia Capital, Kevin Scott, director técnico de Microsoft, expresó su confianza en el potencial de crecimiento de los Large Language Models, cuestionando la idea de un pico de desarrollo de la IA y destacando las ventajas de ampliar el tamaño de los modelos y las capacidades de entrenamiento.

5º semana

Meta lanza Llama 3.1. Meta ha presentado el modelo Llama 3.1 405B, una IA de código abierto de última generación para grandes idiomas con funciones avanzadas de multilingüismo, razonamiento y uso de herramientas, junto con mejoras en sus modelos 8B y 70B. La actualización ofrece mayores longitudes de contexto, mejor entrenamiento y evaluaciones exhaustivas, y está disponible para su descarga en varias plataformas.
Mistral lanza Mistral Large 2. Mistral lanza su nuevo modelo, Mistral Large 2, con 123.000 millones de parámetros y una ventana de contexto de 128.000, que ofrece compatibilidad con varios idiomas y lenguajes de programación, optimizado para la inferencia de alto rendimiento en un solo nodo. Ofrece una precisión del 84,0% en la prueba de referencia MMLU, una generación de código mejorada y capacidades de razonamiento. El modelo está disponible con opciones de licencia comercial y de investigación.
La IA alcanza el nivel de medalla de plata resolviendo problemas de la Olimpiada Matemática Internacional. AlphaProof y AlphaGeometry 2, dos sistemas de IA, demostraron su destreza resolviendo 4 de los 6 problemas de la Olimpiada Matemática Internacional, alcanzando el nivel de medalla de plata. AlphaProof aplicó el aprendizaje por refuerzo avanzado en matemáticas formales, y el enfoque híbrido neuro-simbólico de AlphaGeometry 2 dio lugar a avances sustanciales en la resolución de problemas de geometría compleja.
El nuevo prototipo SearchGPT de OpenAI es una declaración de guerra contra Google. OpenAI ha lanzado «SearchGPT», un prototipo de herramienta de búsqueda conversacional con mejoras de la información web en tiempo real, que desafía la hegemonía de Google en el mercado de los motores de búsqueda prometiendo una experiencia de usuario más eficaz y precisa.
OpenAI permite ajustar GPT-4o mini de forma gratuita. OpenAI permite ahora a los usuarios de nivel 4 y 5 ajustar GPT-4o mini para casos de uso específicos con los primeros 2 millones de tokens de entrenamiento diarios gratuitos hasta el 23 de septiembre, con planes de ampliar esta función a todos los niveles de usuarios con el tiempo.
Condé Nast envía una orden de cese y desistimiento a Perplexity AI por el robo de datos. Condé Nast ha emprendido acciones legales contra el motor de búsqueda Perplexity AI por el uso no autorizado de su contenido, reflejando la respuesta anterior de Forbes y en medio de una investigación en curso de Amazon sobre el raspado de datos de Perplexity. La situación pone de manifiesto los crecientes problemas legales que plantea la IA en relación con el uso de contenidos y sus posibles implicaciones para el sector de los medios de comunicación.
Un estudio revela un rápido aumento de los dominios web que bloquean los datos de entrenamiento de los modelos de IA. Un estudio indica un notable aumento de abril de 2023 a abril de 2024 en los dominios web que utilizan bloqueos para evitar que los modelos de IA obtengan datos de entrenamiento, lo que podría llevar a que las IA se basen en información sesgada u obsoleta.

Guías

1º semana

¿Qué es un agente? Un agente, en el contexto de los sistemas LLM, se refiere a los diversos grados de capacidades autónomas que tienen dichos sistemas, desde el enrutamiento básico de tareas hasta las operaciones totalmente autónomas. El artículo examina el desarrollo, la orquestación y la supervisión necesarios que acompañan al aumento de la autonomía del sistema.
Bienvenido a Gemma 2, el nuevo LLM abierto de Google. Se ha lanzado Gemma 2 de Google, que presenta modelos avanzados con un máximo de 27.000 millones de parámetros adaptados a casos de uso de instrucción básica y especializada. Incorpora técnicas novedosas de IA, como la atención por ventana deslizante, el logit soft-capping, la destilación de conocimientos y la fusión de modelos, con disponibilidad en la plataforma Hugging Face.
Las mejores herramientas de IA para la investigación: Evaluación de ChatGPT, Gemini, Claude y Perplexity. El artículo proporciona un análisis comparativo de cuatro herramientas de investigación de IA – ChatGPT, Gemini, Claude y Perplexity – examinando su calidad de respuesta, acceso a datos en tiempo real, capacidades de referenciación, análisis de documentos y opciones de suscripción para mejorar la productividad en entornos de investigación académica y empresarial.
Creación de un asistente de código personalizado con LLM de código abierto mediante el ajuste fino de RAG. La investigación demuestra que el ajuste fino de los LLM con la Generación Mejorada por Recuperación (RAG) puede mejorar el rendimiento de la generación de código reduciendo errores como las alucinaciones y la información obsoleta. Las pruebas realizadas en la plataforma Together AI revelan que los modelos ajustados con RAG, concretamente utilizando Mistral 7B Instruct v0.2, superan a competidores como Claude 3 Opus y GPT-4o en términos de precisión, eficiencia y coste.
Puesta a punto de Florence-2: los modelos de lenguaje de visión más avanzados de Microsoft. Florence-2 de Microsoft es un modelo híbrido de visión y lenguaje que destaca en tareas de OCR y detección de objetos. Integra un codificador de visión DaViT con incrustaciones BERT y muestra un rendimiento mejorado tras el ajuste fino con el conjunto de datos DocVQA, alcanzando una puntuación de similitud de 57,0. Este avance se atribuye a su preentrenamiento en el conjunto de datos a gran escala FLD-5B.

2º semana

¿Por qué la mayoría de los LLM son sólo decodificadores? Los grandes modelos lingüísticos suelen utilizar una arquitectura de sólo descodificador porque es eficaz para el preentrenamiento generativo y rentable, y presenta una fuerte generalización de cero disparos. Aunque los modelos codificador-decodificador pueden sobresalir en el ajuste fino multitarea, el entrenamiento extensivo disminuye la diferencia de rendimiento, favoreciendo los modelos sólo decodificador para diversas aplicaciones.
Mitos sobre el escalado de la IA. El artículo cuestiona la creencia de que la simple ampliación de los modelos lingüísticos dará lugar a una inteligencia artificial general, destacando problemas como la exageración de las leyes de ampliación, los conceptos erróneos sobre las capacidades emergentes y las limitaciones prácticas como la escasez de datos y el aumento de los costes.
¿Qué es una «arquitectura cognitiva»? El artículo discute el papel de la arquitectura cognitiva en el desarrollo de aplicaciones impulsadas por LLMs, delineando el espectro de autonomía desde scripts básicos hasta sofisticados agentes autónomos, y destaca su importancia en el despliegue de sistemas de toma de decisiones basados en LLMs.
Chatbot RAG con llama3. El artículo describe el desarrollo de un chatbot de Generación Mejorada de Recuperación basado en el modelo de lenguaje llama3, detallando la incorporación de conocimiento externo, la configuración de las bibliotecas necesarias y la incrustación de conjuntos de datos, así como el uso de un índice faiss para la recuperación eficiente de información.

3º semana

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision. FlashAttention-3 mejora la eficiencia del modelo Transformer optimizando la utilización de la GPU, especialmente para los mecanismos de atención. Aprovechando los núcleos tensoriales y el acelerador de memoria tensorial de la GPU Hopper, consigue hasta un 75% de utilización y 1,2 PFLOPS en FP8, lo que aumenta la velocidad entre 1,6 y 2 veces y permite entrenar con mayor eficacia modelos de lenguaje de gran tamaño con requisitos de memoria reducidos.
Los trabajos para los que he estado utilizando la IA en solitario. El autor examina la aplicación de modelos de IA para agilizar la codificación, el desarrollo de interfaces de usuario, la funcionalidad de búsqueda, la documentación y la comunicación empresarial, destacando herramientas como Cursor para tareas de codificación y Claude para optimizar las interacciones por correo electrónico.
El verano de la IA. El artículo analiza la discrepancia entre las grandes expectativas que despierta la IA y la lentitud de su adopción real en los sectores empresarial y de consumo, haciendo hincapié en retos como los prolongados ciclos de ventas en las empresas, los planteamientos conservadores de los directores de sistemas de información y las ideas erróneas sobre la IA como solución «plug and play». También aborda los problemas relacionados con la sobreinversión alimentada por la exageración del mercado y la dinámica competitiva, a pesar del importante crecimiento de usuarios de soluciones como ChatGPT.
Entrenar un modelo Llama desde cero. El artículo proporciona una guía paso a paso para entrenar un modelo de lenguaje Llama utilizando la biblioteca Transformers, incluyendo fragmentos de código para cada etapa, desde la instalación de la biblioteca y la configuración del tokenizador hasta el entrenamiento del modelo y la carga del modelo final en el Hugging Face Hub.
Agent Dev & The Case for The Engineer’s Creative Process. El artículo analiza cómo el desarrollo de agentes inteligentes a través del aprendizaje automático ha evolucionado hacia una práctica más artística, instando a los ingenieros a adoptar la creatividad y una mentalidad relacional debido a los aspectos no lineales e impredecibles del proceso de desarrollo.

4º semana

Consejos para entrenar eficazmente sus modelos de aprendizaje automático. El artículo ofrece un recorrido detallado para el entrenamiento de modelos de aprendizaje automático, incluido el preprocesamiento de datos, la ingeniería de características, el tratamiento de los desequilibrios de clase, el empleo de la validación cruzada y el ajuste de hiperparámetros para la selección de modelos, y la utilización de métodos de conjunto para mejorar la estabilidad del modelo y evitar el sobreajuste.
Alucinaciones de la IA: Donde la inteligencia artificial se encuentra con la imaginación artificial. El artículo examina el problema de las «alucinaciones» en los LLM, donde se generan contenidos coherentes pero inexactos debido a la dependencia de la IA de la predicción de patrones en lugar de la recuperación de datos objetivos.
Ajuste fino de Llama-3 para obtener el 90% del rendimiento de GPT-4 por una fracción del coste. El artículo detalla el proceso de mejora de las capacidades de Llama-3 hasta casi igualar el rendimiento de GPT-4 mediante el ajuste de datos patentado en la plataforma Together AI. Tras emplear el conjunto de datos Math Instruct, el modelo Llama-3 de 8.000 millones de parámetros alcanzó una notable precisión del 65%, superando la precisión de la versión mayor de 70.000 millones de parámetros y acercándose a la precisión del 71,4% de GPT-4o.
Docmatix – Un enorme conjunto de datos para la respuesta a preguntas visuales sobre documentos. Docmatix, un amplio conjunto de datos para Document Visual Question Answering, ofrece 2,4 millones de imágenes y 9,5 millones de pares Q/A de 1,3 millones de PDF, mejorando el rendimiento de la tarea DocVQA en un 20% con el modelo Florence-2. Está disponible en Hugging Face Hub para mejorar la investigación y las aplicaciones del modelo de visión y lenguaje.

5º semana

Llama 3.1-405B, 70B y 8B con multilingüismo y contexto largo. Meta ha lanzado Llama 3.1 con modelos multilingües en tamaños 8B, 70B y 405B, con manejo de contexto más largo, ajuste de instrucciones para la optimización de tareas, seguridad mejorada contra inyecciones puntuales y compatibilidad con servicios en la nube.
Por qué las IA deben pararse a pensar antes de responder. El autor investiga el impacto de la «cadena de pensamiento» en la calidad de la respuesta de la IA, observando mejores resultados cuando la IA imita la planificación humana antes de responder.
Tres arquetipos de nuevas aplicaciones de IA. El artículo describe tres tipos de empresas emergentes de aplicaciones de IA: AI Copilots, que refuerzan la productividad ayudando en las tareas primarias; AI Colleagues, que ejecutan tareas de forma independiente para mejorar la eficiencia operativa; y AI Native Services, que son empresas altamente automatizadas que automatizan servicios completos para competir con las empresas convencionales ofreciendo alternativas de alta calidad y menor coste.
Uso de los LLM para la evaluación. Los LLM como el GPT-4 pueden utilizarse como evaluadores escalables y rentables de otros modelos utilizando la metodología del LLM como juez. Este enfoque aprovecha las indicaciones directas para aproximarse al juicio humano en la evaluación de los resultados del modelo y se ajusta bien a las preferencias humanas, aunque requiere una gestión cuidadosa de los sesgos introducidos. Las métricas de evaluación tradicionales son menos eficaces para tareas de IA complejas, que LLM-as-a-Judge puede abordar con mayor eficacia.
La desigual distribución del impacto ambiental de la IA. El artículo analiza la creciente huella medioambiental de la IA, en particular su elevado consumo de energía y agua, y cómo esto agrava las disparidades regionales. Señala los avances en las prácticas sostenibles de la IA, pero subraya la necesidad de una distribución más justa de los costes ambientales de la IA, abogando por el equilibrio geográfico de la carga en las zonas de riesgo para hacer frente a las desigualdades.

Papers y repositorios de interés

1º semana

Juzgando a los jueces: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges. l estudio investiga la eficacia de los LLM a la hora de evaluar el rendimiento de sus homólogos, utilizando el conjunto de datos TriviaQA y anotaciones humanas como puntos de referencia. Revela incoherencias en las evaluaciones de los modelos y pone de relieve que los índices de concordancia entre los LLM no siempre reflejan la verdadera alineación, como demuestra la variación en las puntuaciones.
Adam-mini: utilice menos tasas de aprendizaje para obtener más. El optimizador Adam-mini ofrece un rendimiento igual o superior al de AdamW con un uso de memoria entre un 45% y un 50% menor, gracias a su asignación estructurada de tasas de aprendizaje para grupos de parámetros. También aumenta el rendimiento hasta un 49,6% y reduce la sobrecarga computacional.
Evidencia de una ley de escala logarítmica para la persuasión política con grandes modelos lingüísticos. Un estudio sobre la influencia del tamaño de los modelos lingüísticos en la capacidad de persuasión política ha revelado que los modelos de mayor tamaño presentan rendimientos decrecientes en persuasión, y que los modelos pequeños son casi tan eficaces como los grandes. La pequeña superioridad de los modelos más grandes se atribuye a una mayor coherencia y enfoque temático, lo que implica beneficios insignificantes si se amplían aún más los modelos lingüísticos.
Meta Large Language Model Compiler: Modelos básicos de optimización de compiladores. Meta lanzó el compilador LLM que utiliza modelos preentrenados, incluido Code Llama, para mejorar la optimización del código. Estos modelos se entrenan en amplios conjuntos de datos de código intermedio y ensamblador y se presentan en variaciones con 7.000 y 13.000 millones de parámetros. Sus instancias afinadas pueden mejorar notablemente la optimización del tamaño del código y las tareas de desmontaje para arquitecturas x86_64 y ARM.
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMsLongRAG es un nuevo marco de Generación Mejorada de Recuperación que amplía las unidades de recuperación para manejar hasta 4K tokens. Aprovecha un modelo lingüístico de contexto largo, lo que le permite extraer respuestas sin entrenamiento adicional y alcanzar altas puntuaciones de coincidencia exacta, comparables al rendimiento del estado del arte.

2º semana

Meta 3D Gen. Meta 3D Gen (3DGen) es un proceso basado en IA que genera rápidamente modelos 3D detallados y texturas a partir de descripciones de texto, con capacidades para el renderizado basado en la física y el retexturizado de activos.
GraphRAG: nueva herramienta para el descubrimiento de datos complejos, ahora en GitHub. Microsoft ha publicado en GitHub GraphRAG, una herramienta avanzada de generación aumentada de recuperación que supera a los sistemas RAG tradicionales. Emplea un amplio modelo lingüístico para construir grafos de conocimiento jerárquicos a partir de textos, mejorando la exhaustividad y diversidad de los datos al hacer hincapié en las relaciones entre entidades.
Un año de GPT4All. Nomic ha presentado GPT4All 3.0, una importante actualización con una nueva interfaz de usuario centrada en la privacidad y la accesibilidad. Esta versión es compatible con una amplia gama de LLM en varios sistemas operativos y marca el hito de un año del proyecto con una notable participación de la comunidad.
Sin agente: Desmitificación de los agentes de ingeniería de software basados en LLM. El artículo analiza un enfoque sin agentes para el desarrollo de software que puede superar a los sistemas tradicionales basados en agentes en cuanto a rentabilidad y rendimiento, como demuestra la prueba SWE-bench Lite, mediante un sencillo proceso de localización y reparación en dos fases.
Resumen de un pajar: Un reto para los LLM de contexto largo y los sistemas RAG. La tarea «Summary of a Haystack» (SummHay) se establece para poner a prueba los modelos lingüísticos de contexto largo y los sistemas de generación aumentada de recuperación mediante la evaluación de su capacidad para resumir y citar a partir de documentos con ideas específicas repetidas.
landing-ai/vision-agent: Agente de visión. Vision Agent es una herramienta que automatiza la generación de código para tareas de visión por ordenador a partir de descripciones en lenguaje natural.

3º semana

Destilando el Sistema 2 en el Sistema 1. Este artículo examina la integración de los intrincados métodos de razonamiento del Sistema 2 (como la Cadena de Pensamiento) en los procesos más rápidos del Sistema 1 en los LLM. Mediante el aprendizaje autosupervisado, los autores han mejorado el rendimiento del Sistema 1 y reducido los costes de computación al integrar las capacidades de razonamiento del Sistema 2 en el Sistema 1, lo que sugiere un enfoque más eficiente para manejar el razonamiento complejo en la IA.
Aprovechamiento de representaciones discretas para el aprendizaje por refuerzo continuo. El artículo presenta conclusiones según las cuales las representaciones categóricas discretas basadas en vectores en agentes de aprendizaje por refuerzo (RL) conducen a un modelado del mundo más eficiente y a un mejor aprendizaje de políticas. Las pruebas empíricas obtenidas en diversos escenarios de RL, incluidos contextos de aprendizaje continuo, indican que tales representaciones permiten una adaptación más rápida y un mejor rendimiento.
MJ-Bench: ¿Es realmente su modelo de recompensa multimodal un buen juez para la generación de texto a imagen? MJ-Bench es un nuevo punto de referencia diseñado para evaluar los modelos de recompensa multimodal utilizados para proporcionar información sobre tecnologías de generación de texto a imagen, como DALLE-3 y Stable Diffusion. Pone a prueba los modelos en función de criterios como la alineación, la seguridad, la calidad de la imagen y el sesgo. En particular, la prueba ha revelado que los VLM de código cerrado, como GPT-4o, destacan por su eficacia a la hora de proporcionar retroalimentación. MJ-Bench se basa en un amplio conjunto de datos de preferencias para ajustar estos mecanismos de retroalimentación, y sus resultados están disponibles en Huggingface.
AriGraph: Aprendizaje de modelos de grafos de conocimiento con memoria episódica para agentes LLM. AriGraph es un enfoque novedoso que mejora los agentes LLM mediante la incorporación de un grafo de memoria estructurado, mejorando su toma de decisiones y planificación en entornos como TextWorld. Permite una recuperación asociativa eficiente de la memoria episódica y semántica, demostrando ser superior en tareas complejas relevantes para la autonomía en dominios prácticos como la cocina, la limpieza y los rompecabezas.
SylphAI-Inc/LightRAG: La librería Lightning para aplicaciones LLM.. LightRAG es una librería modular similar a PyTorch para la construcción de aplicaciones LLM como chatbots y generación de código, con un canal Retriever-Agent-Generator personalizable para varios casos de uso. Su código base transparente y modificable está diseñado para fomentar la confianza y la facilidad de adaptación.

4º semana

Leyes a escala con vocabulario: Modelos más grandes merecen vocabularios más grandes. Un estudio reciente subraya el papel fundamental que desempeña el tamaño del vocabulario en el rendimiento de los modelos lingüísticos de gran tamaño, y concluye que los modelos con hasta 3.000 millones de parámetros funcionan mejor con vocabularios proporcionalmente mayores. La introducción del análisis IsoFLOPs recomienda vocabularios más grandes que los empleados habitualmente, con pruebas empíricas que indican mejoras significativas en los resultados, ejemplificadas por puntuaciones ARC-Challenge más altas cuando se utilizan vocabularios de tamaño óptimo.
Spectra: estudio exhaustivo de modelos lingüísticos ternarios, cuantificados y FP16. El estudio Spectra presenta un amplio conjunto de 54 modelos de lenguaje de distintos tipos, incluidos modelos ternarios innovadores (TriLM), modelos cuantizados (QuantLM) y modelos tradicionales de coma flotante (FloatLM). Estos modelos abarcan un amplio espectro de complejidad de hasta 3.900 millones de parámetros y se han entrenado con un conjunto de datos de 300.000 millones de fichas. En particular, los TriLM demuestran un rendimiento superior al de sus homólogos ternarios y logran resultados equiparables a los de los modelos de coma flotante de media precisión (FP16), al tiempo que utilizan menos memoria.
Informe técnico de Qwen2. El informe técnico Qwen2 presenta la serie Qwen2 de modelos lingüísticos con 0,5 a 72 mil millones de parámetros, que supera a la serie Qwen1.5 en puntos de referencia, multilingüismo y ajuste de instrucciones, con el modelo Qwen2-72B demostrando un rendimiento notable en diversas evaluaciones.
Borrado de conceptos fiable y eficiente de modelos de difusión de texto a imagen. RECE es un nuevo método para eliminar rápidamente el contenido inapropiado de los modelos de difusión texto-imagen mediante una solución de forma cerrada que realinea de forma iterativa las incrustaciones de destino con conceptos inofensivos, manteniendo así el rendimiento generativo del modelo sin necesidad de más ajustes.

5º semana

meta-llama/llama-agentic-system: Componentes agenticos de las APIs de Llama Stack. El repositorio «llama-agentic-system» da soporte al modelo Llama 3.1, diseñado para tareas que requieren un razonamiento complejo y el uso de herramientas, con especial atención a la seguridad mediante el filtrado de contenidos de Llama Guard. Las principales características son la cuantificación FP8 y las herramientas de interfaz de línea de comandos para la gestión del modelo.
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model. Diffree es un modelo guiado por texto que integra de forma autónoma nuevos objetos en imágenes basándose en descripciones textuales, eliminando la necesidad de colocación manual y garantizando la coherencia visual y contextual.
CoD, Hacia un agente médico interpretable mediante la cadena de diagnóstico. El método Chain-of-Diagnosis (CoD) mejora la interpretabilidad de los diagnósticos médicos emulando el razonamiento de un médico mediante grandes modelos lingüísticos. Proporciona razonamientos transparentes y una distribución de la confianza en la enfermedad, mejorando así la localización de los síntomas y la precisión del diagnóstico, integrando los avances de la IA con la claridad médica.
KAN o MLP: una comparación más justa. En un estudio comparativo de los modelos KAN y MLP, la investigación demuestra que, si bien los MLP obtienen mejores resultados en la mayoría de las tareas cuando se ajustan los parámetros y la complejidad computacional, los modelos KAN muestran un rendimiento superior en tareas que implican la representación de fórmulas simbólicas, lo que se atribuye a su uso de funciones de activación B-spline.
Correspondencia local entre pares para el seguimiento de puntos. LocoTrack es un algoritmo avanzado de seguimiento de vídeo que consigue una gran precisión y eficacia mediante correlaciones locales 4D para la correspondencia de regiones, incluso en escenas repetitivas difíciles. Incorpora un diseño de transformador compacto para el análisis temporal a largo plazo y un codificador ligero que mejora la velocidad de procesamiento.

The post Noticias mensuales sobre IA y NLP – julio 2024 first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-julio-2024/feed/ 0 Noticias mensuales sobre IA y NLP – junio 2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-junio-2024/?utm_source=rss&utm_medium=rss&utm_campaign=noticias-mensuales-sobre-ia-y-nlp-junio-2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-junio-2024/#respond Thu, 11 Jul 2024 06:00:21 +0000 https://desa.planetachatbot.com/?p=17942 Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet. 😎 Noticias de la Web 1º semana 2º semana 3º semana 4º semana 📚 Guías web 1º semana 2º semana 3º semana 4º semana 🔬 Papers y repositorios de interés 1º semana 2º semana 3º semana 4º semana

The post Noticias mensuales sobre IA y NLP – junio 2024 first appeared on Planeta Chatbot.

]]> Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.

Noticias de la Web

1º semana

Gemini 1.5 Pro/Advanced en el nº 2 de la clasificación de LMSYS, justo detrás de GPT-4o. La última clasificación de LMSYS muestra que Gemini 1.5 Pro/Advanced ocupa el segundo puesto, justo detrás de GPT-4o, mientras que Gemini 1.5 Flash mantiene la novena posición, superando a Llama-3-70b y compitiendo estrechamente con GPT-4-0120.
Anthropic contrata al antiguo responsable de seguridad de OpenAI para dirigir su nuevo equipo. Jan Leike se ha trasladado de OpenAI a Anthropic para dirigir un nuevo equipo de seguridad de IA dedicado a la «superalineación», centrado en mejorar la supervisión escalable y la investigación de alineación de IA a gran escala.
xAI anuncia una ronda de financiación de serie B de 6.000 millones de dólares. xAI ha recaudado 6.000 millones de dólares en una ronda de serie B para ampliar el despliegue de tecnología de IA, incluida su serie Grok-1, y para innovar en nuevos productos, basándose en un año de avances significativos en IA y en el lanzamiento del código abierto Grok-1.
Mistral lanza Codestral. Codestral es el nuevo modelo de IA generativa de Mistral AI centrado en la codificación, con dominio de más de 80 lenguajes de programación y una amplia ventana de contexto de 32.000 para un rendimiento superior en pruebas comparativas.
China invierte 47.000 millones de dólares en el mayor fondo de chips de la historia. China asignó 47.480 millones de dólares a un nuevo fondo para chips destinado a impulsar la producción nacional de semiconductores, un paso fundamental hacia la autosuficiencia y la competitividad en sectores tecnológicos, incluida la IA.

2º semana

El supuesto acuerdo de Apple con ChatGPT podría coronar a OpenAI como rey del valle. Se prevé que Apple se asocie con OpenAI para incorporar ChatGPT al sistema operativo del iPhone, lo que podría anunciarse en la próxima WWDC. Esta integración, que podría revolucionar la interacción con la IA en los iPhones, podría suponer que ChatGPT mejorara Siri o se lanzara como una aplicación independiente, lo que señalaría el giro de Apple hacia la experiencia externa en IA.
Nvidia es ahora más valiosa que Apple, con 3,01 billones de dólares. Nvidia ha alcanzado una capitalización bursátil de 3,01 billones de dólares, impulsada por el auge de la inteligencia artificial, superando a Apple y convirtiéndose en la segunda empresa más valiosa del mundo.
Apple no se anda con rodeos y llamará a su IA «Apple Intelligence». Apple presentará «Apple Intelligence», una solución de IA con capacidades de chatbot similar a ChatGPT, en la WWDC del 10 de junio. Se incluirá en las próximas actualizaciones de iOS, iPadOS y macOS y está diseñada para funcionar sin conexión, lo que supone una asociación con OpenAI y mejoras para Siri.
AMD presenta nuevos chips de IA para competir con Nvidia. AMD desafía el liderazgo de Nvidia en IA con próximos lanzamientos: el MI325X en 2024, y las series MI350/MI400 en 2025-2026, que prometen notables aumentos de rendimiento para satisfacer las crecientes demandas de IA.
OpenAI renueva su equipo de robótica. OpenAI restablece su división de robótica, centrada en la creación de modelos de IA para aplicaciones robóticas en colaboración con empresas de robótica externas. Se trata de un giro estratégico que pasa de producir hardware interno a potenciar los robots humanoides mediante asociaciones, como demuestran las inversiones en entidades como Figure AI. La ampliación del equipo está en marcha gracias a la contratación activa de personal.
Nvidia y Salesforce podrían volver a apostar por la startup de IA Cohere en una ronda de 450 millones de dólares. La startup de IA generativa Cohere ha conseguido una ronda de financiación de 450 millones de dólares liderada por Nvidia y Salesforce, junto con nuevos inversores como Cisco y PSP Investments, lo que eleva su valoración a 5.000 millones de dólares desde los 2.200 millones anteriores. La empresa también ha revelado unos ingresos anualizados de 35 millones de dólares.
Stability AI lanza un generador de sonido. Stability AI ha lanzado «Stable Audio Open», un modelo de IA que genera sonido a partir de descripciones de texto utilizando muestras libres de derechos, orientado a un uso no comercial.

3º semana

OpenAI duplica sus ingresos anuales hasta los 3.400 millones de dólares. Los ingresos previstos de OpenAI para 2024 ascienden a 3.400 millones de dólares, frente a los 1.600 millones de 2023. Su consejero delegado, Sam Altman, menciona 3.200 millones de dólares procedentes de productos y servicios básicos de IA y 200 millones de dólares de asociaciones, como con Microsoft Azure. La valoración de la empresa se sitúa en 86.000 millones de dólares mientras sigue avanzando en la industria de la IA.
Nadella, de Microsoft, está construyendo un imperio de IA. OpenAI fue sólo el primer paso. Satya Nadella, consejero delegado de Microsoft, está mejorando las capacidades de IA de la empresa mediante la adquisición de activos de IA en todo el mundo, el cultivo de tecnologías de IA propias y, posiblemente, el posicionamiento de Microsoft como competidor de OpenAI. Esta expansión incluye la inversión en startups de IA y la contratación de expertos del sector.
Nvidia distribuyó 3,76 millones de GPU para centros de datos en 2023: domina el negocio con una cuota de ingresos del 98%. En 2023, Nvidia consolidó su posición en el mercado de GPU para centros de datos con una cuota del 98% al distribuir 3,76 millones de unidades y logró un notable aumento de los ingresos del 126% desde 2020, alcanzando los 60.900 millones de dólares, incluso en medio de las restricciones a la exportación y los obstáculos de fabricación de Estados Unidos.
Mistral AI, startup de IA con sede en París, recauda 640 millones de dólares. Mistral AI, una startup de IA con sede en París y con fundadores de Meta y DeepMind, ha conseguido 640 millones de dólares en una ronda de Serie B liderada por General Catalyst, alcanzando una valoración de 6.000 millones de dólares, y se centra en la creación de tecnologías de IA de vanguardia, equilibrando ofertas de código abierto y propietarias.
Lo más destacado de la WWDC24 de Apple. La WWDC 2024 de Apple destacó la presentación de Apple Intelligence, un nuevo sistema de inteligencia personal que aprovecha los modelos generativos y la integración del contexto personal en todo su ecosistema, junto con importantes actualizaciones de iOS 18, iPadOS 18, macOS Sequoia, watchOS 11, tvOS 18 y visionOS 2.
Luma Dream Machine. Luma Dream Machine de Lumalabs es un modelo de IA diseñado para sintetizar vídeos realistas de alta calidad a partir de texto e imágenes, aprovechando un método basado en transformadores optimizado para contenidos de vídeo.
Musk quiere prohibir Apple por aliarse con OpenAI. Elon Musk ha expresado su intención de prohibir los dispositivos de Apple en sus empresas en respuesta al anuncio de Apple de implantar ChatGPT de OpenAI en su sistema operativo, debido a aprensiones de seguridad.
El carácter de Claude. El artículo examina el «entrenamiento del carácter», centrándose en imbuir al modelo Claude 3 de atributos como la curiosidad y la apertura mental, además de la evitación del daño. Describe una estrategia de formación que trata de armonizar las capacidades interactivas de la IA con las normas éticas alineando con flexibilidad el comportamiento de la IA con rasgos específicos.

4º semana

Presentamos Claude 3.5 Sonnet. La última actualización de Claude 3.5 Sonnet ofrece mayor inteligencia, mayor velocidad de procesamiento y mayor eficacia a un precio competitivo, con notables avances en el razonamiento, la codificación y el procesamiento de la visión. Además, la nueva función «Artifacts» permite la colaboración en tiempo real.
Presentamos Gen-3 Alpha: Una nueva frontera para la generación de vídeo. Runway ha lanzado Gen-3 Alpha, una IA avanzada capaz de generar vídeos e imágenes a partir de texto e imágenes. Incorpora modos de control para manipulaciones detalladas y promete futuras mejoras en estructura, estilo y control del movimiento.
El CEO de OpenAI afirma que la empresa podría convertirse en una corporación con ánimo de lucro. OpenAI está considerando la posibilidad de convertirse en una «corporación benéfica con ánimo de lucro», alejándose de sus orígenes sin ánimo de lucro, una dirección similar a la de sus competidores del sector, como Anthropic y xAI, según ha indicado su CEO, Sam Altman.
Ilya Sutskever, antiguo científico jefe de OpenAI, lanza una nueva empresa de IA. Ilya Sutskever, junto con Daniel Gross y Daniel Levy, ha fundado Safe Superintelligence Inc. (SSI), una nueva empresa de IA con sede en Palo Alto y Tel Aviv dedicada a crear IA superinteligente con un fuerte énfasis en la seguridad. SSI está preparada para integrar los avances de la IA con sólidas medidas de seguridad, dando prioridad a la seguridad a largo plazo frente a los beneficios inmediatos, y se prevé que atraiga importantes inversiones debido a su convincente objetivo y a la habilidad de sus fundadores.
NVIDIA lanza una línea abierta de generación de datos sintéticos para el entrenamiento de grandes modelos lingüísticos. NVIDIA ha lanzado Nemotron-4 340B, un paquete abierto de modelos diseñado para crear datos sintéticos destinados al entrenamiento de modelos lingüísticos en diversos sectores. La suite, que incluye modelos base, de instrucción y de recompensa, se centra en mejorar la calidad y disponibilidad de los datos de entrenamiento. Está optimizado para NVIDIA NeMo y TensorRT-LLM, proporcionando soporte para un entrenamiento e inferencia más eficientes de los LLM.
Las elecciones indias estuvieron plagadas de deepfakes, pero la IA fue positiva para la democracia. Las elecciones de la India de 2024 vieron avances de la IA en la participación de los votantes a través de la comunicación deepfake y la traducción multilingüe en tiempo real. A pesar de los casos de trolling facilitado por la IA, la tecnología impulsó predominantemente la participación democrática y el acercamiento personalizado a los votantes, proyectando incluso encarnaciones virtuales de figuras políticas del pasado.
Generación de audio para vídeo. DeepMind ha creado un sistema V2A (Video-to-Audio) que utiliza un modelo de IA basado en la difusión para generar audio sincronizado para vídeos silenciosos, guiado por pistas visuales y textuales para producir entornos sonoros realistas.

Guías web

1º semana

Reproducir GPT-2 (124M) en llm.c en 90 minutos por 20 dólares. Karpathy ha creado una guía en la que explica cómo reproducir GPT-2 (124M) utilizando la implementación llm.c basada en C/CUDA, diseñada para configuraciones de una o varias GPU. El entrenamiento, que cuesta unos 20 dólares y dura 90 minutos, utiliza el conjunto de datos FineWeb de 10.000 millones de fichas. Este recurso proporciona instrucciones de instalación, orientación para la preparación del conjunto de datos y pretende mejorar el rendimiento del GPT-2 original con posibles mejoras futuras.
Training and Finetuning Embedding Models with Sentence Transformers v3. El artículo analiza el lanzamiento de Sentence Transformers v3.0, destacando las capacidades mejoradas para el entrenamiento y el ajuste de los modelos de incrustación con el fin de aumentar el rendimiento específico de la tarea, y muestra los componentes actualizados, incluidos los conjuntos de datos, las funciones de pérdida, los evaluadores y un entrenador mejorado.
Los LLM no son adecuados para el brainstorming (avanzado). El artículo critica los LLM actuales por su ineficacia en el brainstorming avanzado debido a su mimetismo con los patrones de datos existentes y su tendencia a las ideas consensuadas, y propone que los LLM requieren una evolución en los procesos de entrenamiento para fomentar la creatividad genuina.
Los medios de comunicación cometen un grave error con la IA. La autora subraya los escollos a los que se enfrentan las empresas de medios de comunicación que se asocian con la IA y que pueden socavar el valor y la sostenibilidad del periodismo. Aboga por centrarse en la producción de periodismo de calidad en lugar de buscar un alivio financiero inmediato a través de acuerdos de licencia potencialmente infravalorados con entidades de IA.
Mergoo: Construye eficientemente tu propio LLM de ME. Mergoo es una biblioteca diseñada para agilizar la fusión y formación de varios LLM en un modelo unificado empleando métodos como la mezcla de expertos, la mezcla de adaptadores y la fusión por capas.

2º semana

Extracción de conceptos de GPT-4. Los investigadores han empleado autocodificadores dispersos para descomponer la red neuronal de GPT-4 en 16 millones de características interpretables por el ser humano, lo que permite mejorar la comprensión de los procesos de IA. Sin embargo, descifrar completamente estas características sigue siendo un reto, lo que limita la eficacia de los autocodificadores existentes.
Descensura cualquier LLM con abliteración.
KL es todo lo que necesitas. El autor destaca la importancia de la divergencia de Kullback-Leibler como objetivo fundamental en el aprendizaje automático, crucial para medir las diferencias entre las distribuciones de probabilidad y optimizar los modelos a través de diversos métodos en este campo.
Herramientas basadas en IA que transforman la gestión y programación de tareas. El artículo destaca los avances de la IA en plataformas de productividad como Motion, Reclaim AI, Clockwise, ClickUp, Taskade y Asana, detallando su uso del aprendizaje automático para mejorar la gestión de tareas, la programación y la optimización general del flujo de trabajo.
Lo que aprendimos de un año de construcción con LLMs (Parte II). El artículo analiza las complejidades de desarrollar aplicaciones con LLM, destacando la necesidad de datos de alta calidad, la gestión cuidadosa de los resultados del modelo y las estrategias para integrar y mantener eficazmente las versiones de LLM. Subraya el papel fundamental que desempeñan el compromiso temprano de los diseñadores, la formación de un equipo cualificado y el cultivo de un entorno de trabajo innovador para superar los retos operativos únicos que plantea el desarrollo de productos basados en LLM.

3º semana

Presentación de los modelos fundacionales en dispositivo y servidor de Apple. En la WWDC de 2024, Apple presentó «Apple Intelligence» en iOS 18, iPadOS 18 y macOS Sequoia, con modelos generativos de IA de última generación en dispositivos y servidores (~3.000 millones de parámetros) centrados en mejorar la experiencia del usuario al tiempo que se hace hincapié en la privacidad y la eficiencia operativa.
La estrategia de IA de Apple en pocas palabras. Apple presentó su estrategia de IA en la WWDC 2024, centrada en la integración vertical a través de modelos internos de IA en dispositivos y centros de datos propios basados en el silicio de Apple. Haciendo hincapié en la privacidad, esta estrategia tiene como objetivo mejorar la posición en el mercado y la confianza de los usuarios, al tiempo que minimiza la dependencia de terceros fabricantes de chips.
Los artículos más importantes sobre LLMs de la semana del 03/06 al 09/06. Este artículo resume las últimas investigaciones sobre LLM de principios de junio de 2024, destacando los avances en evaluación comparativa, entrenamiento, cuantización y alineación, con especial atención a la cuantificación de la incertidumbre, la generación del habla, los sistemas multiagente y la comprensión robusta del lenguaje multitarea.
Incrustación posicional rotativa (RoPE): Motivación e implementación. El artículo profundiza en el Rotary Positional Embedding (RoPE) utilizado en modelos de transformadores. A diferencia de las incrustaciones sinusoidales absolutas tradicionales, RoPE aprovecha las rotaciones vectoriales para mejorar el reconocimiento de las dependencias de largo alcance en los datos.

4º semana

Extracción de conceptos de los LLM: Descubrimientos recientes de Anthropic. Anthropic ha mejorado la interpretabilidad de los LLM integrando autocodificadores dispersos (SAE) con modelos como Claude-3-Sonnet para extraer características interpretables en varios idiomas. Sin embargo, OpenAI advierte de que una dependencia excesiva de las características extraídas con SAE puede entorpecer el rendimiento. Esta investigación representa un avance sustancial en la descodificación de los LLM, pero aún no se ha logrado una comprensión completa.
Reflexiones sobre el entrenamiento de LoRA. El artículo aporta ideas sobre el entrenamiento de los LoRA, haciendo hincapié en la calidad del conjunto de datos y en la precisión de los pies de texto para un ajuste eficaz de los parámetros. Destaca los errores típicos, como la complicación excesiva, y ofrece consejos prácticos como el empleo de diversos estilos de imagen y la adaptación de la duración del entrenamiento a la fuente del conjunto de datos.
De la adulancia al subterfugio: investigación de la manipulación de recompensas en modelos lingüísticos. El artículo analiza cómo los modelos de inteligencia artificial que utilizan el aprendizaje por refuerzo pueden presentar «juego de especificaciones» y «manipulación de recompensas», lo que conduce a comportamientos manipuladores encaminados a maximizar las recompensas, que pueden incluir tácticas engañosas y modificaciones no entrenadas de sus funciones de recompensa. Los estudios demuestran que estos problemas persisten a pesar de los intentos por evitarlos.
Mantenimiento de la capacidad de IA a gran escala en Meta. Meta gestiona una importante infraestructura de IA que, según las previsiones, alcanzará las 600.000 GPU y se centra en garantizar el tiempo de actividad y las actualizaciones sin interrupciones mediante protocolos de mantenimiento, al tiempo que prioriza la estabilidad del sistema y la gestión eficiente de los recursos.

Papers y repositorios de interés

1º semana

llmware-ai/llmware: Marco unificado para construir pipelines RAG empresariales con modelos pequeños y especializados. Llmware proporciona un marco integral para construir pipelines de Generación Aumentada Recuperable (RAG) de nivel empresarial, ofreciendo un pipeline RAG integrado y acceso a más de 50 modelos especializados para funciones como QA y resumen. Facilita el rápido desarrollo de aplicaciones de IA basadas en el conocimiento y es compatible con modelos de código abierto, al tiempo que elimina la necesidad de una infraestructura de servidores de GPU.
Los transformadores pueden hacer operaciones aritméticas con las incrustaciones adecuadas. El artículo destaca que la adición de codificaciones posicionales a los modelos de transformadores mejora significativamente su capacidad para realizar operaciones aritméticas, logrando hasta un 99% de precisión en la suma de números de 100 dígitos y aumentando el rendimiento en otras tareas de razonamiento.
lavague-ai/LaVague: Large Action Model framework para desarrollar Agentes Web de IA. LaVague es un marco de IA de código abierto diseñado para crear agentes web. Aprovecha un Modelo Mundial para transformar los datos y objetivos del sitio web en comandos, que son ejecutados por un Motor de Acción compatible con herramientas como Selenium o Playwright.
Introducción al modelado Vision-Language. Este artículo ofrece una visión general de los modelos de visión-lenguaje (VLM) y analiza sus fundamentos, funcionamiento, técnicas de entrenamiento y estrategias de evaluación. También aborda los retos relacionados con la naturaleza compleja de los datos visuales y la incorporación de contenidos de vídeo para las personas que se inician en esta área de investigación de la inteligencia artificial.
Modelos multimodales Matryoshka. El artículo presenta los modelos multimodales Matryoshka (M3), que mejoran la eficacia de los modelos multimodales de gran tamaño (LMM), como LLaVA, al ofrecer una granularidad de tokens visuales ajustable para adaptarse a la complejidad de las imágenes durante la inferencia.

2º semana

Seed-TTS: una familia de modelos de generación de voz versátiles y de alta calidad. Seed-TTS engloba modelos avanzados autorregresivos y no autorregresivos de conversión de texto en habla capaces de generar un habla similar a la humana con variabilidad emocional, similitud con el hablante y naturalidad, mostrando también competencia en la generación y edición del habla de extremo a extremo mediante una arquitectura basada en la difusión.
Hola Qwen2. La serie Qwen2 supone un avance con respecto a Qwen1.5, ya que introduce cinco modelos de IA mejorados con nuevas características, como compatibilidad con 27 idiomas adicionales y funciones mejoradas de codificación y matemáticas. El destacado Qwen2-72B ofrece una seguridad superior y puede comprender contextos extensos de hasta 128.000 tokens. Estos modelos están disponibles en Hugging Face y ModelScope.
Los transformadores son SSM: Modelos generalizados y algoritmos eficientes mediante la dualidad estructurada del espacio de estados. Este artículo presenta un análisis de la relación estructurada entre los Transformadores y los modelos de espacio de estados (SSM) mediante el análisis matricial, introduciendo un marco teórico que conecta ambos. También presenta una arquitectura mejorada, Mamba-2, que se basa en su predecesora Mamba al ser significativamente más rápida (entre 2 y 8 veces) y mantener un rendimiento comparable en tareas de modelado lingüístico.
Concurso de fusión de LLM: Construcción eficiente de LLM mediante fusión. El artículo presenta una competición que reta a los participantes a integrar múltiples LLM ajustados para mejorar su rendimiento y adaptabilidad a nuevas tareas. Los concursantes utilizarán modelos expertos preentrenados con hasta 8.000 millones de parámetros del Hugging Face Model Hub, que están disponibles bajo licencias favorables a la investigación. El objetivo de la competición es minimizar los costes y los retos de entrenar a los LLM desde cero utilizando los modelos existentes.
Difusión de árboles sintácticos para la síntesis de programas. Este artículo presenta un método de síntesis de programas basado en modelos neuronales de difusión que perfeccionan el código de forma iterativa mediante ediciones en árboles sintácticos, lo que garantiza la corrección sintáctica y resuelve las limitaciones de la generación de código basada en tokens sin retroalimentación de salida en los grandes modelos de lenguaje existentes.

3º semana

El informe Prompt: Un estudio sistemático de las técnicas de incitación. El «Prompt Report» ofrece un análisis exhaustivo de los métodos de prompting en la IA Generativa, introduciendo una taxonomía y un conjunto unificado de términos con 33 entradas de vocabulario para prompts. Detalla 58 técnicas para sistemas basados en texto y 40 para modalidades no textuales con el fin de normalizar la comprensión en este ámbito emergente.
Depth Anything V2. Depth Anything V2 mejora la estimación monocular de la profundidad utilizando imágenes sintéticas y un modelo de profesor más amplio, junto con imágenes reales pseudoetiquetadas para una mejor generalización. Ofrece resultados significativamente más rápidos y precisos, con tamaños de modelo que varían entre 25M y 1,3B parámetros.
Samba: Modelos híbridos simples de espacio de estados para un modelado eficiente de lenguaje de contexto ilimitado. Samba es una novedosa arquitectura de modelos lingüísticos que combina el modelo selectivo de espacio de estados de Mamba con la atención de ventana deslizante para permitir una compresión eficiente de secuencias largas y una recuperación precisa de la memoria. Con una considerable escala de 3.800 millones de parámetros, Samba supera a los modelos lingüísticos existentes en el manejo de contextos ilimitados.
El modelo autorregresivo supera a la difusión: Llama para la generación escalable de imágenes. LlamaGen es un novedoso método de generación de imágenes que utiliza modelos autorregresivos con un eficaz tokenizador y modelos condicionales de clase para producir imágenes alineadas con texto de gran fidelidad.
When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models. Este estudio presenta avances en los LLM autorregresivos mediante la combinación de mecanismos de atención lineal y descodificación especulativa, lo que se traduce en notables mejoras de eficiencia, incluida una reducción de la perplejidad y un aumento de hasta el doble en la velocidad de generación.

4º semana

deepseek-ai/DeepSeek-Coder-V2: Rompiendo la barrera de los modelos de código cerrado en inteligencia de código. DeepSeek-Coder-V2 es un modelo de lenguaje de código abierto especializado en codificación y matemáticas, que presume de un mejor rendimiento que modelos propietarios como GPT4-Turbo. Es compatible con una impresionante gama de 338 lenguajes de programación, ofrece una longitud de contexto ampliada de 128K y se presenta en dos tamaños: 16.000 millones y 236.000 millones de parámetros. El modelo tiene licencia MIT, lo que permite su uso comercial y su fácil integración con API.
Aguja multimodal en un pajar: Evaluación comparativa de la capacidad de contexto largo de modelos lingüísticos multimodales de gran tamaño. Se ha introducido una nueva prueba denominada Aguja multimodal en un pajar (MMNeedle) para evaluar la capacidad de los modelos lingüísticos multimodales de gran tamaño (MLLM) para manejar contextos largos. Esta prueba pone a prueba los MLLM exigiéndoles que identifiquen componentes específicos dentro de entradas multiimagen, lo que sirve como medida de su procesamiento del contexto visual. Los resultados iniciales ponen de relieve la competencia de GPT-4 en escenarios de contexto largo, a pesar de las alucinaciones ocasionales y de la notable diferencia de rendimiento entre los modelos basados en API y los de código abierto.
XLand-100B: un conjunto de datos multitarea a gran escala para el aprendizaje por refuerzo en contexto. XLand-100B es un conjunto de datos a gran escala para el aprendizaje por refuerzo en contexto que incluye 100.000 millones de transiciones de 2.500 millones de episodios en aproximadamente 30.000 tareas. Construido sobre el marco XLand-MiniGrid, se creó con 50.000 horas de GPU para mejorar la investigación en este campo.
HelpSteer2: Conjunto de datos de código abierto para entrenar modelos de recompensa de alto rendimiento. HelpSteer2 es un conjunto de datos de código abierto con licencia CC-BY-4.0 diseñado para mejorar el entrenamiento de modelos de recompensa en LLM mediante la alineación con las preferencias humanas. Ha alcanzado un récord del 92,0% en Reward-Bench, con menos pares de datos que sus competidores.

The post Noticias mensuales sobre IA y NLP – junio 2024 first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-junio-2024/feed/ 0 Noticias mensuales sobre IA y NLP – mayo 2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-mayo-2024/?utm_source=rss&utm_medium=rss&utm_campaign=noticias-mensuales-sobre-ia-y-nlp-mayo-2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-mayo-2024/#respond Tue, 04 Jun 2024 06:00:53 +0000 https://desa.planetachatbot.com/?p=17802 Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet. 😎 Noticias de la Web 1º semana 2º semana 3º semana 4º semana 📚 Guías de la Web 1º semana 2º semana 3º semana 4º semana 🔬 Papers y repositorios de interés 1º semana 2º semana 3º semana […]

The post Noticias mensuales sobre IA y NLP – mayo 2024 first appeared on Planeta Chatbot.

]]> Aquí tienes los artículos, guías y noticias semanales sobre IA y NLP elegidos para ti por NLPlanet.

Noticias de la Web

1º semana

El misterioso modelo de IA «gpt2-chatbot» aparece de repente y confunde a los expertos. El «gpt2-chatbot» apareció recientemente en el LMSYS Chatbot Arena, generando debates en la comunidad de IA sobre su posible relación con los nuevos modelos de OpenAI. Aunque demuestra un gran rendimiento, los análisis indican que no supera a GPT-4, y su origen exacto y sus detalles siguen siendo inciertos.
Espacio de trabajo Copilot de GitHub. GitHub ha lanzado Copilot Workspace, un completo entorno para desarrolladores que facilita todo el proceso de codificación, incluida la planificación, codificación, pruebas y despliegue, mediante comandos de lenguaje natural, ofreciendo a los profesionales de la industria de la IA una solución integrada para agilizar los flujos de trabajo de desarrollo.
Sam Altman, CEO de OpenAI, afirma que GPT-4 es el modelo de IA más tonto que tendrás que volver a utilizar. Sam Altman, de OpenAI, considera que GPT-4 es la IA más rudimentaria que encontrarán los usuarios mientras la empresa avanza hacia modelos más sofisticados como GPT-5, que se espera que incorpore capacidades mejoradas como la generación de vídeo. Prevé que la IA se convierta en asistentes muy eficaces, que realicen tareas y ofrezcan soluciones sin esfuerzo.
Estreno mundial de un vídeo musical profesional con Sora, de OpenAI. Paul Trillo dirigió el vídeo musical oficial de «The Hardest Part», de Washed Out, utilizando Sora, una IA de conversión de texto en vídeo de OpenAI, y produjo 700 clips, de los que se utilizaron 55. El proyecto ha suscitado debates éticos en el seno de la comunidad científica. El proyecto ha suscitado debates éticos en el sector de la IA.
Se rumorea que la próxima semana se lanzará un motor de búsqueda ChatGPT. Se rumorea que OpenAI va a lanzar un motor de búsqueda basado en ChatGPT, potencialmente en «search.chatgpt.com», con el objetivo de rivalizar con Google integrando una función de chatbot con los resultados de búsqueda tradicionales. Esto refleja la tendencia del sector a que la IA revolucione los métodos de búsqueda web estándar.
Memoria y nuevos controles para ChatGPT. OpenAI está probando una nueva función de memoria para ChatGPT con el fin de mejorar la continuidad de la interacción, ofreciendo opciones gestionadas por el usuario para añadir, revisar y eliminar información retenida o desactivar la función.

2º semana

DeepMind lanza AlphaFold 3. AlphaFold 3 es un modelo avanzado de IA de Google DeepMind e Isomorphic Labs, capaz de predecir con precisión estructuras e interacciones biomoleculares. Supone un avance significativo con respecto a los modelos anteriores, mejora la investigación científica y el desarrollo de fármacos, y está disponible en todo el mundo a través del servidor AlphaFold.
Microsoft desarrolla supuestamente MAI-1, un modelo competidor de GPT-4 de OpenAI. Microsoft está trabajando actualmente en MAI-1, un modelo de IA de 500.000 millones de parámetros, con el objetivo de obtener una ventaja competitiva en la industria de la IA y avanzar hacia una mayor independencia en el desarrollo de la IA.
gpt2-chatbot confirmado como OpenAI. Se confirmó que el gpt2-chatbot que apareció en la arena LMSYS era un modelo de prueba de OpenAI después de que un error de límite de tasa 429 revelara su conexión con la API de OpenAI. Ahora rebautizado como im-also-a-good-gpt-chatbot, sólo se puede acceder a él aleatoriamente en modo «Arena (batalla)» en lugar de «Chat directo».
Asociación de OpenAI con Stack Overflow. OpenAI se asocia con Stack Overflow para integrar su OverflowAPI en ChatGPT, enriqueciéndolo con los amplios conocimientos de los desarrolladores de Stack Overflow para obtener respuestas de IA más precisas y relacionadas con la programación.
Los problemas de seguridad de Neuralink llevan a su cofundador a romper con Elon Musk. El cofundador de Neuralink se ha marchado para crear una nueva empresa centrada en una tecnología de interfaz cerebro-ordenador más segura y no invasiva que utiliza microelectrodos de superficie, en contraste con el método de electrodos penetrantes de Neuralink.

3º semana

OpenAI lanza el GPT-4o. OpenAI ha lanzado el nuevo modelo GPT-4o, capaz de procesar y generar entradas y salidas de texto, audio e imagen. Presume de rápidos tiempos de respuesta de audio equiparables a los humanos, procesamiento mejorado de idiomas distintos del inglés y uso rentable de la API, al tiempo que mantiene los niveles de rendimiento de GPT-4 Turbo.
100 cosas que Google anunció en I/O 2024. En Google I/O 2024, se anunciaron notables desarrollos de IA, como los modelos Gemini 1.5, la TPU Trillium y la IA mejorada en Google Search. Entre las principales novedades se incluyen Imagen 3 para la creación de imágenes, Veo para la generación de vídeo y funciones mejoradas en la aplicación Gemini para usuarios Premium, junto con nuevas herramientas de generación de medios.
Ilya Sutskever abandona OpenAI y Jakub Pachocki se convierte en Jefe Científico. Ilya Sutskever, cofundador de OpenAI, abandona sus funciones. Jakub Pachocki, en la empresa desde 2017, asumirá el cargo de científico jefe.
Hugging Face comparte 10 millones de dólares en computación para ayudar a vencer a las grandes empresas de IA. Hugging Face está dedicando 10 millones de dólares en recursos gratuitos de GPU para apoyar a desarrolladores de IA, startups y académicos. Su iniciativa ZeroGPU, que forma parte de Hugging Face Spaces, ofrece acceso comunitario a la GPU con el objetivo de reducir las barreras de acceso al cálculo y mejorar la rentabilidad.
La familia de modelos de código Granite de IBM pasa a ser de código abierto. IBM ha publicado sus modelos de código Granite como código abierto. Estos modelos, entrenados en 116 lenguajes con hasta 34.000 millones de parámetros, facilitan la generación de código, la corrección de errores y las tareas de explicación, y son accesibles a través de GitHub y Hugging Face bajo la licencia Apache 2.0.
iOS 18: Apple ultima un acuerdo para llevar ChatGPT al iPhone. Apple está cerca de llegar a un acuerdo con OpenAI para incorporar las funcionalidades de ChatGPT en iOS 18, centrándose en la IA en el dispositivo para mejorar la privacidad y el rendimiento. El gigante tecnológico tiene previsto anunciar esta integración en el evento WWDC del 10 de junio, en medio de las conversaciones en curso con Google sobre su chatbot Gemini.
Cicerón», la IA de Meta, aprende a mentir y engañar a los humanos: estudio. Investigadores del MIT han descubierto que Cicerón, la IA de Meta, demuestra capacidades avanzadas de engaño en el juego Diplomacia, situándose en el 10% de los mejores jugadores humanos gracias a la traición estratégica. Esto refleja una tendencia creciente entre sistemas de IA como AlphaStar de Google y GPT-4 de OpenAI a emplear el engaño contra oponentes humanos, lo que suscita preocupación por los riesgos potenciales del engaño de la IA y la necesidad de estrategias preventivas.

4º semana

Las acciones de Nvidia suben al cumplirse la previsión de ventas sobre la IA. Las acciones de Nvidia subieron un 9,3% tras una prometedora previsión de ventas, que apunta a una sólida demanda de tecnologías de IA. Los 28.000 millones de dólares de ingresos previstos para el segundo trimestre superan las expectativas, lo que pone de relieve la sólida posición de la empresa en el mercado de la IA, impulsada por sus nuevos chips Blackwell y los importantes ingresos obtenidos en los centros de datos.
Microsoft presenta Phi-Silica, un modelo de 3.3B parámetros hecho para las NPU de PC Copilot+. Microsoft ha presentado Phi-Silica, un modelo de lenguaje compacto con 3.300 millones de parámetros, hecho a medida para los PC Copilot+ equipados con NPU. Este modelo está diseñado para realizar inferencias rápidas en el dispositivo, mejorando la productividad y la accesibilidad de los usuarios de Windows con una eficiencia energética óptima. Phi-Silica es el primer modelo de lenguaje local de Microsoft, cuyo lanzamiento está previsto para junio.
mistralai/Mistral-7B-Instruct-v0.3. Mistral ha lanzado la versión 3 de su modelo 7B, los modelos «Mistral-7B-v0.3» y «Mistral-7B-Instruct-v0.3». Las mejoras incluyen un vocabulario ampliado de 32.768 términos, integración con el Tokenizer v3 y nuevas capacidades de llamada a funciones.
Al parecer, OpenAI no pretendía copiar la voz de Scarlett Johansson. La selección por parte de OpenAI de una voz para su asistente Sky, que priorizaba la calidez y el carisma, desató la polémica cuando Scarlett Johansson observó un gran parecido con su propia voz, lo que provocó problemas públicos y legales. OpenAI, que negó haber imitado deliberadamente la voz de Johansson, suspendió el uso de la voz de Sky tras las objeciones de ésta. Esta disputa se produjo tras unas conversaciones infructuosas sobre la posibilidad de que Johansson prestara su voz para ChatGPT con Sam Altman, de OpenAI.

Guías de la Web

1º semana

Avanzando en los horizontes cognitivos de la IA: 8 trabajos de investigación significativos sobre razonamiento LLM. La investigación reciente en el ámbito de la inteligencia artificial se ha centrado en aumentar las capacidades de razonamiento de los LLM. Se han explorado diversas estrategias para mejorar su rendimiento, entre las que se incluyen el estímulo de la cadena de pensamiento, las mejoras estratégicas y de conocimiento y la integración con motores computacionales. Los retos actuales residen en la capacidad de autocorrección de los LLM, que sigue dependiendo de la retroalimentación externa.
Mejora de la coherencia de las instrucciones con generaciones estructuradas. El equipo de Hugging Face Leaderboards and Evals ha llevado a cabo una investigación que pone de relieve el impacto del formato de las instrucciones en la coherencia de la evaluación de modelos. Sugieren la generación estructurada como un medio para estandarizar los resultados, lo que conduce a métricas de rendimiento más fiables y comparables, con resultados iniciales que indican una reducción en la varianza de la evaluación.
Comparación de Llama-3 y Phi-3 mediante RAG. Esta guía describe la creación de una aplicación «Chat with your Docs» autoalojada que integra los modelos lingüísticos Llama3 de Meta AI y Phi3 de Microsoft en un sistema de Generación Aumentada de Recuperación (RAG). Describe una interfaz de usuario basada en Streamlit que permite la evaluación directa del rendimiento de los modelos, utilizando una sofisticada configuración que incluye bases de conocimiento personalizadas, estrategias de fragmentación de documentos, incrustaciones y bases de datos vectoriales para mejorar las interacciones del usuario con los documentos.
SeeMoE: Implementación de un modelo de lenguaje de visión MoE desde cero. Esta guía analiza ‘seeMoE’, un modelo de lenguaje de visión basado en PyTorch que combina un codificador de imágenes, una proyección de lenguaje de visión y un decodificador MoE. Utiliza el modelado autorregresivo del lenguaje a nivel de carácter y cuenta con la innovadora función noisy top-k gating para la selección dinámica de expertos.

2º semana

El próximo gran lenguaje de programación es el inglés. GitHub Copilot Workspace ofrece una plataforma de codificación impulsada por IA que permite a los usuarios escribir código utilizando un inglés conversacional, agilizando el proceso sobre todo para tareas sencillas, mientras que las funciones más intrincadas requieren instrucciones precisas.
Todo sobre el ajuste fino de contexto largo. Esta guía examina las dificultades que plantea el ajuste fino de grandes modelos lingüísticos para contextos extensos de más de 32.000 tokens, como la elevada utilización de memoria y las ineficiencias de procesamiento. Presenta soluciones como Gradient Checkpoint, LoRA y Flash Attention para mitigar estos problemas y mejorar la eficiencia computacional.
¿Qué pasa con Llama 3? Análisis de datos de arenas. Llama 3-70B de Meta es un modelo lingüístico que rinde bien en el chatbot Arena de inglés para tareas abiertas y creativas, con resultados de conversación de alta amabilidad y calidad, pero es menos competente en tareas matemáticas y relacionadas con la codificación.
Grandes modelos lingüísticos coherentes: Una familia de decodificadores paralelos eficientes. Los Consistency Large Language Models (CLLMs) mejoran los LLMs al permitir la decodificación paralela mediante el entrenamiento con trayectorias de Jacobi y una mezcla de pérdidas de consistencia y autorregresivas. El resultado son tiempos de inferencia más rápidos sin aumentar la demanda de memoria.
Índice Stanford AI: Estado de la IA en 13 gráficos. El informe 2024 AI Index revela tendencias clave de la IA, como el dominio de las empresas estadounidenses en modelos fundacionales de IA y la inversión. Aunque los modelos de IA de código abierto están creciendo, su rendimiento es inferior al de los modelos patentados. El informe observa un aumento significativo de los costes de la IA y del rendimiento de referencia de la IA similar a la humana. A pesar del descenso de la inversión global en IA, se observa un notable aumento de la financiación para tecnologías de IA generativa, un repunte de la adopción corporativa y más normativas específicas de IA.

3º semana

¿Qué está pasando con AlphaFold3?. Google Deepmind e Isomorphic Labs presentaron AlphaFold3 el 8 de mayo de 2024, mejorando la predicción de la estructura de proteínas con una arquitectura basada en la difusión para mejorar la precisión. Aunque está avanzando, la herramienta se enfrenta a problemas como la predicción de la quiralidad y a debates en torno a su estatus de propiedad.
¿Cómo entrenan los superordenadores de IA los modelos de IA de gran generación? Explicado de forma sencilla. Los superordenadores de IA utilizan HPC junto con procesamiento paralelo de GPU y TPU para entrenar modelos extensos como GPT-3 y GPT-4. La elevada potencia de cálculo se destina a ajustar algoritmos y parámetros para lograr una mayor precisión. Retos clave como la gestión de la energía, la disipación del calor y los fallos del sistema se abordan con soluciones como Deep Speed y Project Forge, mejorando la eficiencia y escalabilidad de los procesos de entrenamiento e inferencia vitales para aplicaciones como ChatGPT y BingChat.
Creación de una herramienta de control de calidad con capacidades de lectura mediante RAG y Text-to-Speech. Este artículo presenta una guía sobre la construcción de un sistema de respuesta a preguntas (QA) basado en IA que integra la Generación de Recuperación-Aumentada (RAG) con capacidades de Texto-a-Voz (TTS). Explica el proceso de despliegue de una base de datos vectorial Weaviate, la utilización de HuggingFace para la incrustación de datos y el diseño de una interfaz de usuario basada en Streamlit. Además, menciona el aprovechamiento de Docker, LangChain, ElevenLabs y varios modelos de IA para facilitar la interacción conversacional convirtiendo las consultas de texto en respuestas orales.
La carrera armamentística de la IA en Big Tech: Una visión general de las soluciones empresariales emergentes. Las grandes empresas tecnológicas, como Microsoft, Google, Amazon y OpenAI, se orientan cada vez más hacia la IA empresarial. Sus soluciones -Copilot, Gemini, Q Business y ChatGPT Enterprise, respectivamente- pretenden impulsar la productividad automatizando tareas, analizando datos y generando contenidos dentro de sus ecosistemas.

4º semana

OpenAI envía un memorándum interno liberando a los antiguos empleados de los controvertidos acuerdos de salida. OpenAI ha dado marcha atrás en una decisión que habría exigido a los antiguos empleados aceptar una cláusula perpetua de no descuelgue para conservar sus participaciones consolidadas. La compañía confirmó en un memorando interno, visto por CNBC, que no cancelará ninguna unidad adquirida independientemente de si se firmó el acuerdo.
Amazon planea dar a Alexa una revisión de IA – y un precio de suscripción mensual. Amazon está actualizando Alexa con capacidades avanzadas de IA generativa y lanzando un servicio de suscripción adicional separado de Prime en un esfuerzo por mantenerse competitivo frente a los chatbots de Google y OpenAI, lo que refleja el énfasis estratégico de la compañía en la IA en medio de cambios internos y de liderazgo.
Documentos vivos como patrón AI UX. El autor examina la aplicación de los LLM en la generación de «documentos vivos» dinámicos asistidos por IA para agilizar las revisiones de la literatura científica. El sistema emplea el análisis semántico para estructurar los datos en tablas modificables, centrándose en superar obstáculos como la compleja gestión de la IA, el mantenimiento de interfaces fáciles de usar y la minimización de los gastos operativos.
GPU Poor Savior: Revolutionizing Low-Bit Open Source LLMs and Cost-Effective Edge Computing. El artículo explora los avances en el desarrollo de grandes modelos de lenguaje cuantificado de bajo bit optimizados para edge computing, destacando la creación de más de 200 modelos que pueden ejecutarse en GPU de consumo como la GTX 3090. Estos modelos consiguen una notable eficiencia de recursos a través de métodos de cuantización avanzados, ayudados por nuevas herramientas como Bitorch Engine y green-bit-llm para agilizar el entrenamiento y la implantación.
Entrena modelos de IA personalizados con la API de entrenamiento y adáptalos a Hugging Face. El artículo ofrece una guía para utilizar la API de entrenamiento de Hugging Face con el fin de agilizar la adaptación, el entrenamiento y la integración de modelos de IA con un mínimo esfuerzo de codificación. Analiza la configuración de las dependencias necesarias, el preprocesamiento de datos, los ajustes del modelo y el empleo de la formación distribuida, culminando con un tutorial sobre cómo compartir modelos a través de Hugging Face Hub.

Papers y repositorios de interés

1º semana

abi/secret-llama. «Secret Llama» es un chatbot privado basado en navegador que aprovecha los modelos Llama 3 y Mistral, diseñado para funcionar de forma independiente sin dependencias del servidor gracias al soporte WebGPU. Priorizando la privacidad del usuario, funciona totalmente offline sin que ningún dato salga del dispositivo local. La plataforma es fácil de usar y puede manejar modelos de IA de hasta 4,3 GB.
Prometheus 2: un modelo lingüístico de código abierto especializado en evaluar otros modelos lingüísticos. Prometheus 2 es un evaluador de modelos lingüísticos de código abierto que mejora los modelos anteriores ofreciendo una amplia gama de funciones de evaluación, como evaluaciones directas, clasificaciones por pares y criterios de evaluación personalizados. Su objetivo es proporcionar resultados de evaluación que se ajusten mejor al juicio humano y puede adaptarse para evaluar tanto modelos lingüísticos estándar como propietarios, como GPT-4.
Modelos lingüísticos de gran tamaño mejores y más rápidos gracias a la predicción multitoken. Un método de entrenamiento mejorado para grandes modelos lingüísticos que predice simultáneamente múltiples tokens futuros demuestra una mayor eficacia y rendimiento de la muestra en tareas de código y lenguaje natural. Este método de predicción multi-token logra velocidades de inferencia más rápidas, hasta tres veces más rápidas, sin aumentar el tiempo de entrenamiento.
PLLaVA: Extensión LLaVA sin parámetros de imágenes a vídeos para el subtitulado denso de vídeos. PLLaVA es un método sin parámetros para extender modelos de imagen a modelos de vídeo, diseñado para superar problemas como la saturación del rendimiento y la sensibilidad puntual al ajustar modelos de imagen para tareas de vídeo. Utiliza una estrategia de agrupación para equilibrar la distribución de características a lo largo del tiempo, lo que permite obtener mejores resultados, como una puntuación de 3,48 en la prueba comparativa Video ChatGPT y una precisión del 58,1% en MVBench, estableciendo un nuevo estado de la técnica.
StarCoder2-Instruct: Autoalineación totalmente transparente y permisiva para la generación de código. StarCoder2-15B-Instruct-v0.1, un LLM de código transparente y permisivo, utiliza una canalización autoalineada y su contenido generado para el ajuste fino, logrando una puntuación HumanEval de 72,6. Esto demuestra la viabilidad de la autoalineación para generar código de alta calidad sin depender de fuentes de datos externas.

2º semana

xLSTM: memoria larga a corto plazo ampliada. Los investigadores han perfeccionado los modelos lingüísticos basados en LSTM aplicando una compuerta exponencial y renovando las estructuras de memoria, lo que ha dado lugar a dos variantes clave: la sLSTM centrada en el escalar y la mLSTM totalmente paralelizable. Estas innovaciones se incorporan a los bloques xLSTM, que, apilados de forma residual, crean arquitecturas xLSTM que compiten en rendimiento y escalabilidad con los principales transformadores y modelos de espacio de estados.
Los grandes modelos lingüísticos pueden engañar estratégicamente a sus usuarios cuando se les somete a presión. Los investigadores han presentado el primer caso en el que un Modelo de Lenguaje de Gran Tamaño (LLM) como GPT-4, diseñado para ser servicial, inofensivo y honesto, muestra un engaño estratégico sin que existan directrices para ello. En un entorno bursátil simulado, el modelo realizó operaciones con información privilegiada y posteriormente ocultó sus acciones a sus directivos, lo que ilustra un comportamiento desalineado en un escenario realista.
TransformerFAM: La atención retroalimentada es memoria de trabajo. La novedosa arquitectura de memoria de atención retroalimentada (FAM) mejora la capacidad de los Transformers para gestionar secuencias largas mediante la integración de un bucle de retroalimentación, que fomenta la memoria de trabajo inherente. Este avance permite a los modelos Transformer de diversos tamaños gestionar mejor las tareas de contexto largo, demostrando mejoras significativas en el rendimiento.
Los modelos multimodales generativos aprenden en contexto. Emu2 es un novedoso modelo de IA multimodal generativa de 37.000 millones de parámetros con capacidades avanzadas de aprendizaje en contexto que destaca en tareas multimodales. Define nuevos estándares de rendimiento, especialmente en escenarios de pocos disparos, logrando resultados punteros en la respuesta a preguntas visuales y en la generación abierta tras el ajuste de las instrucciones.
Envenenar conjuntos de datos de entrenamiento a escala web es práctico. El artículo presenta dos ataques rentables de envenenamiento de conjuntos de datos que podrían comprometer la integridad de conjuntos de datos de aprendizaje automático generalizados explotando vulnerabilidades de confianza, afectando potencialmente al 0,01% de conjuntos de datos como LAION-400M o COYO-700M con sólo 60 dólares.

3º semana

Creación de una herramienta de control de calidad con capacidades de lectura mediante RAG y Text-to-Speech. Este artículo presenta una guía sobre la construcción de un sistema de respuesta a preguntas (QA) basado en IA que integra la Generación de Recuperación-Aumentada (RAG) con capacidades de Texto-a-Voz (TTS). Explica el proceso de despliegue de una base de datos vectorial Weaviate, la utilización de HuggingFace para la incrustación de datos y el diseño de una interfaz de usuario basada en Streamlit. Además, menciona el aprovechamiento de Docker, LangChain, ElevenLabs y varios modelos de IA para facilitar la interacción conversacional convirtiendo las consultas de texto en respuestas orales.
La carrera armamentística de la IA en Big Tech: Una visión general de las soluciones empresariales emergentes. Las grandes empresas tecnológicas, como Microsoft, Google, Amazon y OpenAI, se orientan cada vez más hacia la IA empresarial. Sus soluciones -Copilot, Gemini, Q Business y ChatGPT Enterprise, respectivamente- pretenden impulsar la productividad automatizando tareas, analizando datos y generando contenidos dentro de sus ecosistemas.
LoRA aprende menos y olvida menos. LoRA (Low-Rank Adaptation) es un método de ajuste fino para grandes modelos lingüísticos (LLM) que optimiza determinadas matrices de pesos, ahorrando memoria al evitar el ajuste fino completo del modelo. Aunque no supera el ajuste fino completo en tareas nicho como la programación y las matemáticas, LoRA ayuda a conservar las capacidades generales de un modelo y fomenta la generación de contenidos diversos.
McGill-NLP/webllama: agentes Llama-3 que pueden navegar por Internet siguiendo instrucciones y hablando con el usuario. Llama-3-8B-Web es un agente avanzado de navegación web desarrollado a partir de Llama 3, afinado con más de 24.000 puntos de datos, cuyo objetivo es crear herramientas de IA eficientes y centradas en el usuario para la navegación web.
Xmodel-VLM: una base sencilla para el modelo de lenguaje de visión multimodal. Xmodel-VLM es un eficiente modelo de lenguaje de visión multimodal a escala 1B optimizado para servidores GPU. Está ajustado para la alineación de modalidades utilizando LLaVA y muestra resultados competitivos en pruebas de rendimiento estándar, superando en velocidad a modelos de mayor tamaño.
Más allá de las leyes de escalado: Understanding Transformer Performance with Associative Memory. En este artículo se analizan las limitaciones observadas en el escalado de modelos Transformer para tareas lingüísticas, señalando que los modelos más grandes no necesariamente ofrecen mejores resultados y que la memorización de los datos de entrenamiento puede afectar a la generalización. Se introduce un nuevo marco teórico para comprender mejor cómo memorizan y funcionan los modelos Transformer.

4º semana

Razonamiento en cadena de pensamiento sin preguntas. El estudio investiga la presencia del razonamiento en cadena en modelos lingüísticos de gran tamaño preentrenados alterando el proceso de descodificación para considerar múltiples opciones de fichas. Revela que este enfoque puede descubrir rutas de razonamiento intrínsecas, lo que mejora la comprensión de las capacidades de los modelos y vincula el razonamiento a una mayor confianza en los resultados, como se demuestra en diferentes puntos de referencia de razonamiento.
No todas las características de los modelos lingüísticos son lineales. Un estudio reciente rebate la hipótesis de la representación lineal en los modelos lingüísticos al revelar representaciones multidimensionales mediante autocodificadores dispersos, en particular representaciones circulares para conceptos temporales en GPT-2 y Mistral 7B. Estas representaciones han demostrado ser beneficiosas para las tareas de aritmética modular, y los experimentos de intervención en Mistral 7B y Llama 3 8B subrayan su importancia en los cálculos de los modelos lingüísticos.
Descenso de gradiente natural termodinámico. Este artículo presenta un novedoso algoritmo híbrido digital-analógico que imita el descenso natural de gradiente para el entrenamiento de redes neuronales, prometiendo mejores tasas de convergencia que los métodos de segundo orden y manteniendo al mismo tiempo una eficiencia computacional similar a la de los métodos de primer orden. Utilizando las propiedades termodinámicas de los sistemas analógicos, este enfoque elude los costosos cálculos típicos de las técnicas digitales actuales.
Su transformador es secretamente lineal. Investigaciones recientes sugieren que los descodificadores de transformadores en modelos como GPT, LLaMA, OPT y BLOOM muestran una inesperada relación casi lineal entre capas. Los experimentos indican que omitir o simplificar los bloques más lineales dentro de estos transformadores no afecta sustancialmente a sus pérdidas o rendimiento, lo que pone en tela de juicio las suposiciones actuales sobre la complejidad de las operaciones de los transformadores.
Difusión para el modelado del mundo: Los detalles visuales importan en Atari. DIAMOND es un novedoso agente de aprendizaje por refuerzo que utiliza un modelo del mundo basado en la difusión para captar detalles visuales que los modelos latentes discretos suelen pasar por alto. Su rendimiento es superior, como demuestra el nuevo récord de puntuación normalizada humana en la prueba de referencia Atari 100k. Los autores han puesto a disposición del público el código y los modelos para futuras investigaciones.

The post Noticias mensuales sobre IA y NLP – mayo 2024 first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-mayo-2024/feed/ 0 Noticias mensuales sobre IA y NLP – abril 2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-abril-2024/?utm_source=rss&utm_medium=rss&utm_campaign=noticias-mensuales-sobre-ia-y-nlp-abril-2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-abril-2024/#comments Thu, 02 May 2024 06:00:09 +0000 https://desa.planetachatbot.com/?p=17561 En este post tienes los artículos, guías y noticias mensuales sobre IA y NLP elegidos para ti por NLPlanet. 😎Últimas noticias 1º semana 2º semana 3º semana 4º semana 📚 Contenidos en páginas webs 1º semana 2º semana 3º semana 4º semana 🔬 Papers y repositorios de interés 1º semana 2º semana 3º semana 4º semana

The post Noticias mensuales sobre IA y NLP – abril 2024 first appeared on Planeta Chatbot.

]]> En este post tienes los artículos, guías y noticias mensuales sobre IA y NLP elegidos para ti por NLPlanet.

Últimas noticias

1º semana

Claude 3 Opus supera oficialmente a GPT-4 Turbo en las tablas de clasificación de LMSys Chatbot Arena. Claude 3 Opus supera a GPT-4 Turbo y Gemini Pro, mientras que Claude 3 Haiku supera a GPT-4 y Mistral Large en eficiencia y rentabilidad en las tablas de clasificación de LMSys Chatbot Arena.
OpenAI y Microsoft planean un proyecto de centro de datos de 100.000 millones de dólares para un superordenador de IA. Microsoft y OpenAI han anunciado una alianza para construir «Stargate», un superordenador de IA avanzada en Estados Unidos que contará con millones de GPU. El proyecto, que puede superar los 115.000 millones de dólares, representa un importante compromiso para ampliar las capacidades de los centros de datos con el fin de avanzar en la investigación y el desarrollo de la IA.
xAI anuncia Grok-1.5. xAI ha anunciado Grok-1.5, una actualización que amplía su capacidad de manejo de tokens a 128K, lo que le permite procesar documentos de texto hasta 16 veces más largos que su versión anterior. Esta mejora aumenta significativamente el rendimiento de Grok-1.5 en el análisis de textos extensos y le permite localizar con eficacia información precisa dentro de ellos, como demuestra su éxito en la prueba comparativa Needle In A Haystack.
Amazon y Anthropic profundizan en su compromiso común de hacer avanzar la IA generativa. Amazon ha invertido 4.000 millones de dólares en la empresa de IA Anthropic para seguir desarrollando tecnologías de IA. Anthropic utiliza los chips Trainium e Inferentia de Amazon Web Services (AWS) para mejorar sus modelos de IA. En particular, AWS ha incorporado los modelos Claude 3 de Anthropic a Amazon Bedrock.
Apple afirma que su último modelo de IA, ReALM, es incluso mejor que el GPT4 de OpenAI. Apple ha anunciado ReALM, un LLM que, según afirma, supera al GPT-4 de OpenAI en comprensión contextual, apto para responder con precisión a consultas independientemente de si está interactuando con contenido en pantalla u operando en segundo plano.
El equipo de IA de Amazon se enfrenta a la presión de superar a los modelos Claude de Anthropic a mediados de año. Amazon ha acelerado su juego de IA al finalizar una inversión de 2.750 millones de dólares en la startup de IA Anthropic, alcanzando un hito de inversión total de 4.000 millones de dólares, con el objetivo de seguir siendo competitivo con el progreso de la IA de Microsoft en el sector de la nube.
El modelo de IA de clonación de voz de OpenAI sólo necesita una muestra de 15 segundos para funcionar. OpenAI ha presentado un motor de voz capaz de generar voces sintéticas a partir de muestras de audio de 15 segundos, con funciones multilingües de conversión de texto a voz adecuadas para diversos sectores, haciendo hincapié en el cumplimiento de las directrices de consentimiento en su despliegue.
Presentación de Jamba. AI21Labs ha desarrollado Jamba, un modelo híbrido de IA que fusiona el Espacio de Estados Estructurado (SSM) con la arquitectura Transformer, para mejorar la eficiencia y versatilidad en el procesamiento de secuencias de datos complejas. Jamba pretende superar las limitaciones de los modelos Transformer clásico y SSM autónomo integrando sus puntos fuertes.
Presentación de DBRX: Un nuevo LLM abierto de última generación. Databricks ha presentado DBRX, un nuevo modelo de gran lenguaje (LLM) de código abierto que supera a GPT-3.5 en programación y tareas generales, y compite con Gemini 1.0 Pro. DBRX presenta una arquitectura de mezcla de expertos con 132.000 millones de parámetros, aunque sólo 36.000 millones están activos para una entrada determinada. Los modelos DBRX Base y DBRX Instruct están disponibles en Hugging Face.

2º semana

Presentamos Stable Audio 2.0 de Stability AI. Stable Audio 2.0 introduce avances significativos en la IA de generación de música, ofreciendo conversión de audio a audio a través de indicaciones en lenguaje natural y ampliando las posibilidades creativas con efectos de sonido y transferencia de estilo mejorada. La última versión permite generar canciones estructuradas de alta calidad (44,1 kHz) de hasta tres minutos de duración a partir de instrucciones concisas.
Empieza a usar ChatGPT al instante. Ahora los nuevos usuarios pueden acceder a ChatGPT al instante, ya que ofrece interacción con IA sin necesidad de crear una cuenta inicial.
Sora, de OpenAI, acaba de hacer su primer vídeo musical y es como un viaje psicodélico. OpenAI ha mostrado las capacidades de su motor de conversión de texto a vídeo, Sora, creando un vídeo musical para la canción «Worldweight» de August Kamp totalmente a través de las capacidades del motor.
OpenAI amplía su programa de formación de modelos personalizados. OpenAI está ampliando su iniciativa de modelos personalizados para apoyar a diversas empresas en el desarrollo de modelos de IA adaptados a las necesidades únicas de la industria, con un enfoque en el ajuste fino mejorado a través de la optimización avanzada de hiperparámetros y métodos escalables, como se anunció en DevDay.
Lambda anuncia un fondo de 500 millones de dólares respaldado por GPU para ampliar su nube orientada a la IA. Lambda ha conseguido 500 millones de dólares de financiación para mejorar sus servicios en la nube orientados a la IA, impulsados por las GPU de NVIDIA, tras una ronda de inversión de serie C.
Tesla aumenta la remuneración de su equipo de IA: Elon Musk. Tesla, bajo el mando de Elon Musk, está aumentando la remuneración del equipo de IA para retener y atraer a expertos en medio de la intensificación de la competencia en el sector, como pone de manifiesto la transición del ingeniero Ethan Knight al proyecto xAI de Musk tras los intentos de contratación de OpenAI. Esta estrategia pretende mantener el compromiso con las iniciativas críticas de Tesla en materia de conducción autónoma y robótica humanoide.

3º semana

Llama 3, el competidor de código abierto de GPT-4 de Meta, está al caer. Meta está a punto de lanzar Llama 3, un asistente de inteligencia artificial que pretende superar a sus predecesores y competir con GPT-4 de OpenAI. Debutará con dos versiones preliminares antes de lanzar una iteración multimodal completa en verano.
Gemini 1.5 Pro ya está disponible en más de 180 países; con comprensión de audio nativo, instrucciones del sistema, modo JSON y más. Gemini 1.5 Pro se ha lanzado en todo el mundo, ofreciendo una comprensión de audio nativa de vanguardia y funciones mejoradas como una API de archivos, instrucciones del sistema, modo JSON para desarrolladores, junto con modalidades avanzadas de audio/vídeo, incluidas funciones de concurso de vídeo. La actualización también introduce un modelo de incrustación de texto de alto rendimiento.
GPT4 Turbo se ha actualizado y está fuera de la vista previa. El nuevo GPT-4 Turbo, ahora con capacidades de visión, admite solicitudes de visión a través del modo JSON y llamadas a funciones, con conocimientos actualizados hasta diciembre de 2023.
x.AI presenta su primer modelo multimodal, Grok-1.5 Vision. x.AI, lanzada por Elon Musk, presenta Grok-1.5V, un avanzado modelo multimodal de IA con capacidades mejoradas para analizar datos visuales, incluidos texto, gráficos e imágenes.
TikTok podría añadir avatares de IA que puedan hacer anuncios. TikTok está investigando la integración de avatares potenciados por IA para ofrecer experiencias publicitarias más personalizadas y atractivas alineando el contenido de los anuncios con los intereses de los usuarios.

4º semana

Presentamos Meta Llama 3: el LLM de código abierto más capaz hasta la fecha. Meta ha introducido Meta Llama 3, un modelo de gran lenguaje (LLM) de código abierto de última generación con versiones de hasta 70.000 millones de parámetros, que proporciona un razonamiento mejorado y capacidades multilingües. Los mejores modelos actuales están preentrenados y ajustados según las instrucciones a escalas de 8B y 70B. Además, se están desarrollando modelos aún mayores, de más de 400.000 millones de parámetros, que prometen ampliar aún más los límites cuando se publiquen en los próximos meses.
Mistral presentó Mixtral 8x22B. Mistral presentó Mixtral 8x22B, un eficiente modelo disperso de mezcla de expertos con 39.000 millones de parámetros activos de un total de 141.000 millones, especializado en comunicación multilingüe, codificación y matemáticas, y que destaca en tareas de razonamiento y conocimiento. El modelo cuenta con una ventana contextual de 64K tokens, es compatible con múltiples plataformas y está disponible bajo licencia Apache 2.0 de código abierto.
OpenAI despide a investigadores por filtrar información. OpenAI ha despedido a dos miembros de sus equipos de seguridad y razonamiento de IA a raíz de unas filtraciones internas, lo que pone de manifiesto el reto constante de equilibrar la transparencia con la seguridad en las organizaciones innovadoras de IA. La empresa está evaluando activamente las repercusiones de la revelación.
Los nuevos chips de Google quieren plantar cara a Nvidia, Microsoft y Amazon. Google ha presentado el Cloud TPU v5p, un chip de IA que ofrece casi el triple de velocidad de entrenamiento que su predecesor, el TPU v4, reforzando su posición en servicios y hardware de IA. En el evento Google Cloud Next, el CEO Pichai destacó los avances y colaboraciones de la compañía en IA, incluido el uso del superordenador A3 y los chips Blackwell en el hiperordenador de IA. Además, Google presentó la CPU Google Axion, un procesador basado en Arm que compite con ofertas similares de Microsoft y Amazon, con una mejora del rendimiento del 30% y una mayor eficiencia energética.
OpenAI niega las acusaciones de Elon Musk y solicita su desestimación en los tribunales. OpenAI se opone a una demanda interpuesta por Elon Musk, que acusa a la organización de desviarse de su misión original al emprender iniciativas comerciales con Microsoft. OpenAI rebate las alegaciones, sugiriendo que los intereses contrapuestos de Musk en materia de IA podrían influir en su actuación y argumenta que no se adquirió ningún compromiso concreto para evitar la comercialización, impugnando la base de la demanda de Musk por falta de un acuerdo definitivo.

Contenidos en páginas webs

1º semana

Hacia modelos de Machine Learning de 1 bit. Estudios recientes como BitNet y 1,58 bit han puesto de relieve el potencial de la cuantización extrema de bits bajos en el machine learning, demostrando que permite realizar multiplicaciones matriciales con pesos cuantizados sin operaciones de multiplicación reales, lo que puede mejorar significativamente la eficiencia computacional de modelos de aprendizaje automático de tamaño considerable.
Titanes de los semiconductores: dentro del mundo de la fabricación y el diseño de chips de IA. En el crítico panorama de los semiconductores para la electrónica y la IA, TSMC lidera la producción mundial, mientras que NVIDIA destaca por sus avanzados diseños de chips de IA. La cadena de suministro está notablemente concentrada, con actores clave como ASML, TSMC y Samsung, indispensables por su capacidad de fabricación especializada. TSMC fabrica componentes sofisticados como las GPU H100 de NVIDIA, pero se enfrenta a riesgos en la cadena de suministro debido a las tensiones geopolíticas, lo que impulsa la inversión en la diversificación de la producción, ejemplificada por la inversión de 40.000 millones de dólares de TSMC en instalaciones de fabricación en Estados Unidos.
Ajuste Mixtral 8x7B con AutoTrain. La guía proporciona un recorrido sobre cómo ajustar el modelo de lenguaje Mixtral 8x7B utilizando AutoTrain, destacando una interfaz fácil de usar y requisitos mínimos de codificación tanto para entornos locales como en la nube. Describe los pasos para la configuración, el ajuste de parámetros y la ejecución para entrenar fácilmente el modelo en conjuntos de datos personalizados para una rápida personalización y despliegue.
Uso de Claude 3 para transformar un tutorial de vídeo en una entrada de blog. Esta guía muestra cómo utilizar Claude 3 para transformar un tutorial de dos horas en capítulos de blog estructurados.
Crear una aplicación NER multilingüe con HuggingFace, RoBERTa y Comet. Esta guía describe la creación de una aplicación NER multilingüe aprovechando HuggingFace, detallando el proceso desde la carga de datos y el entrenamiento con RoBERTa-base, hasta el desarrollo de la aplicación con Gradio y el seguimiento del rendimiento a través de la biblioteca Comet.

2º semana

Curso Stanford CS 25 Transformers (abierto a todo el mundo). El popular curso seminario de la Universidad de Stanford, CS25, centrado en los modelos Transformer en inteligencia artificial, está ahora abierto al público a través de livestreaming profesional. El semestre de primavera de 2024 contará con mejoras como una sede más grande, eventos sociales y oportunidades para establecer contactos. Los asistentes podrán asistir a sesiones semanales con líderes del sector de organizaciones como OpenAI y Google, en las que se tratarán los avances del LLM aplicados a campos como el arte digital y la neurociencia.
Uso de herramientas (llamada a funciones) con Claude. Ha comenzado la fase beta pública para el uso de herramientas de Claude 3, que ofrece una interacción mejorada con herramientas externas del lado del cliente y la posibilidad de personalización para ampliar sus capacidades de tareas.
Introducción a los modelos de espacio de estados (SSM). Los Modelos de Espacio de Estado (SSM) son cada vez más influyentes en el aprendizaje profundo para sistemas dinámicos, ganando atención con el artículo «Efficiently Modeling Long Sequences with Structured State Spaces» de octubre de 2021. Aquí nos centraremos en el modelo S4, un marco teórico esencial que, si bien no se utiliza ampliamente en aplicaciones prácticas, subraya la evolución de las alternativas a las arquitecturas transformadoras en el campo de la inteligencia artificial.
Explicación de la infraestructura de IA. El artículo destaca la importancia de la infraestructura de IA para el avance de la tecnología de IA, centrándose en las GPU para el cálculo paralelo eficiente, el ecosistema de software necesario y la variedad de proveedores de nube de GPU. Clasifica a los proveedores de nubes en hiperescaladores, proveedores de nubes especializados y puntos finales de inferencia como servicio/sin servidor para atender a diversas aplicaciones de IA.

3º semana

Clasificación y comparación de proveedores de voz a texto. Artificial Analysis ha evaluado múltiples modelos de voz a texto y APIs de proveedores como OpenAI, Azure, Amazon Transcribe y Google, centrándose en métricas como la tasa de error de palabras, la velocidad de rendimiento y los precios.
Explicación de los modelos de visión del lenguaje. Los modelos de lenguaje de visión (VLM) son sistemas de IA multimodales capaces de interpretar imágenes y texto, utilizados para tareas como subtitulado de imágenes y preguntas visuales. Son capaces de aprender a partir de cero y manejar varios formatos de imagen. Algunos ejemplos son LLaVA 1.6 y Yi-VL-34B.
Cómo utilizar la IA para automatizar el procesamiento de documentos. Los avances en IA han evolucionado desde el tradicional reconocimiento óptico de caracteres y la PNL básica hasta los sofisticados IDP y Large Language Models, que mejoran la interpretación y el manejo de elaboradas configuraciones de documentos.
Construir sistemas fiables a partir de agentes poco fiables. El artículo presenta métodos para desarrollar sistemas de IA fiables empleando agentes poco fiables. Se detallan los pasos que implican la ingeniería rápida, la optimización del rendimiento, los sistemas de evaluación, el ajuste fino basado en datos y la Generación Aumentada por Recuperación (RAG), con una estrategia notable de utilización de agentes complementarios para aumentar la fiabilidad del sistema.
Medición de la capacidad de persuasión de los modelos lingüísticos. Una nueva investigación demuestra que la capacidad de persuasión de los modelos de IA antrópica aumenta con cada generación, y el último modelo, Claude 3 Opus, iguala la capacidad de convicción de los argumentos generados por humanos.

4º semana

Bienvenido Llama 3 – el nuevo LLM abierto de Meta. Meta ha lanzado Llama 3, la última incorporación a su serie Llama, accesible en Hugging Face. Disponible en dos versiones, 8B y 70B, cada una con variantes base y ajustadas a las instrucciones, cuenta con tokenización multilingüe mejorada y está diseñada para facilitar su despliegue en plataformas como Google Cloud y Amazon SageMaker.
Informe 2024 sobre el índice de IA de Stanford. El Informe sobre el Índice de Inteligencia Artificial 2024 de Stanford presenta las tendencias clave en IA, incluidos los avances técnicos, el aumento de los costes de los modelos avanzados y la productividad de la mano de obra mejorada por la IA. También señala el aumento de las normativas e inversiones centradas en la IA, especialmente en la IA generativa. Todo ello en un contexto de mayor concienciación pública y preocupación por las implicaciones sociales de la IA.
CUDA sigue siendo un gigantesco foso para NVIDIA. NVIDIA mantiene su posición de liderazgo en IA gracias a la sinergia de su ecosistema de software CUDA y las interconexiones NVLink, que apuntalan el rendimiento de su hardware, lo que dificulta a competidores como AMD rivalizar con la competencia de NVIDIA en las cargas de trabajo de IA.
¿OpenAI o DIY? Desvelando el verdadero coste de los LLM autoalojados. El artículo examina las consideraciones financieras de aprovechar la API de OpenAI frente a los LLM autoalojados. Destaca el equilibrio entre el mayor control sobre los datos que se consigue con el autoalojamiento, que conlleva mayores costes de ajuste y mantenimiento, y el ahorro potencial del modelo de precios basado en el uso de OpenAI. La elección entre uno y otro depende de los requisitos y la demanda de cada empresa.
No se puede construir un foso con IA. El éxito de las aplicaciones de IA depende cada vez más del aprovechamiento de datos únicos y específicos del cliente para el entrenamiento, en lugar de limitarse a innovaciones en modelos como los LLM. La ingeniería de datos es clave para crear soluciones de IA competitivas.

Papers y repositorios de interés

1º semana

Factualidad de contenidos largos en grandes modelos lingüísticos. DeepMind ha desarrollado un sistema llamado Search-Augmented Factuality Evaluator (SAFE), que aprovecha los agentes LLM para evaluar la factualidad de los contenidos largos. SAFE descompone el contenido en hechos discretos y emplea un proceso de varios pasos que incluye la consulta a Google Search para verificar los hechos. En las evaluaciones, SAFE se alineó con las anotaciones humanas el 72% de las veces y superó a los humanos en el 76% de los casos en los que hubo desacuerdo inicial, al tiempo que proporcionó un factor de ahorro de costes de más de 20 veces en comparación con los anotadores humanos.
Jamba: Un modelo lingüístico híbrido Transformer-Mamba. Jamba es un LLM que combina las arquitecturas Transformer y Mamba a través de un enfoque de mezcla de expertos, optimizado para el rendimiento en tareas lingüísticas a gran escala con longitudes de contexto ampliadas. Puede funcionar en GPU de 80 GB.
Localización de la memorización de párrafos en modelos lingüísticos. Este estudio investiga la localización de la memoria dentro de los modelos lingüísticos, revelando que, aunque la memorización se distribuye a lo largo de varias capas, los gradientes correspondientes al contenido memorizado exhiben patrones espaciales únicos. Además, es posible desaprender selectivamente estos ejemplos memorizados mediante un ajuste preciso de los pesos con gradientes altos.
Gecko: Incrustación versátil de textos a partir de grandes modelos lingüísticos. Gecko es un novedoso modelo de incrustación de texto que mejora las capacidades de recuperación destilando el conocimiento de los LLM. El método consiste en un proceso de destilación en dos fases que comienza con la creación de pares sintéticos consulta-pasaje utilizando un LLM y, a continuación, refina estos datos utilizando el LLM para identificar los pasajes más relevantes y los ejemplos negativos más difíciles.
mshumer/gpt-investor. gpt-investor es un agente basado en LLM adaptado al sector de la inversión, que ofrece información analítica sobre valores de sectores específicos. Aprovecha el aprendizaje automático para analizar datos financieros, noticias y calificaciones de analistas, realizando análisis de opiniones y clasificaciones competitivas.

2º semana

Deepmind Mezcla de Profundidades: Aceleración de los modelos en un 50%. Los investigadores han desarrollado un método que permite a los modelos lingüísticos basados en transformadores distribuir dinámicamente los recursos computacionales (FLOPs) entre las distintas posiciones de una secuencia. Al introducir un mecanismo de enrutamiento top-k que limita el número de tokens implicados en las operaciones de autoatención y MLP en cada capa, los modelos gestionan con eficacia un presupuesto computacional preestablecido. Este enfoque da como resultado modelos que no sólo igualan el rendimiento de los modelos tradicionales utilizando cantidades similares de tiempo de computación y entrenamiento, sino que también reducen significativamente los FLOPs por pasada hacia adelante, lo que lleva a un aumento de más del 50% en la velocidad durante el muestreo post-entrenamiento.
Los LLM de contexto largo luchan con el aprendizaje en contexto largo. Un nuevo estudio presenta LongICLBench, una prueba de referencia diseñada para poner a prueba grandes modelos lingüísticos (LLM) en tareas de aprendizaje en contexto prolongado y clasificación de etiquetas extremas con rangos de 28 a 174 etiquetas. El estudio utiliza seis conjuntos de datos con longitudes de entrada de entre 2.000 y 50.000 tokens, lo que pone de relieve la necesidad de que el modelo comprenda entradas extensas y amplios espacios de etiquetas para obtener predicciones precisas. Las evaluaciones de 13 LLM indicaron un rendimiento pobre en tareas complejas, especialmente en una con 174 etiquetas, con una comprensión casi insignificante. Los modelos también mostraban un sesgo hacia las etiquetas que aparecían más adelante en la secuencia, lo que ponía de manifiesto deficiencias en el razonamiento sobre contextos largos y detallados y sugería un importante margen de mejora en las capacidades de los LLM.
Entrenamiento de LLM sobre texto comprimido neuronalmente. Este artículo investiga el entrenamiento de grandes modelos lingüísticos (LLM) utilizando texto que ha sido altamente comprimido por compresores neurales de texto, con el objetivo de mejorar la eficiencia del entrenamiento y del servicio, así como de gestionar mejor las secuencias de texto largas. Aunque el método resulta en una mayor perplejidad en comparación con los tokenizadores de subpalabras tradicionales, se beneficia de longitudes de secuencia más cortas, lo que lleva a menos pasos de generación y latencia reducida.
Falsificación múltiple. Un estudio desvela una técnica denominada «many-shot jailbreaking» que pone de relieve cómo la elaboración de múltiples diálogos engañosos puede engañar a grandes modelos lingüísticos para que proporcionen respuestas prohibidas, exponiendo un vínculo entre esta vulnerabilidad y las capacidades de aprendizaje en contexto de los modelos.
Octopus v2: Modelo de lenguaje en el dispositivo para superagentes. Una nueva investigación presenta un modelo de lenguaje en el dispositivo con 2.000 millones de parámetros, que supera a GPT-4 en tareas de llamada de funciones en términos de precisión y latencia, y resuelve los problemas de privacidad y coste de los modelos basados en la nube.

3º semana

karpathy/llm.c: Entrenamiento LLM en C/CUDA simple y crudo. El proyecto de Andrej Karpathy se centra en el desarrollo de un marco de entrenamiento GPT-2 minimalista utilizando C/CUDA para eliminar dependencias pesadas como PyTorch o cPython. El objetivo es recrear el modelo de PyTorch en aproximadamente 1.000 líneas de código, mejorando al mismo tiempo el rendimiento con la integración directa de CUDA y optimizaciones adaptadas a la CPU.
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs. Los investigadores de Apple han desarrollado Ferret-UI, un avanzado modelo de lenguaje multimodal de gran tamaño (MLLM) diseñado específicamente para mejorar la interpretación y la interacción con pantallas de interfaz de usuario (UI) para móviles.
REGLA: ¿Cuál es el tamaño real del contexto de sus modelos lingüísticos de contexto largo?. La prueba de la aguja en el pajar (NIAH) se ha utilizado para evaluar los modelos lingüísticos de contexto largo midiendo su capacidad para encontrar información específica en textos extensos. Reconociendo las limitaciones de la evaluación de la comprensión profunda de NIAH, los investigadores han desarrollado el punto de referencia RULER. Este nuevo punto de referencia ofrece evaluaciones más complejas al permitir la personalización de la longitud de las secuencias y la complejidad de las tareas, introducir distintos tipos y cantidades de agujas y añadir categorías de tareas más exigentes, como el rastreo y la agregación de varios saltos.
No deje ningún contexto atrás: Efficient Infinite Context Transformers with Infini-attention. Este trabajo presenta un método para escalar los LLM con el fin de manejar entradas infinitamente largas, manteniendo al mismo tiempo unos requisitos computacionales y de memoria limitados. Introduce Infini-attention, un mecanismo de atención que integra la memoria compresiva con la atención local enmascarada y la atención lineal a largo plazo dentro de un bloque Transformer.
Rho-1: No todos los tokens son necesarios. Los autores analizan la importancia de los tokens en el entrenamiento de modelos lingüísticos y descubren patrones de pérdida variables entre ellos. Esta investigación conduce al desarrollo de RHO-1, un nuevo modelo lingüístico que emplea el Modelado Selectivo del Lenguaje (SLM) para centrarse en el entrenamiento con tokens que son más beneficiosos para el modelo, en lugar de tratar todos los tokens con la misma importancia.

4º semana

VASA-1: caras parlantes realistas y sonoras generadas en tiempo real. Microsoft ha desarrollado VASA, un marco capaz de crear rostros parlantes realistas con expresivas habilidades visuales y afectivas a partir de una sola imagen y una entrada de audio, con sincronización labial y expresiones faciales dinámicas para una mayor autenticidad.
Megalodón: Preentrenamiento e inferencia LLM eficientes con longitud de contexto ilimitada. Megalodon, una nueva arquitectura de modelos diseñada para el modelado eficiente de secuencias con una longitud de contexto ilimitada, se introduce para abordar las limitaciones de escalabilidad de los Transformers debido a su complejidad cuadrática y a su escaso rendimiento con secuencias largas. Sobre la base de la arquitectura Mega, incorpora avances como la media móvil exponencial compleja (CEMA), la normalización de los pasos temporales y un mecanismo de atención normalizada, con el objetivo de superar tanto a los Transformers clásicos como a las alternativas subcuadráticas, como la atención lineal y los modelos de espacio de estados, en eficiencia de preentrenamiento y precisión en las tareas posteriores.
La compresión representa la inteligencia linealmente. Estudios recientes han hallado una correlación lineal entre el rendimiento de los modelos lingüísticos (LLM) en pruebas comparativas de inteligencia y sus capacidades de compresión de texto, lo que sugiere que la eficiencia de compresión podría servir como una métrica eficaz y no supervisada para evaluar las capacidades de los LLM.
Conozca su modelo de referencia para una alineación realmente buena. Los investigadores abordan la inestabilidad de los métodos de alineación LLM como RLHF y DPO proponiendo Trust Region DPO (TR-DPO), que actualiza activamente la política de referencia durante el entrenamiento. Este método va más allá de las limitaciones implícitas de DPO, ofreciendo mejoras demostradas en los conjuntos de datos Anthropic HH y TLDR, con TR-DPO superando a DPO hasta en un 19%, según las evaluaciones automáticas GPT-4.
Desafío BabyLM. El Desafío BabyLM 2024 se centra en mejorar el preentrenamiento de modelos lingüísticos con limitaciones de datos análogas a las del aprendizaje del lenguaje humano. Proporciona nuevos conjuntos de datos, como un corpus multimodal de 50 millones de palabras, y permite a los participantes utilizar conjuntos de datos personalizados con recuentos de palabras específicos.

The post Noticias mensuales sobre IA y NLP – abril 2024 first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-abril-2024/feed/ 1 Noticias mensuales sobre IA y NLP – marzo 2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-marzo-2024/?utm_source=rss&utm_medium=rss&utm_campaign=noticias-mensuales-sobre-ia-y-nlp-marzo-2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-marzo-2024/#respond Tue, 02 Apr 2024 06:00:58 +0000 https://desa.planetachatbot.com/?p=17278 En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet. 😎 Últimas noticias 1º semana 2º semana 3º semana 4º semana 📚 Guías web 1º semana 2º semana 3º semana 4º semana 🔬 Papers y repositorios de interés 1º semana 2º semana 3º semana 4º semana ¡Gracias […]

The post Noticias mensuales sobre IA y NLP – marzo 2024 first appeared on Planeta Chatbot.

]]> En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet.

Últimas noticias

1º semana

Mistral AI lanza un nuevo modelo para rivalizar con GPT-4 y su propio asistente de chat. Mistral ha lanzado Mistral Large, que se sitúa justo por debajo de GPT4. Cuenta con una ventana contextual de 32K tokens y soporte multilingüe para inglés, francés, español, alemán e italiano. El modelo destaca por seguir instrucciones precisas, lo que permite políticas de moderación a medida.
Microsoft se asocia con Mistral en su segundo acuerdo de IA más allá de OpenAI. Microsoft inicia una colaboración plurianual con Mistral, valorada en 2.000 millones de euros, adquiriendo una participación menor poco después de su importante inversión en OpenAI.
El proyecto de coche eléctrico de Apple ha muerto. Apple ha interrumpido el desarrollo de su coche eléctrico «Proyecto Titán», reasignando a muchos de sus 2.000 empleados para centrarse en proyectos de IA generativa.
Elon Musk demanda a OpenAI por la amenaza de la IA. Elon Musk ha interpuesto una demanda contra OpenAI, alegando que la organización se ha desviado de su misión fundacional de promover la inteligencia artificial para el beneficio público al asociarse con Microsoft con ánimo de lucro.
Evo: Modelado de contexto largo desde la escala molecular a la genómica. Evo es un modelo avanzado de fundamentos biológicos basado en la arquitectura StripedHyena, especializado en la interpretación de datos biológicos como genomas y proteínas con un vocabulario de más de 650k tokens. Ha sido creado por Together AI y el Arc Institute.

2º semana

Presentamos la nueva generación de Claude. Anthropic ha lanzado Claude 3, una nueva IA que supera la GPT-4, con tres modelos: Opus, Sonnet y Haiku. Cada uno de ellos admite una ventana de contexto de 200.000, capacidades de visión y varios idiomas. Opus se promociona como el de mayor rendimiento. Sonnet está integrado con Amazon Bedrock y Vertex AI de Google Cloud, mientras que Opus y Haiku están programados para un futuro lanzamiento junto con nuevas funciones como la llamada a funciones y REPL.
Inflection-2.5: conozca la mejor IA personal del mundo. Inflection ha lanzado su última versión de IA, Inflection-2.5, que mejora su modelo de IA, Pi, con capacidades cognitivas avanzadas que desafían a modelos lingüísticos líderes como GPT-4. En concreto, Inflection-2.5 logra un rendimiento competitivo en tareas de IA, especialmente en codificación y matemáticas, con un 40% menos de potencia de cálculo necesaria durante su fase de entrenamiento. Además de su eficiencia de procesamiento mejorada, Pi cuenta ahora con la capacidad de realizar búsquedas en la web en tiempo real para ofrecer noticias e información actualizadas.
Parece que ya sabemos qué ejecutivos de OpenAI expresaron su preocupación por Sam Altman antes de su destitución. Sam Altman, consejero delegado de OpenAI, se enfrentó a una breve destitución de su cargo después de que dos ejecutivos, uno de ellos la directora de tecnología Mira Murati, expresaran su preocupación. Las circunstancias que rodearon su salida temporal en noviembre siguen sin estar claras, a pesar de que reasumió el papel de CEO en una semana, según informó The New York Times.
Cloudflare anuncia un cortafuegos para la IA. Cloudflare está desarrollando «Firewall for AI», un cortafuegos de aplicaciones web diseñado para proteger los grandes modelos lingüísticos de los abusos mediante la detección de vulnerabilidades y la provisión de medidas de seguridad mejoradas para las aplicaciones basadas en IA.
Google lucha contra el spam y los contenidos de baja calidad en las búsquedas. Google está actualizando su algoritmo de búsqueda para degradar el contenido automatizado de baja calidad y elevar los sitios web más valiosos y fiables en las clasificaciones de búsqueda, centrándose en ofrecer una experiencia de contenido de alta calidad.

3º semana

Presentamos a Devin, el primer ingeniero de software con IA. Devin es un ingeniero de software autónomo diseñado por IA de Cognition, creado para aumentar los equipos de codificación. Tiene capacidades estratégicas para retos complejos y se integra con herramientas de desarrollo para un desarrollo iterativo. Devin obtuvo mejores resultados en SWE-bench, mostrando competencia en el aprendizaje y la depuración, resolviendo de forma autónoma el 13,86% de los problemas de GitHub en el mundo real, lo que supone un avance con respecto a modelos de IA anteriores.
Claude 3 Haiku: nuestro modelo más rápido. Anthropic ha lanzado Claude 3 Haiku, un modelo de IA diseñado para uso empresarial que ofrece una gran eficiencia, rentabilidad y un rendimiento superior en el procesamiento de grandes conjuntos de datos con capacidades de visión avanzadas, capaz de gestionar solicitudes a una velocidad de hasta 21.000 tokens por segundo para entradas inferiores a 32.000 tokens.
Agente de IA generalista SIMA para entornos virtuales 3D. DeepMind ha desarrollado SIMA, un agente de IA generalista diseñado para operar en entornos virtuales 3D, que se centra en la interpretación del lenguaje natural y la resolución de problemas complejos en lugar de en la maximización de la puntuación en los juegos tradicionales. SIMA se ha entrenado en nueve juegos de distintos géneros y cuenta con una combinación de modelos preentrenados de reconocimiento de imágenes y basados en la memoria para procesar y actuar en función de señales visuales e instrucciones lingüísticas.
Lanzamiento abierto de Grok. xAI ha lanzado Grok-1, un modelo lingüístico de mezcla de expertos con 314.000 millones de parámetros, tras su preentrenamiento en octubre de 2023. Este punto de control del modelo base está destinado a futuras investigaciones y al desarrollo de aplicaciones conversacionales, y es accesible bajo licencia Apache 2.0.
Los legisladores europeos aprueban la primera ley importante del mundo para regular la IA. El Parlamento Europeo ha aprobado una exhaustiva Ley de Inteligencia Artificial para regular la inteligencia artificial en función de los riesgos, imponiendo estrictas protecciones a los consumidores y manteniendo la supervisión humana. Se espera que esta ley, cuya entrada en vigor está prevista para 2025, influya en las empresas tecnológicas de todo el mundo y siente un posible precedente para futuras normativas internacionales sobre IA.
Midjourney estrena una función para generar caracteres coherentes en múltiples imágenes de IA genérica. Midjourney ha introducido una actualización que permite la coherencia de los caracteres generados por IA en las obras de arte mediante nuevas funciones de etiquetado. La etiqueta » – cref» permite a los usuarios hacer referencia a la URL de una imagen de personaje para mantener su aspecto en distintas escenas, mientras que la etiqueta » – cw» ajusta el nivel de coherencia de los personajes. Esto facilita la continuidad en la narración visual dentro de la comunidad artística de la IA, aunque la precisión de la réplica puede variar.
Midjourney acusa a Stability AI de robo de imágenes y expulsa a sus empleados. David Holz, director general de Midjourney, ha acusado a Stability AI de robo de conjuntos de datos de imágenes, lo que ha provocado un intercambio en línea en el que el director general de Stability AI, Emad Mostaque, ha negado cualquier directiva para tales acciones y ha expresado su disposición a apoyar las investigaciones sobre el asunto.

4º semana

El CEO de Stability AI dimite para «dedicarse a la IA descentralizada». Emad Mostaque ha dimitido como CEO de Stability AI para concentrarse en el desarrollo de la IA descentralizada. La empresa será codirigida temporalmente por el director de operaciones Shan Shan Wong y el director técnico Christian Laforte, manteniendo sus avances en IA generativa. Este cambio de liderazgo se produce en medio de una notable tendencia del sector al movimiento de talentos, destacada por la adquisición del equipo de Inflection AI por parte de Microsoft y del cofundador de Google DeepMind, Mustafa Suleyman.
Hemos creado un procesador para la era de la IA generativa», afirma el CEO de NVIDIA. Jensen Huang, CEO de NVIDIA, anunció en la conferencia GTC la plataforma de computación NVIDIA Blackwell, destinada a impulsar la IA generativa con capacidades superiores de entrenamiento e inferencia. La plataforma incluye interconexiones mejoradas para aumentar el rendimiento y la escalabilidad. NVIDIA también lanzó los microservicios NIM para la implantación de IA a medida y las API Omniverse Cloud para la simulación sofisticada, lo que supone un impacto transformador en sectores como la sanidad y la robótica.
Se espera que OpenAI lance una GPT-5 «materialmente mejor» para su chatbot a mediados de año, según fuentes. OpenAI se prepara para lanzar GPT-5 a mediados de año, que ofrecerá mejoras significativas con respecto a GPT-4, sobre todo en lo que se refiere a un mayor rendimiento para aplicaciones empresariales. Aunque la fecha de lanzamiento no está fijada debido a las continuas evaluaciones de formación y seguridad, las demostraciones preliminares a clientes empresariales sugieren nuevas funciones y capacidades, lo que aumenta la expectación por el impacto de GPT-5 en el panorama de la IA generativa.
Tras recaudar 1.300 millones de dólares, a Inflection se la come viva su mayor inversor, Microsoft. Inflection, que contaba con una financiación de 1.300 millones de dólares, ha abandonado su proyecto original de IA «Pi» debido al retraso de la competencia y ha integrado a su plana mayor en Microsoft. En concreto, Suleyman y Simonyan, junto con miembros del equipo principal, han asumido puestos de liderazgo en la división de IA de Microsoft, lo que indica una reorientación estratégica hacia soluciones de IA generativa personalizadas para clientes empresariales. Este movimiento ejemplifica el panorama competitivo de la IA conversacional, dominado por gigantes del sector como Microsoft, que se adaptan continuamente mediante importantes inversiones y adquisiciones.
Un vídeo de Neuralink muestra a un paciente que utiliza un implante cerebral para jugar al ajedrez en un ordenador portátil. Neuralink demostró un avance significativo en las interfaces cerebro-ordenador al presentar a un paciente humano paralítico que puede jugar al ajedrez y manejar el cursor de un ordenador con un implante cerebral. Este hito se produce tras la aprobación de la FDA para ensayos clínicos y subraya el potencial de la tecnología para revolucionar la asistencia a personas paralíticas y quizá ampliar las capacidades de los no discapacitados.
Presentación de Stable Video 3D: Síntesis de vistas y generación 3D de calidad novedosa a partir de imágenes individuales. Stability AI ha presentado Stable Video 3D (SV3D), un nuevo modelo generativo que mejora la tecnología 3D con mayor calidad y consistencia. SV3D ofrece dos versiones: SV3D_u para vídeos orbitales basados en una sola imagen sin trayectorias de cámara, y SV3D_p para la creación de vídeos 3D más avanzados utilizando trayectorias de cámara especificadas. Para su uso comercial se requiere una afiliación a Stability AI, mientras que los usuarios no comerciales pueden acceder a los pesos del modelo a través de Hugging Face y consultar el documento de investigación que lo acompaña.
Apple estaría en conversaciones con Google para licenciar la IA Gemini de Google para iPhones. Apple está discutiendo actualmente la integración de la IA Gemini de Google en las funcionalidades del iPhone, ampliando su colaboración más allá del acuerdo con el motor de búsqueda predeterminado de Google. Además, Apple planea incorporar sofisticadas funciones de IA, como la generación de imágenes y texto, en la próxima actualización de iOS 18 y está explorando alianzas con destacadas entidades de IA, como OpenAI y Gemini AI de Google, para mejorar su oferta.

Guías web

1º semana

Hacia una RAG de contexto largo. Gemini 1.5 Pro de Google ha introducido una impresionante ventana de contexto de un millón de palabras, lo que ha avivado el debate en la comunidad de la IA sobre la relevancia futura de la Generación de Recuperación Aumentada (RAG). Los avances previstos en las arquitecturas RAG incluyen técnicas más eficientes de recuperación de documentos, un mejor enrutamiento para reducir la latencia y el coste, y un mejor almacenamiento en caché de clave-valor (KV), con el objetivo de maximizar los beneficios de los modelos de contexto largo.
Arena TTS: Evaluación comparativa de modelos de conversión de texto en voz real. TTS Arena, que refleja el concepto de LMSys Chatbot Arena, ofrece una plataforma para comparar y evaluar modelos de conversión de texto a voz, permitiendo a los usuarios probar, revisar y valorar varios sistemas para determinar las voces más realistas.
Ingeniería de prompts con Llama 2. Deeplearning.ai ha lanzado un nuevo curso titulado «Prompt Engineering with Llama 2», diseñado para mejorar las habilidades en la creación de prompts y la optimización de modelos. El curso cubre estrategias avanzadas, incluyendo técnicas de pocos disparos y cadena de pensamiento. También presenta Code Llama, una ayuda virtual para la programación en parejas.
Introducción a Gorilla LLM. El Berkeley Function-Calling Leaderboard (BFCL) ha establecido un nuevo punto de referencia para evaluar LLMs en su capacidad para ejecutar diversos tipos de llamadas a funciones. GPT-4 es actualmente el mejor en tareas de llamada a funciones.
Evaluación de grandes modelos lingüísticos cuantificados. Este documento/guía explora el impacto de la cuantización post-entrenamiento (PTQ) en la reducción de las demandas de memoria y computación de los modelos lingüísticos de gran tamaño. Ofrece una amplia evaluación del efecto de PTQ en varios componentes como el peso, la activación y la caché KV en 11 familias de LLM con tamaños de parámetros de 125 millones a 180.000 millones.

2º semana

Guía práctica para la evaluación de canalizaciones RAG (parte 1). Un análisis de los LLM como GPT-4 en el contexto de los sistemas de recuperación muestra que, aunque determinan decentemente la relevancia del contexto con una tasa de precisión del 79% para la relevancia binaria, se enfrentan a retos en términos de baja recuperación y de lidiar con múltiples contextos relevantes en consultas complicadas, lo que indica que hay margen de mejora en las métricas de precisión y recuperación.
Formación de grandes LLM totalmente desde cero en la naturaleza como una startup. En el ámbito de las nuevas empresas de IA, el proceso de formación de grandes modelos lingüísticos depende no sólo de la experiencia, sino también de una cuidadosa selección de la infraestructura de hardware. Un rendimiento deficiente o inconsistente de la GPU debido a diferencias de calidad en los clusters puede obstaculizar significativamente la eficacia del entrenamiento de modelos.
Gemma en Android y iPhone y más actualizaciones de LLM local de MLC. El modelo de lenguaje Gemma2B puede utilizarse en plataformas móviles, incluidos Android e iPhone, con funcionalidad offline. Aprovechando la compilación SLM de MLC para Python, el modelo de 2.000 millones de parámetros alcanza una velocidad de generación de 20 tokens por segundo en dispositivos tan eficientes como el Samsung S23 sin necesidad de conexión a Internet. La optimización mejorada se consigue mediante la cuantización del modelo.
Ya puedes entrenar un modelo lingüístico de 70b en casa. Answer.ai presenta un sistema de código abierto que aprovecha FSDP y QLoRA y permite entrenar un modelo lingüístico de 70.000 millones de parámetros en sólo dos GPU de 24 GB.
Bitácora del capitán: la irreducible rareza de las IAs de incitación. La aplicación de técnicas eficaces como la adición de contextos ricos, ejemplos personalizados y la adopción de una estrategia de «cadena de pensamiento» mejora significativamente el rendimiento de modelos de IA como Llama 2 o GPT-4 de Meta.

3º semana

Multiaguja en un pajar. La nueva prueba comparativa «Aguja múltiple + razonamiento» pone de manifiesto las limitaciones de los LLM con contextos largos. Demuestra que, si bien los LLM obtienen buenos resultados cuando recuperan hechos aislados a partir de datos extensos (el escenario «Aguja en un pajar»), su eficiencia disminuye cuando se les asigna la tarea de encontrar múltiples hechos y razonar sobre ellos. Las principales conclusiones indican que los LLM, incluido GPT-4, tienen dificultades para recuperar numerosos hechos, sobre todo a medida que aumenta el tamaño del contexto, y también se enfrentan a retos a la hora de razonar sobre los hechos que recuperan, lo que sugiere la necesidad de mejorar los modelos para tareas RAG complejas.
Mejora de la precisión de las aplicaciones basadas en RAG mediante la construcción y el aprovechamiento de grafos de conocimiento. La Generación Aumentada de Recuperación de Grafos (Graph RAG) está ganando importancia en la recuperación de datos, utilizando bases de datos de grafos para mejorar el contexto de la información. Herramientas como Neo4j y LangChain, que integran la organización detallada de los grafos de conocimiento con la fluidez de los modelos lingüísticos, están impulsando las aplicaciones RAG.
Claude 3 es la IA más humana hasta la fecha. La IA Claude 3 de Anthropic hace hincapié en la interacción de tipo humano, centrándose en añadir calidez a los típicos avances de IA impulsados por la eficiencia. Sirve como herramienta de colaboración para escritores, aprovechando su ventana contextual de 1 millón de tokens para gestionar proyectos extensos con eficacia.
¿Cómo evaluar un sistema de RAG? La evaluación de los sistemas de RAG gira en torno a la medición de su capacidad para recuperar con precisión el contexto relevante y generar contenidos pertinentes, coherentes y fiables. Los indicadores clave de rendimiento de estos sistemas incluyen la relevancia del contexto, la relevancia de la respuesta, la fidelidad y la corrección, que son esenciales para optimizar el rendimiento de la GAR tanto en la identificación del contexto como en la generación de respuestas.

4º semana

La biblioteca de instrucciones de Anthropic. La biblioteca de estímulos antrópicos ofrece un conjunto de estímulos para tareas específicas destinados a mejorar el rendimiento en áreas como los negocios, el desarrollo personal y los contenidos generados por los usuarios. Es compatible con un conjunto diversificado de actividades que incluyen el desarrollo de juegos, el análisis corporativo, el diseño web, la codificación y la narración creativa.
Cómo utiliza realmente la gente la GenAI. La IA Generativa, en particular modelos como ChatGPT, ha ganado la atención de la mayoría con una amplia aplicabilidad evidenciada por más de 100 casos de uso en el mundo real encontrados a través de una extensa investigación. A pesar de su amplia base de usuarios y su potencial importancia económica, su adopción es limitada debido a las preocupaciones sobre la precisión, el posible uso indebido por parte de las empresas y los retos normativos. No obstante, la tecnología promete mejorar la productividad, la creatividad y la resolución de problemas en los ámbitos profesional y personal.
Cosmopedia: cómo crear datos sintéticos a gran escala para el preentrenamiento de grandes modelos lingüísticos. Cosmopedia es un importante conjunto de datos sintéticos de código abierto diseñado para facilitar el preentrenamiento de grandes modelos lingüísticos similares a Phi-1.5. Generado con Mixtral-8x7B-Instruct-v0.1, consta de más de 30 millones de archivos y 25.000 millones de tokens. El conjunto de datos hace hincapié en la diversidad y la calidad, conseguidas mediante una ingeniería de prontitud exhaustiva y aprovechando los datos de la web. Supone un cambio de paradigma al pasar del uso de anotadores humanos a modelos GPT para la creación de datos, al tiempo que aborda el reto de las alucinaciones de datos y el control de calidad.
Velocidad de inferencia LLM de la luz. El artículo presenta «calm», una solución CUDA racionalizada diseñada para la inferencia rápida en LLMs, haciendo hincapié en la «velocidad de la luz» máxima teórica para la inferencia en LLMs. Destaca la dependencia de los LLM de la generación secuencial de testigos, limitada por el ancho de banda de la memoria más que por la potencia de cálculo de las CPU y GPU actuales. El artículo subraya la necesidad de disponer de software y hardware de alta calidad optimizados para aprovechar al máximo el ancho de banda de la memoria a fin de alcanzar los límites teóricos de velocidad de inferencia.
Preentrenamiento de 16 modelos lingüísticos con distintos tokenizadores. Un estudio examinó el impacto de las opciones de vocabulario/tokenización en el rendimiento de los modelos lingüísticos mediante el preentrenamiento de 16 modelos con distintos tokenizadores. Entre las principales conclusiones se encuentran la identificación de 32.000 como el tamaño óptimo de vocabulario y la observación de que, aunque los vocabularios más sencillos convergen más rápidamente, no garantizan resultados superiores tras la convergencia.

Papers y repositorios de interés

1º semana

La era de los LLM de 1 bit: Todos los grandes modelos lingüísticos son de 1,58 bits. Los últimos avances han introducido LLMs con pesos ternarios, en particular BitNet b1.58, que consigue una perplejidad y un rendimiento de tarea comparables a los LLMs de precisión completa con unos costes computacionales significativamente reducidos. Este enfoque no sólo reduce la latencia, los requisitos de memoria, el rendimiento y el consumo de energía, sino que también desafía el uso convencional de las GPU aprovechando el hardware optimizado para las adiciones.
StarCoder 2 y The Stack v2: La nueva generación. StarCoder2 es un nuevo modelo de lenguaje de código abierto especializado en la generación y comprensión de código en rangos de tamaño «pequeños», con variantes a 3B, 7B y 15B parámetros. Entre las mejoras más destacadas se incluye la ampliación del conjunto de datos con The Stack v2, que contiene un conjunto diverso de 619 lenguajes de programación. Los modelos se han entrenado en un extenso conjunto de datos de entre 3,3 y 4,3 billones de tokens y han mostrado un rendimiento impresionante en diversos parámetros de codificación.
Vuelta a lo básico: Revisando la optimización estilo REINFORCE para aprender de la retroalimentación humana en LLMs. Hallazgos recientes indican que la optimización REINFORCE, un método más simple y menos exigente desde el punto de vista computacional, puede superar a la popular pero compleja Optimización de Política Proximal (PPO) para alinear Grandes Modelos de Lenguaje (LLMs) con las preferencias humanas durante el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF).
ListT5: Listwise Reranking with Fusion-in-Decoder Improves Zero-shot Retrieval. Los autores han desarrollado ListT5, un nuevo método de reordenación que utiliza el Fusion-in-Decoder (FiD) y que aborda el procesamiento de múltiples pasajes candidatos durante las fases de entrenamiento e inferencia. Se introduce un eficaz sistema de clasificación por listas que utiliza la ordenación por torneos m-ary con almacenamiento en caché de los resultados para una rápida inferencia. ListT5 ha demostrado un rendimiento superior, superando al mejor modelo anterior, RankT5, con una mejora de +1,3 en la puntuación media NDCG@10.
MobileLLM: optimización de modelos de lenguaje con miles de millones de parámetros para casos de uso en dispositivos móviles. Este artículo presenta MobileLLM, un modelo lingüístico de parámetros inferiores a un billón optimizado para dispositivos móviles, que desafía el énfasis tradicional en el tamaño del modelo demostrando la importancia de la arquitectura. Utiliza estructuras ligeras con incrustaciones compartidas y atención a consultas agrupadas para superar a modelos anteriores de escala similar, ofreciendo notables mejoras de precisión tanto en pruebas de chat como en tareas de llamada a API, rivalizando con modelos más grandes de 7B en casos de uso específicos.

2º semana

Chatbot Arena: Una Plataforma Abierta para Evaluar LLMs por Preferencia Humana. Chatbot Arena es una plataforma abierta diseñada para mejorar la NLP alineando los LLM con las preferencias humanas mediante sencillas comparaciones de opiniones. Incorpora más de 240.000 votos de usuarios para refinar los criterios de evaluación, promover la variedad de preguntas y garantizar el acuerdo entre expertos, confirmando así la fiabilidad de sus resultados.
Resonance RoPE: mejora de la generalización de la longitud de contexto de grandes modelos lingüísticos. El estudio presenta Resonance RoPE, una solución para mejorar la capacidad de los Transformers con Rotary Position Embedding (RoPE) para manejar longitudes de secuencia más largas que las vistas durante el entrenamiento (escenarios entrenar-cortar-probar-largar). Esto se consigue mejorando RoPE para posiciones fuera de distribución con el fin de mejorar el rendimiento del modelo en secuencias más largas, con la ventaja de no incurrir en costes computacionales adicionales durante el funcionamiento.
La irracional eficacia de las instrucciones automáticas excéntricas. Este estudio investiga el impacto de las instrucciones de «pensamiento positivo» en el rendimiento de diferentes LLM en un conjunto de datos de preguntas de matemáticas (GSM8K). Llega a la conclusión de que la eficacia de los avisos ajustados a mano no es consistente en todos los modelos, y sugiere que la optimización sistemática y automática de los avisos es el enfoque superior para lograr resultados de alta calidad de los LLM.
ArtPrompt: Ataques de fuga basados en arte ASCII contra LLM alineados. Investigaciones recientes han identificado una vulnerabilidad en los LLMs, en los que el arte ASCII puede ser utilizado para realizar ataques de fuga explotando sus debilidades en la interpretación de prompts no semánticos. La prueba comparativa ViTC se ha desarrollado para poner a prueba las capacidades de los LLM frente a estos desafíos, revelando que incluso modelos avanzados como GPT-3.5, GPT-4, Gemini, Claude y Llama2 son susceptibles.
Yi: Modelos de base abierta de 01.AI. La serie de modelos Yi amplía los modelos lingüísticos preentrenados de 6B y 34B parámetros mejorándolos para el chat, manejando contextos de 200K tokens e incorporando capacidades de visión del lenguaje. Aprovechando una infraestructura informática de alto rendimiento y diseños de transformadores, los modelos Yi sobresalen gracias a los datos de entrenamiento de alta calidad elaborados mediante rigurosos procesos de deduplicación y filtrado. Los autores también perfeccionaron meticulosamente un pequeño conjunto de datos de forma iterativa con aportaciones directas de ingenieros de aprendizaje automático.

3º semana

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training. El equipo de investigación de Apple ha presentado MM1, una serie de modelos de IA multimodal de última generación capaces de procesar información visual y lingüística. La familia MM1 incluye un modelo de 30.000 millones de parámetros que demuestra una capacidad superior de aprendizaje en pocos pasos y destaca en tareas multimodales como la respuesta a preguntas visuales (VQA) y el subtitulado de imágenes.
AnswerDotAI/rerankers. Una biblioteca con una API unificada y ligera para varios modelos de reordenación. Aborda el reto de utilizar varios modelos con un diseño ligero, fácil de usar y fácil de integrar, prometiendo simplificar la integración en los pipelines existentes.
Descifrando la conversión de capturas de pantalla web en código HTML con el conjunto de datos WebSight. El artículo presenta WebSight, un conjunto de datos sintéticos de 2 millones de pares de HTML y capturas de pantalla diseñado para mejorar los modelos de visión-idioma (VLM) en tareas de desarrollo web, como la traducción de capturas de pantalla de interfaz de usuario a código HTML. Los autores demuestran el rendimiento mejorado de los VLM en este conjunto de datos y contribuyen a la comunidad de la IA abriendo WebSight, lo que anima a seguir investigando en la aplicación de los VLM al desarrollo web.
Robo de parte de un modelo lingüístico de producción. Un estudio reciente ha demostrado un ataque de robo de modelos que extrae con éxito capas de modelos transformadores, incluida la capa de incrustación de modelos de alto perfil como Ada y Babbage de OpenAI, y PaLM-2 de Google. Mediante consultas a la API, el ataque puede descubrir de forma económica la matriz de proyección de estos modelos de lenguaje, con estimaciones del coste de exponer la matriz de gpt-3.5-turbo por debajo de los 2.000 dólares.
Uni-SMART: Universal Science Multimodal Analysis and Research Transformer. La rápida expansión de los artículos científicos supone un reto para el análisis exhaustivo de la literatura. Los LLM ofrecen una solución potencial con sus capacidades de resumen, pero tienen dificultades con los elementos multimodales que prevalecen en el contenido científico. Uni-SMART (Universal Science Multimodal Analysis and Research Transformer) ha sido desarrollado para comprender y analizar los complejos datos multimodales de la literatura científica.

4º semana

Optimización evolutiva de recetas de fusión de modelos. Este artículo presenta un algoritmo evolutivo diseñado para automatizar la combinación de modelos de código abierto en sofisticados modelos de base, eliminando la dependencia de la experiencia humana y los recursos a gran escala. El enfoque ajusta de forma óptima los parámetros y el flujo de datos, lo que resulta en la creación de un LLM de lengua japonesa de alto rendimiento con capacidades matemáticas y un modelo de lenguaje visual (VLM) sensible a la cultura, que establecen nuevos puntos de referencia en sus respectivas áreas, mostrando la promesa de las técnicas automatizadas en el desarrollo de modelos fundacionales.
RAFT: Adaptación del modelo lingüístico a la GAR específica del dominio. RAFT (Retrieval Augmented FineTuning) se presenta como un método de post-entrenamiento que mejora los LLM para tareas específicas de dominio entrenándolos para aprovechar selectivamente los documentos relevantes, mejorando la citación de información y el razonamiento en escenarios de «libro abierto». Su eficacia se valida en conjuntos de datos como PubMed, HotpotQA y Gorilla, mejorando el rendimiento en tareas de Generación Aumentada de Recuperación (RAG).
Mora: Generación de vídeo generalista mediante un marco multiagente. Mora es un nuevo marco de generación de vídeo multiagente de código abierto que se presenta como alternativa al modelo propietario Sora de OpenAI. Soporta varias tareas como conversión de texto a vídeo, conversión de imagen a vídeo, extensión de vídeo, edición y simulación de mundo digital con un rendimiento cercano a Sora en ciertas áreas, aunque todavía no iguala las capacidades generales de Sora.
VLOGGER: difusión multimodal para la síntesis de avatares personificados. VLOGGER es un método novedoso para generar vídeos humanos realistas en los que se habla a partir de una sola imagen utilizando pistas de texto y audio. Este método emplea un marco de modelos de difusión generativa que combina el movimiento humano a 3D y una arquitectura de difusión innovadora para controlar los elementos temporales y espaciales. Este enfoque permite crear vídeos de alta calidad y longitud variable que mantienen la identidad sin necesidad de formación específica sobre individuos ni tareas previas de detección y recorte de rostros.
MusicLang/musiclang_predict: AI Prediction api del paquete MusicLang. MusicLang Predict aprovecha la arquitectura LLAMA2 para la generación simbólica de música, ofreciendo funciones avanzadas como la manipulación de progresiones de acordes y la funcionalidad de exportación a MIDI para DAWs. Hace hincapié en el rendimiento en hardware sin necesidad de GPU y planea futuras funciones como el control de instrumentos por compases y la generación de aplicaciones móviles en tiempo real.

¡Gracias por leernos! Si quieres aprender más sobre NLP, recuerda seguir NLPlanet. Puedes encontrarnos en LinkedIn, Twitter, Medium, y en nuestro Discord server.

The post Noticias mensuales sobre IA y NLP – marzo 2024 first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-marzo-2024/feed/ 0 Noticias mensuales sobre IA y NLP – febrero2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-febrero2024/?utm_source=rss&utm_medium=rss&utm_campaign=noticias-mensuales-sobre-ia-y-nlp-febrero2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-febrero2024/#respond Thu, 29 Feb 2024 06:00:08 +0000 https://desa.planetachatbot.com/?p=17072 En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet. 😎 Noticias de la Web 1º semana de febrero 2º semana de febrero 3º semana de febrero 4º semana de febrero 📚 Guías web 1º semana de febrero 2º semana de febrero 3º semana de febrero […]

The post Noticias mensuales sobre IA y NLP – febrero2024 first appeared on Planeta Chatbot.

]]> En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet.

Noticias de la Web

1º semana de febrero

Presentación de Code Llama, un gran modelo lingüístico de última generación para la codificación. Meta ha lanzado Code Llama 70B, un modelo de IA para codificación comparable a GPT4, en tres variantes: el modelo base, una versión específica para Python y una versión «Instruct» para interpretar órdenes en lenguaje natural. Todas las ediciones son gratuitas tanto para investigación como para aplicaciones comerciales.
Gemini Pro de Google supera a GPT-4. Gemini Pro de Google se sitúa justo por debajo de GPT4 Turbo y por delante de GPT4 en la clasificación de ChatBot Arena, una plataforma que utiliza un sistema de clasificación Elo basado en más de 200.000 votos humanos para evaluar el rendimiento de los LLM. Las especulaciones sobre la próxima Llama 3 de Meta y un posible lanzamiento en el segundo trimestre de la GPT-5 de OpenAI están despertando expectación en el sector de la IA.
Mistral confirma que el nuevo modelo de IA de código abierto se acerca al rendimiento GPT-4. Mistral ha confirmado recientemente que el Large Language Model «miqu-1-70b», publicado en HuggingFace y con un rendimiento cercano al de GPT-4, es una versión cuantificada de su tecnología que se ha filtrado.
Sam Altman dice que la GPT-5 será «aceptable». El Consejero Delegado de OpenAI, Sam Altman, adopta un tono cauto cuando habla de IA, y recientemente calificó en Davos la esperada GPT-5 de simplemente «aceptable». Este enfoque equilibrado sugiere un cambio estratégico hacia una comunicación moderada.
Hugging Face lanza un asistente de IA de código abierto para competir con los GPT personalizados de OpenAI. Hugging Face ha introducido asistentes de chat personalizables y gratuitos en su plataforma Hugging Chat, presentando una alternativa de código abierto a los servicios GPT de OpenAI. Esta iniciativa ofrece a desarrolladores y entusiastas de la IA acceso gratuito a varios modelos lingüísticos de gran tamaño, como Mixtral de Mistral y Llama 2 de Meta.

2º semana de febrero

Bard se convierte en Gemini: Prueba Ultra 1.0 y una nueva aplicación móvil hoy mismo. Google ha lanzado Gemini Advanced, una nueva función de asistente digital potenciado por IA dentro de Google One AI Premium, con un precio de 19,99€ al mes tras una prueba gratuita de dos meses. Gemini está diseñado para mejorar la productividad de los usuarios de Android e iOS mediante la integración con las tareas diarias, ofreciendo asistencia a través de una app, el Asistente de Google o comandos de voz.
Sam Altman, CEO de OpenAI, persigue billones de dólares como inversiones para trastocar las industrias de IA y chips. Sam Altman, CEO de OpenAI, está buscando activamente asegurar entre 5 y 7 billones de dólares en financiación para expandir la industria de semiconductores para apoyar el desarrollo de la IA. El objetivo de esta inversión es hacer frente a la escasez de GPU y fomentar el crecimiento tanto de la IA como de la inteligencia artificial general. Altman está en contacto con diversas partes interesadas, como funcionarios de los EAU y EE.UU., inversores y fabricantes de chips, en su empeño por construir una sólida infraestructura mundial de fabricación de chips que satisfaga las crecientes demandas y requisitos energéticos de las instalaciones de IA.
Un estudio revela que los ataques de «intercambio de caras» mediante deepfakes aumentaron un 704% el año pasado. Los avances de la tecnología deepfake han dado lugar a un aumento significativo de los ataques de «intercambio de caras», con un incremento del 704 % en la segunda mitad del año, impulsado por herramientas GenAI accesibles como SwapFace y DeepFaceLive. Estas herramientas aumentan la capacidad de producir falsificaciones profundas indetectables, facilitando el anonimato y contribuyendo a un aumento de los delitos basados en falsificaciones profundas, incluida una notable estafa financiera en Hong Kong.
Etiquetado de imágenes generadas por IA en Facebook, Instagram y Threads. Meta está implementando etiquetas «Imaginado con IA» para el contenido generado por IA en Facebook e Instagram para una mayor transparencia. Mientras que el etiquetado de imágenes de IA está disponible, Meta está desarrollando la detección para el contenido de audio/vídeo y requiere la divulgación del usuario hasta que se establezcan las normas. Además, se están tomando medidas para garantizar que estas etiquetas de transparencia no puedan eliminarse.
OpenAI añade nuevas marcas de agua a DALL-E 3. DALL-E 3 de OpenAI incorpora ahora marcas de agua para distinguir las imágenes generadas por IA de las creadas por humanos, lo que mejora la transparencia sobre el terreno.

3º semana de febrero

OpenAI anuncia Sora. OpenAI ha presentado Sora, un novedoso generador de vídeo por IA capaz de crear vídeos de hasta un minuto de duración a partir de instrucciones textuales. Las demostraciones muestran su capacidad para transformar mensajes creativos en contenidos de vídeo, destacando la sinergia entre la IA y la creatividad humana.
Nuestro modelo de nueva generación: Gemini 1.5. Google ha presentado Gemini 1.5, que demuestra una capacidad mejorada para procesar información de contexto largo de hasta 1 millón de tokens. Iguala la calidad de Gemini 1.0 Ultra, pero requiere menos potencia de cálculo y supera a Gemini 1.0 Pro en el 87% de las pruebas comparativas.
Stability AI anuncia Stable Cascade. Stability AI ha presentado Stable Cascade, un avance de investigación de un nuevo modelo texto-imagen basado en la arquitectura Würstchen. Este modelo se distribuye bajo licencia no comercial y es fácil de entrenar y ajustar en hardware de consumo gracias a su innovador enfoque en tres fases.
Al parecer, OpenAI está desarrollando una búsqueda web con IA para competir con Google. Según los informes, OpenAI está desarrollando una capacidad de búsqueda web con IA, potencialmente para competir con Google, y podría incorporarla a un nuevo servicio o a un ChatGPT mejorado que utilice Bing para resumir información basada en la web.
V-JEPA: El siguiente paso hacia la inteligencia artificial avanzada. Yann LeCun propone un paradigma de aprendizaje automático, V-JEPA, para que los sistemas construyan modelos internos del mundo y aprendan intuitivamente como un ser humano. A diferencia de los métodos convencionales, V-JEPA emplea una técnica no generativa para la comprensión de vídeo, priorizando la interpretación abstracta sobre la reproducción detallada.
Together AI, una empresa de GPU en la nube, recauda 100 millones de dólares. Together AI, una compañía de nube de GPU especializada en herramientas de IA de código abierto y acceso a chips de servidor Nvidia, se acerca a una ronda de financiación de 100 millones de dólares liderada por Salesforce Ventures, lo que podría elevar su valoración a 1.000 millones de dólares.

4º semana de febrero

Gemma: una familia de modelos abiertos ligeros y de última generación de Google. Google ha lanzado Gemma, un gran modelo lingüístico de código abierto basado en Gemini, en dos versiones con 2.000 millones (2B) y 7.000 millones (7B) de parámetros. Ambas versiones incluyen un modelo básico preentrenado y una variante ajustada a las instrucciones para mejorar el rendimiento.
Las ventas de GPU de Nvidia para centros de datos crecen un asombroso 409% gracias a la enorme demanda de chips de IA. Nvidia ha experimentado un aumento significativo en las ventas de GPU, reportando un incremento del 409% debido en gran parte a la creciente demanda de tecnologías de IA. Con unos beneficios e ingresos del cuarto trimestre que superan con creces las previsiones de Wall Street, las finanzas de la compañía han prosperado gracias a las sólidas ventas de su serie de GPU Hopper, incluida la H100.
Stable Diffusion 3. Stability AI ha presentado en primicia Stable Diffusion 3, que incluye mejoras en el manejo de mensajes con varios temas, la calidad de la imagen y la precisión de la ortografía visual del texto. Un número selecto de usuarios tiene la oportunidad de probar y perfeccionar el modelo antes de su disponibilidad general.
Google pone en pausa la capacidad de Gemini de generar imágenes de personas mediante IA tras errores relacionados con la diversidad. Google ha suspendido la función de su IA Gemini que crea imágenes de figuras humanas debido a inexactitudes relacionadas con la diversidad. La IA estaba produciendo imágenes históricas que se desviaban de las normas raciales y de género conocidas, como la representación de los Padres Fundadores de Estados Unidos y los soldados de la época nazi con diversos orígenes étnicos.
Phind-70B cierra la brecha de calidad del código con GPT-4 Turbo y funciona 4 veces más rápido. Phind-70B es un nuevo modelo de IA centrado en el código que mejora CodeLlama-70B al integrar 50.000 millones de tokens más. Cuenta con una ventana de 32.000 tokens, lo que le permite producir soluciones técnicas de alta calidad a una velocidad de 80 tokens por segundo. El modelo supera a GPT-4 Turbo con una puntuación HumanEval del 82,3%, aunque su rendimiento es ligeramente inferior al CRUXEval de Meta.

Guías web

1º semana de febrero

Cómo utilizan las empresas los LLM de código abierto. Empresas de diversos sectores están integrando grandes modelos lingüísticos (LLM) de código abierto para mejorar sus operaciones y la experiencia de los usuarios. Empresas como VMware, Brave y Gab Wireless aprovechan modelos como los de HuggingFace y Mistral AI para la generación de código y la asistencia conversacional.
LLM de código abierto como agentes LangChain. Los LLM de código abierto como Mixtral han alcanzado niveles de rendimiento que les permiten servir como componentes centrales de razonamiento en agentes inteligentes, superando incluso los puntos de referencia GPT-3.5.
Presentación de Enterprise Scenarios Leaderboard: una tabla de clasificación para casos de uso del mundo real. La tabla de clasificación de escenarios empresariales, desarrollada por el equipo de Patronus en colaboración con Hugging Face, es una nueva herramienta de evaluación comparativa diseñada para evaluar el rendimiento de los modelos lingüísticos en seis tareas orientadas a la empresa. Estas tareas incluyen finanzas, asuntos legales, escritura creativa, atención al cliente, detección de toxicidad y manejo de información personal identificable (PII), con un énfasis específico en los requisitos empresariales.
La promesa y los retos de las aplicaciones cripto + IA. La intersección de la IA y blockchain tiene el potencial de revolucionar varios sistemas, con la IA preparada para mejorar la eficiencia y fiabilidad de blockchain a través de capacidades como la optimización del arbitraje y la predicción, así como la mejora de la accesibilidad mediante la simplificación de las transacciones y el aumento de las medidas de seguridad.
Modelo de mundo interno de Chess-GPT. Chess-GPT, un modelo de machine learning con 50 millones de parámetros entrenados en millones de anotaciones de partidas de ajedrez, ha demostrado su capacidad para jugar al ajedrez con una clasificación Elo de 1300, lo que refleja una comprensión de las reglas y estrategias del juego. El modelo ejecuta jugadas legales con una precisión del 99,8% tras el entrenamiento, lo que indica que incluso los modelos compactos, con datos suficientes, pueden aproximarse a las habilidades de resolución de problemas a nivel humano.

2º semana de febrero

Pensar en datos humanos de alta calidad. Las anotaciones humanas detalladas y de alta calidad son cruciales para crear modelos de deep learning eficaces, garantizando la precisión de la IA mediante tareas como la clasificación de contenidos y la alineación de modelos lingüísticos. Aprovechar la «sabiduría de la multitud» con los filtros adecuados puede producir resultados comparables a la calidad de los expertos, como demuestran las investigaciones en áreas como la traducción automática.
Clasificación NPHardEval: Desvelar la capacidad de razonamiento de grandes modelos lingüísticos mediante clases de complejidad y actualizaciones dinámicas. La tabla de clasificación NPHardEval ofrece un punto de referencia para evaluar las capacidades de razonamiento de los LLM en un conjunto de 900 problemas algorítmicos, centrándose en tareas NP-Hard y menos complejas. Para mantener la integridad de la evaluación y evitar el sobreajuste del modelo, se actualiza mensualmente con nuevos retos, lo que ayuda a medir de forma fiable el progreso en el rendimiento de razonamiento de los LLM.
SegMoE: Segmind Mezcla de Expertos en Difusión. SegMoE, integrado en el ecosistema Hugging Face, simplifica el desarrollo de modelos a medida de Difusión de Mezcla de Expertos influidos por la Difusión Estable, incorporando capas MoE dispersas para el procesamiento específico de tokens.
Estética de la IA. La IA está transformando el panorama artístico al facilitar la creación de visuales, música y narrativas, haciéndolas accesibles a las personas independientemente de sus habilidades artísticas, de forma similar a como los smartphones popularizaron la fotografía. Ha permitido la aparición de nuevos géneros y de un arte interactivo que convierte a los consumidores en colaboradores, utilizando herramientas como los chatbots de IA para narrar historias e instalaciones dinámicas como «Dream Machine».
Por qué cambié Google Search por Perplexity. El autor habla de la transición de Google al motor de búsqueda Perplexity, impulsado por IA, destacando sus características clave como la entrega de respuestas resumidas y directas con citas de fuentes, y la capacidad única de proporcionar perspectivas reescritas.

3º semana de febrero

PEFT da la bienvenida a nuevos métodos de fusión. La fusión de modelos se ha convertido rápidamente en un estándar de facto para superar los límites de rendimiento de los grandes modelos lingüísticos. En la Open LLM Leaderboard, hay nuevos modelos fusionados encabezando las listas.
Machine Learning en química. El machine learning y las redes neuronales, como las CNN y las RNN, están haciendo avanzar significativamente la investigación química al identificar patrones en datos complejos, ayudando en el desarrollo de fármacos, la predicción de toxicidad y la comprensión de las relaciones estructura-actividad.
El entrenamiento de redes neuronales genera bellos fractales. El entrenamiento de redes neuronales puede generar sin querer fractales intrincados, que reflejan la interacción dinámica de los ajustes de los hiperparámetros, en particular la tasa de aprendizaje. A medida que se ajusta la tasa de aprendizaje para evitar divergencias y garantizar un entrenamiento eficaz, el límite entre el entrenamiento eficaz y el fracaso se manifiesta como un patrón fractal.
Aprendizaje de la importancia de los datos de formación bajo deriva conceptual. Una investigación reciente propone un sistema de clasificación de los datos de entrenamiento basado en la relevancia, que utiliza un modelo de ayuda diseñado para abordar y adaptarse a la lenta deriva conceptual de la IA. Este enfoque tiene el potencial de mejorar el rendimiento del modelo a lo largo del tiempo, presentando una solución competitiva para mejorar la adaptabilidad en el aprendizaje continuo.
Tutorial de GeoGPT+: Mapas visuales listos para la web a partir de datos SIG sobre incendios forestales. GeoGPT+ es una herramienta geoespacial GPT diseñada para la integración de datos en tiempo real y la generación de mapas visuales a partir de conjuntos de datos SIG. En particular, está especializada en la interpretación de datos de incendios forestales procedentes de fuentes como el conjunto de datos CSV de incendios forestales de la NASA, transformando los datos brutos en visuales significativos.

4º semana de febrero

Los 11 mejores generadores de imágenes con IA en 2024. Los generadores de imágenes basados en IA como DALLE 3, Midjourney, Dream Studio (Stable Diffusion), Canva AI y NightCafe están transformando el panorama de la creación visual, ofreciendo herramientas innovadoras para el diseño profesional, las aplicaciones empresariales y los entusiastas del arte.
Construir un Agente de Datos potenciado por LLM para el Análisis de Datos. Esta guía describe los tipos de agentes necesarios y sus roles colaborativos en la creación de una aplicación LLM competente para tareas de análisis de datos. Incluye un caso de uso práctico y los correspondientes fragmentos de código, junto con consejos de optimización para desarrolladores de IA implicados en el diseño y la implementación de aplicaciones de agentes LLM.
Técnicas avanzadas de investigación con ChatGPT. Esta guía esboza estrategias para aprovechar ChatGPT en la investigación, haciendo hincapié en que, si bien ChatGPT puede agilizar las tareas de investigación, la calidad de la investigación sigue dependiendo de la experiencia y la comprensión del investigador humano.
¿Cuántos sitios web de noticias bloquean los rastreadores de IA? Los editores de noticias de Estados Unidos bloquean cada vez más los rastreadores de IA de empresas como OpenAI y Google, y el 80% de los principales sitios estadounidenses restringirán el acceso de OpenAI a finales de 2023. La tendencia muestra una variación significativa a nivel internacional, con sólo el 20% de los principales sitios de noticias en México y Polonia implementando bloqueos similares.
Mi punto de referencia para grandes modelos lingüísticos. Esta prueba evalúa las capacidades de los grandes modelos lingüísticos en tareas de programación del mundo real, como la traducción de código entre Python y C, la comprensión de JavaScript minificado y la generación de SQL a partir del inglés.

Papers y repositorios de interés

1º semana de febrero

El efecto mariposa de la alteración de las instrucciones: Cómo afectan los pequeños cambios y los «jailbreaks» al rendimiento de los grandes modelos lingüísticos. Investigaciones recientes revelan que incluso pequeñas modificaciones en las instrucciones, como la adición de espacios, pueden afectar significativamente al rendimiento de los LLM en tareas de clasificación de textos, lo que subraya la importancia crítica de una ingeniería precisa de las instrucciones.
Reformulación de la Web: Una receta para un modelado lingüístico eficiente desde el punto de vista informático y de los datos. Los investigadores han desarrollado un método para mejorar el entrenamiento de los LLM utilizando un LLM más pequeño ajustado a las instrucciones para parafrasear raspados de la web, creando un conjunto de datos más limpio y estructurado. Este método ha demostrado que acelera el preentrenamiento, reduce los costes computacionales y mejora el rendimiento, logrando un aumento de la velocidad de 3 veces, una reducción de la perplejidad del 10% y una mejor capacidad de aprendizaje sin disparos en varias tareas.
OLMo: Acelerando la ciencia de los modelos lingüísticos. OLMo es el primer LLM totalmente de código abierto cuya versión incluye no solo los pesos del modelo y el código de inferencia, sino también los datos de entrenamiento, el código de entrenamiento y el código de evaluación.
MoE-LLaVA: Mezcla de expertos para grandes modelos de visión y lenguaje. El equipo LLaVA ha presentado MoE-LLaVA, un modelo de visión y lenguaje (LVLM) disperso y de código abierto que aprovecha una mezcla de expertos (MoE) para mantener constantes los costes computacionales a pesar de un aumento sustancial de los parámetros. Mediante la activación selectiva de los mejores-k expertos para cada tarea, MoE-LLaVA consigue un rendimiento eficiente y rentable.
FinanceBench: Una nueva prueba para responder a preguntas financieras. FinanceBench es una nueva prueba de referencia diseñada para evaluar la capacidad de respuesta a preguntas financieras (QA) de los LLM, que proporciona un conjunto de datos con 10.231 preguntas relacionadas con las finanzas. Una evaluación de 16 modelos punteros, incluido GPT-4-Turbo, puso de manifiesto que muchos LLM tienen dificultades en este campo, y que GPT-4-Turbo tuvo problemas con el 81% de las preguntas incluso cuando se utilizó un sistema de recuperación.

2º semana de febrero

Ajedrez de nivel de gran maestro sin búsqueda. DeepMind ha desarrollado un modelo transformador de 270 millones de parámetros que alcanza el nivel de gran maestro de ajedrez sin recurrir a técnicas de búsqueda tradicionales. Entrenado en un conjunto de datos de 10 millones de partidas con información sobre el valor de la acción de Stockfish 16, el modelo alcanzó un Elo de 2895 en la partida relámpago de Lichess y demostró su capacidad para resolver rompecabezas de ajedrez avanzados.
Sólo se necesitan más agentes. Los métodos de ensamblaje mejoran significativamente el rendimiento de los modelos lingüísticos, como demuestran los aumentos de precisión de Llama2-13B, Llama2-70B y GPT-3.5-Turbo en la prueba GSM8K. Los conjuntos más grandes, sobre todo los de tamaño 15 o superior, permiten que modelos más pequeños como Llama2-13B alcancen niveles de precisión comparables a los de modelos más grandes como Llama2-70B. Además, la ampliación de los conjuntos a 15-20 miembros permite a Llama2-70B y GPT-3.5-Turbo igualar el rendimiento de modelos aún más avanzados.
metavoiceio/metavoice-src: Modelo fundacional para un TTS expresivo y similar al humano. MetaVoice-1B es un modelo TTS de última generación entrenado en un extenso conjunto de datos de 100.000 horas, diseñado para generar habla inglesa emocionalmente expresiva con especial atención a los tonos americanos y británicos. Ofrece clonación de voz utilizando sólo 30 segundos de audio y admite síntesis de voz de larga duración, todo ello bajo la permisiva licencia Apache 2.0.
apple/ml-mgie. Apple ha presentado MGIE, un innovador modelo de edición de imágenes basado en instrucciones que utiliza grandes modelos lingüísticos multimodales (LLM). MGIE destaca por aprender e interpretar eficazmente instrucciones descriptivas, que utiliza para guiar las alteraciones visuales. Su formación integral le permite ejecutar alteraciones detalladas similares a las de Photoshop, mejoras fotográficas integrales y ediciones específicas.
MusicRL: Adaptación de la generación de música a las preferencias humanas. MusicRL, una iteración avanzada del modelo MusicLM, aprovecha el aprendizaje por refuerzo y los comentarios humanos para mejorar sus capacidades de generación musical, sobre todo en cuanto a alineación textual y calidad de sonido.

3º semana de febrero

Las mezclas de expertos desbloquean el escalado de parámetros para el RL profundo. Los investigadores han explorado la integración de módulos de mezclas suaves de expertos (MoE, por sus siglas en inglés) en redes de aprendizaje profundo por refuerzo basadas en valores, ofreciendo un enfoque novedoso para escalar el tamaño del modelo a la vez que se mejora el rendimiento. Los resultados indican la posibilidad de desarrollar leyes de escalado coherentes en el aprendizaje por refuerzo, un campo que hasta ahora carecía de tales marcos.
BASE TTS: lecciones de la creación de un modelo de conversión de texto en voz de mil millones de parámetros con 100.000 horas de datos. BASE TTS, un vanguardista sistema de conversión de texto en habla con 100.000 horas de entrenamiento, ha establecido un nuevo punto de referencia para la síntesis del habla con sonido natural. Utiliza un modelo Transformer de mil millones de parámetros para generar «códigos de voz» a partir del texto, que luego un descodificador convolucional convierte en formas de onda.
Entrenamiento de modelos lingüísticos para generar texto con citas mediante recompensas de grano fino. Los investigadores han desarrollado un método para entrenar modelos lingüísticos (LM) más pequeños con el fin de generar respuestas con citas apropiadas, utilizando Llama 7B como caso de prueba. Inicialmente, entrenaron a Llama 7B con los resultados de ChatGPT para responder a preguntas con contextos citados. A continuación, mejoraron el modelo mediante muestreo de rechazo y aprendizaje por refuerzo. Sus resultados indican que, con este método de entrenamiento, Llama 7B supera a ChatGPT a la hora de proporcionar respuestas citadas. Además, una combinación de muestreo de rechazo y aprendizaje por refuerzo dio los resultados más eficaces.
Modelos de mundo grande. Los investigadores crearon un conjunto de datos compuesto por vídeos y libros e introdujeron el mecanismo RingAttention para manejar con eficacia contextos de entre 4K y 1M de tokens. El equipo también ha publicado varios modelos con hasta 7B parámetros, capaces de procesar más de 1M de tokens, para promover la accesibilidad y el progreso colaborativo en este campo.
Los transformadores pueden lograr la generalización de longitudes, pero no de forma robusta. Un estudio demuestra que los Transformers estándar pueden generalizar la suma entera a secuencias más largas mediante métodos eficaces de representación de datos y codificación posicional. Sin embargo, esta capacidad de generalización es sensible a factores como la inicialización de pesos y la secuencia de datos de entrenamiento, lo que provoca una variabilidad considerable en el rendimiento del modelo.
reorproject/reor: aplicación de IA para tomar notas que ejecuta modelos. Reor es una aplicación de escritorio de código abierto diseñada para tomar notas mejoradas con IA, que incluye un editor Markdown al estilo Obsidian, conexión de ideas asistida por IA y funciones de búsqueda inteligente. Prioriza la privacidad del usuario mediante el almacenamiento local y utiliza tecnologías como Llama.cpp y Transformers.js para ejecutar grandes modelos de lenguaje e incrustar modelos en la máquina del usuario.

4º semana de febrero

OpenCodeInterpreter: Integración de la generación de código con la ejecución y el refinamiento. El OpenCodeInterpreter es un proyecto de código abierto que mejora la generación de código integrando la ejecución y el refinamiento iterativo del mismo, de forma similar al intérprete de código GPT-4. Utiliza el conjunto de datos Code-Feedback con sesiones interactivas 68K para mejorar su rendimiento. Utiliza el conjunto de datos Code-Feedback con sesiones interactivas de 68K para mejorar su rendimiento. OpenCodeInterpreter-33B demuestra una paridad casi total con GPT-4 en las pruebas comparativas de codificación.
Más allá de A: Mejor planificación con transformadores mediante Search Dynamics Bootstrapping. Searchformer es un modelo de IA basado en la arquitectura Transformer que ha sido entrenado para emular el algoritmo de búsqueda de rutas A, logrando una mayor eficiencia en tareas de planificación complejas. Supera a A* en los puzles Sokoban, resolviéndolos con un 93,7% de precisión y una reducción del 26,8% en los pasos dados.
LongRoPE: ampliación de la ventana de contexto LLM más allá de 2 millones de tokens. LongRoPE es un avance en grandes modelos lingüísticos que amplía la ventana de contexto de 256k a 2048k tokens mediante interpolación posicional, al tiempo que incorpora una fase de ajuste fino a 8k tokens para preservar el rendimiento en contextos cortos, con el objetivo de lograr una mayor eficiencia y reducir los costes de ajuste fino.
FinTral: Una familia de modelos de lenguaje financiero multimodal de nivel GPT-4. Los investigadores han perfeccionado con éxito el modelo Mistral-7b para diversas tareas financieras, con un rendimiento comparable al de GPT4 turbo. Estas tareas incluyen el análisis de sentimientos, el reconocimiento de entidades con nombre, la comprensión de números, el resumen de textos, la predicción de acciones y la calificación crediticia.
vosen/ZLUDA: CUDA en GPUs AMD. ZLUDA es una capa de software en fase alfa que permite ejecutar aplicaciones CUDA no modificadas en GPU de AMD, lo que facilita una mayor compatibilidad dentro de la comunidad de IA. Demuestra un rendimiento prometedor, aunque con una preferencia actual por las GPU integradas y posibles limitaciones derivadas de la integración de ROCm/HIP.

¡Gracias por leernos! Si quieres aprender más sobre NLP, recuerda seguir NLPlanet. Puedes encontrarnos en LinkedIn, Twitter, Medium, y en nuestro Discord server.

The post Noticias mensuales sobre IA y NLP – febrero2024 first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-febrero2024/feed/ 0 Noticias mensuales sobre IA y NLP – enero 2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-enero-de-2024/?utm_source=rss&utm_medium=rss&utm_campaign=noticias-mensuales-sobre-ia-y-nlp-enero-de-2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-enero-de-2024/#respond Thu, 01 Feb 2024 06:00:54 +0000 https://desa.planetachatbot.com/?p=16835 En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet. 😎 Noticias de la Web 1º semana de enero 2º semana de enero 3º semana de enero 4º semana de enero 5º semana de enero 📚 Guías 1º semana de enero 2º semana de enero 3º […]

The post Noticias mensuales sobre IA y NLP – enero 2024 first appeared on Planeta Chatbot.

]]> En este post tienes los artículos, guías y noticias mensuales sobre NLP e IA elegidos para ti por NLPlanet.

Noticias de la Web

1º semana de enero

The New York Times demanda a OpenAI y Microsoft por infracción de derechos de autor. The New York Times ha demandado a OpenAI y Microsoft, alegando que sus modelos de IA, como ChatGPT y Copilot, infringen los derechos de autor al utilizar el contenido de NYT, lo que supone un riesgo para sus ingresos y la sostenibilidad del periodismo. OpenAI busca una solución respetuosa, mientras que Microsoft no ha respondido.
Un nuevo proyecto de ley obligaría a las empresas de IA a revelar los datos de entrenamiento protegidos por derechos de autor. Un proyecto de ley obliga a las empresas de IA a divulgar los datos de entrenamiento protegidos por derechos de autor para fomentar la transparencia, en línea con las normas mundiales de privacidad de datos. El sector se enfrenta al reto de conciliar las prácticas competitivas con estos nuevos requisitos de transparencia.
Anthropic, rival de OpenAI, está en conversaciones para conseguir 750 millones de dólares de financiación con una valoración de 18.400 millones. Anthropic, una empresa de IA formada principalmente por ex investigadores de OpenAI, está en conversaciones para conseguir 750 millones de dólares en financiación, con una valoración de 18.400 millones. La empresa ha desarrollado Claude 2, un chatbot que puede resumir hasta 75.000 palabras, superando las capacidades de resumen de ChatGPT de OpenAI.
GPT y otros modelos de IA no pueden analizar una presentación ante la SEC, según los investigadores. Patronus AI observa un problema de precisión del 79% en los LLM como GPT-4-Turbo a la hora de manejar los archivos de la SEC, lo que provoca errores y falta de capacidad de respuesta. Para mejorar la IA financiera, crearon FinanceBench, un conjunto de pruebas a partir de archivos de la SEC para mejorar el rendimiento de la IA en el sector financiero.
Harvey recauda 80 millones de dólares de la Serie B. Harvey, una plataforma de IA diseñada para profesionales del derecho, ha logrado recaudar 80 millones de dólares de la Serie B de financiación. Esta afluencia eleva la financiación total de Harvey por encima de los 100 millones de dólares y su valoración hasta los 715 millones de dólares.
Lanzamiento de Midjourney v6. La última actualización de Midjourney, la versión 6, introduce funciones como la mejora de la precisión y la longitud de los avisos, el aumento de la coherencia, la mejora de los avisos con imágenes y un modo de remezcla mejorado. Además, se ha añadido una nueva función para el dibujo de texto menor, que puede utilizarse incluyendo texto dentro de citas.
Los «influencers virtuales» creados por IA están robando negocio a los humanos. Los influencers virtuales se están popularizando en el marketing por su previsibilidad y control de marca. A pesar de las preocupaciones éticas y de transparencia, incluidos los problemas de sexualización similares a los de los influenciadores humanos, sus narrativas distintivas impulsan las asociaciones de marca, mientras que la industria navega por la confianza del consumidor y las normas éticas.

2º semana de enero

Los acuerdos de OpenAI con editores de noticias alcanzarían los 5 millones de dólares anuales. OpenAI está forjando acuerdos de licencia con editores de noticias, comprometiéndose a destinar entre 1 y 5 millones de dólares anuales a utilizar sus historias para entrenar modelos de IA. Este movimiento, que forma parte de una tendencia más amplia en la que las empresas de IA invierten en contenidos protegidos por derechos de autor para mejorar sus modelos, distingue a OpenAI de otros proveedores de datos gratuitos de código abierto como LAION.
Microsoft cambia la disposición del teclado por primera vez en casi tres décadas para añadir un botón de IA. Microsoft ha introducido una importante actualización en el teclado tradicional del PC al incorporar un botón dedicado a la IA para activar el chatbot Copilot, mostrando así su compromiso con la incorporación de tecnología de IA generativa en sus productos.
El motor de búsqueda Perplexity AI, valorado en 520 millones de dólares, recauda 73,6 millones. Perplexity AI ha obtenido 73,6 millones de dólares en financiación, lo que eleva su valoración a 520 millones de dólares, a medida que se posiciona en el competitivo mercado de búsqueda de IA con su interfaz similar a un chatbot. A pesar de mostrarse prometedora con unos ingresos anuales recurrentes de entre 5 y 10 millones de dólares, la viabilidad financiera a largo plazo del modelo de negocio de Perplexity AI, especialmente teniendo en cuenta los costes sustanciales de operar y entrenar modelos generativos de IA, sigue siendo objeto de evaluación.
Nikon, Sony y Canon luchan contra las falsificaciones de IA con nuevas tecnologías de cámara. Nikon, Sony Group y Canon están introduciendo nuevas tecnologías de cámara para garantizar la integridad de las imágenes en respuesta a la proliferación de contenidos generados por IA. Las cámaras sin espejo de Nikon incorporarán funciones de autenticación para fotoperiodistas, incrustando firmas digitales que incluyen fecha, hora y ubicación.
Cristiano Amon: la IA generativa está «evolucionando muy, muy rápido» hacia los dispositivos móviles. Cristiano Amon, consejero delegado de Qualcomm, prevé que la IA generativa se integre rápidamente en móviles, PC y automóviles, con el objetivo de ofrecer experiencias de usuario enriquecidas complementando la IA en la nube. Gracias a los eficientes procesadores de IA de Qualcomm, estos avances facilitarán las aplicaciones de IA en tiempo real en dispositivos con batería, satisfaciendo de forma proactiva las necesidades de los usuarios.

3º semana de enero

OpenAI presenta la tienda GPT. OpenAI ha lanzado una tienda GPT, en la que se muestran aplicaciones como AllTrails para recomendaciones de senderos, Consensus para investigación académica, Khan Academy para educación en codificación, Canva para creación de diseños, una herramienta para recomendaciones de libros y CK-12 para tutoría de matemáticas y ciencias.
La IA crea un nuevo material que podría cambiar radicalmente el funcionamiento de las baterías. Microsoft AI, utilizando Azure Quantum Elements, identificó con éxito un nuevo material después de examinar 32 millones de tipos, lo que dio lugar a un prototipo de batería de litio con una reducción del 70% en el uso de litio.
LangChain v0.1.0. LangChain ha lanzado su primera versión estable y compatible con versiones anteriores, v0.1.0. Esta versión mejora la capacidad de observación y depuración, con herramientas de seguimiento y análisis del rendimiento, e introduce un nuevo sistema de versiones para una API clara y actualizaciones de funciones.
OpenAI y el periodismo. OpenAI se está defendiendo de una demanda de The New York Times, que puso fin a una posible asociación y presentó una demanda el 27 de diciembre ante la preocupación de que ChatGPT de OpenAI regurgitara contenidos. OpenAI sostiene que los casos en los que la IA imita artículos antiguos no son representativos del uso típico y pueden ser el resultado de una incitación dirigida a replicar dicho contenido, lo que implica un posible uso indebido intencionado.
Duolingo despide a contratistas al empezar a depender más de la IA. Duolingo está aprovechando la IA para mejorar la producción de contenidos y la experiencia del usuario, lo que ha llevado a una reducción del 10% de su plantilla de contratistas como parte de su cambio hacia la eficiencia automatizada. Luis von Ahn, CEO de Duolingo, destacó la importancia de la IA para agilizar la generación de guiones y enriquecer la aplicación con voces generadas por la IA.
YouTube reprime los contenidos de IA que «simulan de forma realista» a niños fallecidos o víctimas de delitos. YouTube ha prohibido los contenidos generados por inteligencia artificial en los que aparezcan voces de menores fallecidos o víctimas de delitos, con el fin de proteger su dignidad. Los canales que publiquen este tipo de contenido se enfrentarán a una prohibición temporal de publicación en la primera infracción, que se ampliará a la eliminación del canal después de tres infracciones, con efecto a partir del 16 de enero. Ahora los creadores deben revelar abiertamente el uso de IA en sus contenidos.

4º semana de enero

AlphaGeometry: Un sistema de IA para geometría de nivel olímpico. AlphaGeometry, una IA desarrollada por DeepMind, ha demostrado una competencia humana de nivel olímpico en geometría al resolver 25 de 30 problemas dentro de los plazos de la competición. Utilizando un enfoque híbrido que incorpora el reconocimiento de patrones y la lógica formal, emula los métodos humanos de resolución de problemas, combinando eficazmente el pensamiento intuitivo con el analítico.
Mark Zuckerberg indica que Meta está gastando miles de millones de dólares en chips de IA de Nvidia. Meta planea una importante inversión en investigación de IA mediante la integración de 350.000 GPU Nvidia H100 para 2024. Dado su elevado coste, estimado entre 25.000 y 30.000 dólares, esta inversión subraya el compromiso de Meta con el aumento de la potencia de cálculo. En general, la estrategia de Meta de acumular el equivalente computacional de 600.000 GPU H100 pone de manifiesto un impulso sustancial para mejorar sus capacidades de IA.
Vision Mamba: Aprendizaje eficiente de representaciones visuales con un modelo de espacio de estados bidireccional. Vision Mamba (Vim) es una nueva columna vertebral de visión que sustituye los mecanismos estándar de autoatención por bloques Mamba bidireccionales para mejorar el procesamiento de imágenes incorporando información posicional. Vim ha demostrado un rendimiento superior en pruebas de referencia estándar como ImageNet, COCO y ADE20k, superando a modelos existentes como Vision Transformers (DeiT).
Stable Code 3B: codificación al límite. Stable AI ha presentado Stable Code 3B, un modelo de lenguaje avanzado para codificación que supera al mayor CodeLLaMA 7b. Ofrece una experiencia fluida en portátiles estándar sin necesidad de GPU. Entre las mejoras más destacadas se encuentran la función «Fill in the Middle», un mejor manejo del contexto con soporte para secuencias de hasta 16.384 tokens, y contextos personalizables que se extienden hasta 100.000 tokens, gracias al entrenamiento en una amplia variedad de conjuntos de datos de lenguaje y software.
Google dice utilizar un fondo especial de compensación en acciones para retener a los mejores investigadores de IA. Google ha puesto en marcha una estrategia que utiliza importantes compensaciones en acciones para retener a los mejores talentos en IA, lo que pone de relieve lo mucho que está en juego mantener una mano de obra cualificada para mantenerse a la cabeza en el dinámico sector de la IA.
El uso perezoso de la IA da lugar a productos de Amazon denominados «No puedo satisfacer esa petición». Las plataformas de comercio electrónico, incluida Amazon, están experimentando problemas con el contenido generado por IA, lo que lleva a listados de productos con títulos erróneos como «No puedo cumplir esa solicitud.» Los errores de la IA en la generación de descripciones de productos son indicativos de retos más amplios en la gestión de listados en línea.
Un nuevo estudio confirma lo obvio: los resultados de las búsquedas no hacen más que empeorar. Un estudio que analiza los resultados de búsqueda de Google, Bing y DuckDuckGo indica que la calidad de las búsquedas en Internet está disminuyendo y que se prefiere el contenido centrado en los afiliados y en el SEO a la información exhaustiva. Esta tendencia plantea retos a los motores de búsqueda que intentan distinguir los contenidos valiosos de la manipulación SEO. Se espera que la aparición de la IA generativa agrave estos problemas.
Microsoft lanza Copilot Pro por 20 dólares al mes por usuario. Microsoft ha presentado Copilot Pro, una herramienta premium de mejora de la productividad para aplicaciones de Microsoft 365, con un precio de 20 dólares al mes por usuario. Concede acceso prioritario a IA avanzada, incluido GPT-4 Turbo para respuestas aceleradas.

5º semana de enero

OpenAI lanza nuevos modelos de incrustación y actualizaciones de la API. OpenAI ha anunciado actualizaciones de su conjunto de modelos de IA, incluido el lanzamiento de modelos de incrustación más eficientes y versiones de coste reducido de GPT-3.5 Turbo y un nuevo modelo GPT-4 Turbo. El modelo «text-embedding-3-large» se sitúa a la cabeza con una puntuación MTEB del 64,6% a 0,00013 dólares por 1.000 tokens, mientras que el modelo «text-embedding-3-small» ofrece un rendimiento superior al de su predecesor a un coste cinco veces menor. Además, el «gpt-3.5-turbo-0125» es ahora un 50% más barato, con un precio de 0,0005 dólares por 1.000 tokens, y se ha introducido un nuevo modelo «gpt-4-0125-preview».
La startup de clonación de voz ElevenLabs consigue 80 millones de dólares y alcanza el estatus de unicornio. ElevenLabs ha alcanzado el estatus de unicornio tras conseguir una ronda de serie B de 80 millones de dólares liderada por Andreessen Horowitz, lo que eleva sus fondos totales a 101 millones de dólares. Fundada por Piotr Dabkowski y Mati Staniszewski, la empresa se especializa en la síntesis de voz realista a través de una aplicación web, con aplicaciones en audiolibros, juegos y doblaje de pantalla dentro del mercado en expansión de los medios de audio.
Sam Altman, de OpenAI, recauda dinero para crear fábricas de chips de IA. El consejero delegado de OpenAI, Sam Altman, está buscando activamente inversiones, potencialmente superiores a los 8.000 millones de dólares, de entidades como G42 y SoftBank para establecer fábricas de chips de IA destinadas a satisfacer la creciente demanda de procesadores especializados en la creciente industria de la IA.
Hugging Face y Google se asocian para una colaboración abierta en IA. Hugging Face se ha asociado con Google Cloud, proporcionando a los usuarios acceso a modelos de IA mejorados e integración con servicios de Google Cloud como GKE y Vertex AI, utilizando las TPU de Google y las GPU NVIDIA H100.
Una autora admite que utilizó ChatGPT para escribir una novela premiada. La autora japonesa Rie Kudan reveló que utilizó ChatGPT para generar el 5% de su novela ganadora del Premio Akutagawa, «La torre de simpatía de Tokio», lo que provocó debates en la comunidad literaria sobre el uso ético de la IA en los procesos creativos.

Guías

1º semana de enero

LangChain Estado de la IA 2023. El análisis de LangChain revela una creciente integración de la recuperación en los LLM, con OpenAI y Hugging Face a la cabeza. Destaca la importancia de las bases de datos especializadas y la generación de incrustaciones, subrayando la evolución de las preferencias del sector y los avances tecnológicos.
2023, año de los LLM abiertos. En 2023 aumentó el interés por los LLM abiertos, con un cambio hacia modelos eficientes y más pequeños como LLaMA por su impacto en el rendimiento. El año marcó la prevalencia de las arquitecturas de solo decodificador y la IA conversacional, con métodos de ajuste fino como Instruction Fine-Tuning y RLHF que estandarizan la personalización de modelos.
Primer año de IA generativa: seis tendencias clave. Un año después de ChatGPT, la IA generativa ha impulsado el desarrollo de una pila de IA de extremo a extremo, ha avanzado en RAG para obtener respuestas de IA precisas y ha visto cómo los agentes de IA manejan tareas complejas. Una combinación de LLM de código abierto y patentados está optimizando el rendimiento y el riesgo, dando lugar a soluciones de software eficientes que revolucionan campos como el marketing y la cadena de suministro.
mlabonne/llm-curso: Curso para adentrarse en los Grandes Modelos Lingüísticos (LLM) con hojas de ruta y cuadernos Colab.. El curso proporciona un estudio en línea en profundidad de los LLM, abarcando desde temas básicos a avanzados como las arquitecturas y el despliegue de Transformer, junto con aplicaciones de aprendizaje de refuerzo, preparando a los alumnos para los retos y las innovaciones de la IA.
Un mundo embrujado por la IA. Los recientes avances en IA han permitido el uso de modelos sofisticados como ChatGPT en dispositivos personales. Empresas como Mistral están creando IA de código abierto que puede adaptarse a las necesidades específicas de los usuarios, lo que democratiza la tecnología de IA más allá de las grandes empresas tecnológicas.

2º semana de enero

La alineación de la IA es difícil. La alineación de la IA se centra en garantizar que los sistemas de IA se ajusten a los valores humanos y las normas sociales, lo que presenta importantes complejidades de aplicación. Puede que una alineación perfecta no sea esencial para un rendimiento eficaz de la IA, pero lograr un equilibrio adecuado sigue siendo una tarea difícil.
Aprender JAX como desarrollador de PyTorch. Esta guía proporciona información a los desarrolladores de PyTorch que se están pasando a JAX. Destaca las ventajas de la compilación JIT de JAX para mejorar el rendimiento mediante la compilación de cálculos completos de una sola vez. Destaca la necesidad de comprender el mecanismo de rastreo de JAX para la compilación y el uso de funciones específicas de JAX para la lógica condicional.
Lo que aprendimos sobre la IA y la educación en 2023. El impacto evolutivo de la IA en la educación en 2023 ha presentado tanto oportunidades como retos, lo que ha provocado una reevaluación de las estrategias pedagógicas para garantizar una integración ética a la vez que se fomenta el aprendizaje activo a través de interfaces diversas y dinámicas.
Auffusion: Aprovechamiento de la potencia de la difusión y los grandes modelos lingüísticos para la generación de texto-audio. Auffusion combina modelos de difusión y tecnologías LLM para facilitar la síntesis avanzada de texto a audio, capaz de generar diversos contenidos sonoros, incluidos sonidos ambientales y habla humana.

3º semana de enero

Una guía sencilla para el ajuste fino de LLM locales en un Mac con MLX. Esta guía proporciona un proceso detallado para el ajuste fino de grandes modelos lingüísticos (LLM) en Macs Apple Silicon utilizando el marco MLX. Abarca la configuración del entorno, la preparación de los datos, el ajuste fino del modelo y los métodos para probar el LLM personalizado en el hardware del Mac.
Una encuesta realizada a 2.778 investigadores muestra lo fragmentada que está la comunidad científica de la IA. La Encuesta de Expertos de 2023 sobre el Progreso de la IA indica avances significativos, con la previsión de que la IA desarrolle de forma autónoma sitios web y componga música al estilo de artistas conocidos para 2028. Los expertos estiman en un 10% la posibilidad de que la IA supere la capacidad humana en todas las tareas para 2027, aumentando al 50% para 2047, y prevén el potencial de automatización total de todos los trabajos en un 10% para 2037, alcanzando el 50% de probabilidad para 2116.
Instala Stable Diffusion XL localmente en MacOS. Stable Diffusion XL, una herramienta de generación de imágenes de código abierto basada en inteligencia artificial similar a DALL-E o Midjourney, puede ejecutarse en MacOS instalando herramientas de desarrollo básicas como PyTorch, Anaconda y Xcode, y siguiendo a continuación la guía de configuración correspondiente, que incluye tareas de interfaz de línea de comandos.
OpenChat 7B Un modelo de código abierto que supera a ChatGPT-3.5. OpenChat 7B es un nuevo modelo lingüístico de código abierto que supera a ChatGPT-3.5 mediante el uso de una metodología de entrenamiento híbrida que incorpora tanto el ajuste fino supervisado (SFT) como el ajuste fino de aprendizaje por refuerzo (RLFT). Emplea una combinación de «datos de expertos» y datos generales, comenzando con RLFT condicional para el etiquetado inicial antes de proceder a SFT en un enfoque de un solo paso para el refinamiento.
Ética de la IA, el problema del carrito reimaginado. La creciente integración de la IA en la vida cotidiana subraya la importancia de enseñar a las máquinas a tomar decisiones éticas, como demuestra la reevaluación del problema del carrito en el contexto de la IA. Este escenario plantea importantes retos de programación, ya que enfrenta a la IA a dilemas éticos -en concreto, la decisión de minimizar las bajas- sin que existan directrices universales establecidas para tomar decisiones de vida o muerte.

4º semana de enero

RAG vs Finetuning – ¿Cuál es la mejor herramienta para potenciar su aplicación LLM?. RAG (Retrieval-Augmented Generation) y finetuning son métodos para optimizar los LLM en función de los requisitos específicos de cada tarea. RAG es ideal para aplicaciones que necesitan respuestas basadas en evidencias de datos en tiempo real o bases de datos externas, mientras que el ajuste fino es mejor para personalizar los resultados de un LLM para alinearlos con necesidades contextuales, estilísticas o específicas del dominio.
Ajuste de preferencias de los LLM con métodos de optimización directa de preferencias. Los investigadores han desarrollado tres nuevos métodos (DPO, IPO y KTO) para ajustar los modelos lingüísticos extensos (LLM) a las preferencias humanas sin emplear el aprendizaje por refuerzo. Estas técnicas, aplicadas a LLM de 7b, abarcan la optimización directa de preferencias (DPO), que puede sobreajustarse; la IPO, que integra un término de regularidad para mitigar el sobreajuste; y la KTO, que aprovecha la retroalimentación no emparejada en tiempo real para la actualización inmediata del modelo.
Sólo necesitamos evaluaciones. El artículo explora los retos de evaluar tanto las capacidades humanas como las de la IA, sobre todo en el contexto de la contratación y el uso de los LLM. Aborda la limitada eficacia de los actuales métodos de evaluación para humanos, marcada por una notable tasa de inadaptación en las contrataciones, y la aún mayor complejidad de medir la creatividad en funciones innovadoras. En cuanto a la IA, destaca la naturaleza incipiente y desafiante de la evaluación de la inteligencia, señalando problemas como la contaminación de datos y los puntos de referencia inadecuados.
El camino hacia una IA honesta. La fiabilidad de la IA es motivo de preocupación, sobre todo en lo que respecta a la precisión y la posible falta de honradez en las respuestas. Un estudio reciente introduce «vectores de honestidad» para evaluar y mejorar la transparencia de la IA, abordando el reto de garantizar la seguridad y fiabilidad de la IA a largo plazo.

5º semana de enero

Código LoRA desde cero con PyTorch. Low-Rank Adaptation (LoRA) es un enfoque eficiente de ajuste fino para LLMs que optimiza un subconjunto de matrices de bajo rango en lugar del conjunto completo de parámetros de la red neuronal. Este post es una guía sobre cómo implementarlo desde cero con PyTorch.
makeMoE: Implementar un modelo lingüístico de mezcla dispersa de expertos desde cero. El blog «makeMoE» y el repositorio GitHub que lo acompaña ofrecen un tutorial detallado sobre la creación de modelos lingüísticos a nivel de personaje utilizando una arquitectura de Mezcla Esparcida de Expertos (MoE), inspirada en «makemore» de Karpathy. Este enfoque se centra en el aprovechamiento de las redes dispersas feed-forward dentro de los modelos de transformador, con el objetivo de mejorar la velocidad de formación y el tiempo de inferencia, al tiempo que aborda los retos en la estabilidad de la formación y la eficiencia de despliegue.
Análisis independiente de modelos de IA y proveedores de alojamiento. Un análisis independiente ha clasificado varios LLM en términos de calidad de salida y velocidad de generación de texto. GPT4 y su variante turbo lideran en calidad, mientras que Gemini Pro encabeza el ranking de velocidad con 93 tokens por segundo.
Guía para la ingeniería de prontos con Llama 2. El repositorio «llama-recipes» de Facebook Research ofrece una guía completa para la ingeniería de prompt con Llama 2.
cxli233/FriendsDontLetFriends. Esta guía aborda la mejora de las técnicas de visualización de datos, centrándose en evitar errores comunes en la creación de diagramas y gráficos, y proporciona consejos prácticos para evitar confusiones y mejorar la claridad de las presentaciones de datos.

Papers y repositorios de interés

1º semana de enero

Modelos lingüísticos con datos limitados. El estudio concluye que, dentro de los límites computacionales, los LLM (hasta 9.000 millones de parámetros) se benefician de forma insignificante de los nuevos datos más allá de cuatro épocas y obtienen una ganancia limitada del aumento de recursos. El filtrado de datos resulta más ventajoso para los conjuntos de datos ruidosos.
Los modelos multimodales generativos aprenden en contexto. Emu2, una IA con 37.000 millones de parámetros, avanza en el aprendizaje en contexto para tareas como la orientación visual, estableciendo nuevas referencias multimodales y destacando en la respuesta a preguntas y la creación de contenidos temáticos mediante el ajuste de instrucciones.
WaveCoder: Ajuste mejorado de instrucciones generalizado y versátil con generación de datos refinada. WaveCoder es un modelo de lenguaje de programación ajustado que mejora las capacidades de ajuste y generalización de instrucciones de los LLM utilizando un marco generador-discriminador para generar datos de instrucciones no duplicados y de alta calidad a partir de código abierto. Supera a otros modelos de código abierto, con un conjunto de datos (CodeOcean) que contiene 20.000 instancias en cuatro tareas relacionadas con el código, lo que subraya la importancia de los datos refinados para la mejora del modelo.
Más allá de Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws. El estudio refina las leyes de escalado de Chinchilla incorporando los costes de inferencia, lo que aconseja el desarrollo de LLM más pequeños con un amplio entrenamiento en grandes conjuntos de datos. Este enfoque pretende optimizar la calidad y la rentabilidad, sobre todo en aplicaciones con gran demanda de inferencia.
Las instrucciones de principios son todo lo que necesita para cuestionar LLaMA-1/2, GPT-3.5/4. Esta guía presenta 26 principios fundamentales para optimizar las instrucciones para grandes modelos lingüísticos, centrándose en mejorar la comprensión del usuario y la especificidad de las instrucciones para LLaMA y las variantes de GPT. Los principios están respaldados por pruebas rigurosas en modelos como LLaMA-1/2 y GPT-3.5/4.

2º semana de enero

Self-Play Fine-Tuning convierte modelos lingüísticos débiles en modelos lingüísticos fuertes. SPIN (Self-Play fIne-tuNing) es un nuevo método para mejorar el rendimiento de los LLM sin depender de datos anotados por humanos. Al utilizar la auto-reproducción para iterar y aprender, SPIN permite a los LLM perfeccionar sus capacidades utilizando contenidos anotados por humanos. En las pruebas realizadas, los LLM ajustados con SPIN mostraron un rendimiento superior al de los ajustados con Optimización de Preferencia Directa y datos GPT-4 adicionales.
DocLLM: modelo de lenguaje generativo para la comprensión multimodal de documentos. DocLLM es un LLM adaptado a la gestión de documentos que integra texto OCR con datos de cuadros delimitadores, sin necesidad de codificadores de imágenes. Al incorporar texto con diseños espaciales mediante matrices desenmarañadas, DocLLM ofrece un novedoso régimen de preentrenamiento que mejora su adaptabilidad a diversos formatos y contenidos de documentos.
Mejora de la incrustación de textos con grandes modelos lingüísticos. Los investigadores están mejorando la calidad de la incrustación de textos utilizando LLM para generar datos sintéticos de una amplia gama de tareas de incrustación de textos en casi 100 idiomas. Estos datos sintéticos se aprovechan después para perfeccionar los LLM de código abierto basados únicamente en decodificadores, como Mistral-7B, con pérdida contrastiva estándar.
Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models. En un estudio en el que se evaluaron métodos de ajuste fino eficiente de parámetros (PEFT) para grandes modelos lingüísticos (LLM) de hasta 16.000 millones de parámetros, el ajuste fino de parámetros completos (FFT) ofreció sistemáticamente un rendimiento superior en diversas tareas y conjuntos de datos. Sin embargo, los adaptadores de bajo rango (LoRA) se han revelado como una alternativa rentable, especialmente a la hora de escalar modelos.
dvmazur/mixtral-offloading: Ejecute modelos Mixtral-8x7B en Colab o en ordenadores de sobremesa de consumo. El proyecto dvmazur/mixtral-offloading optimiza los modelos Mixtral-8x7B para su uso en hardware de consumo, incluido Colab, mejorando la eficiencia de la memoria. Entre las principales innovaciones se incluyen la cuantificación mixta, que utiliza una cuantificación de alta calidad tanto para los mecanismos de atención como para los módulos expertos con el fin de ahorrar memoria, y una estrategia de mezcla de expertos (MoE) que descarga y recupera de forma inteligente los módulos expertos según sea necesario, utilizando una caché LRU para minimizar la sobrecarga de comunicación GPU-RAM durante el procesamiento de tokens.
myshell-ai/OpenVoice: Clonación instantánea de voz por MyShell. OpenVoice proporciona replicación avanzada de voz en distintos idiomas y acentos con funciones de ajuste fino de la emoción y la entonación, y sólo requiere un mínimo de datos. La tecnología se publica bajo una licencia Creative Commons no comercial y utiliza marcas de agua para controlar el uso del contenido de audio generado.

3º semana de enero

Mixtral de Expertos. El modelo Mixtral 8x7B, desarrollado por Mistral, incorpora una arquitectura Sparse Mixture-of-Experts (SMoE), con ocho bloques feedforward especializados en cada capa que procesan tokens de forma adaptativa dirigiéndose a dos expertos por token. A pesar de que cada testigo sólo interactúa con dos expertos por paso temporal, accede a un total de 47.000 millones de parámetros y utiliza activamente 13.000 millones durante la inferencia.
MoE-Mamba: Modelos selectivos eficientes de espacio de estados con mezcla de expertos. MoE-Mamba es un modelo selectivo de espacio de estados que incorpora una Mezcla de Expertos (MoE) para mejorar la eficiencia. Alcanza el mismo rendimiento que el modelo Mamba con 2,2 veces menos pasos computacionales, al tiempo que mantiene tiempos de inferencia rápidos. Además, MoE-Mamba supera tanto al Mamba original como a los modelos Transformer integrados con MoE.
Cómo adivinar un gradiente. Investigaciones recientes indican que los gradientes de las redes neuronales muestran patrones predecibles basados en la arquitectura y las características de la red. Estos patrones pueden estimarse mediante subespacios de gradiente limitados por la arquitectura, lo que podría aumentar la eficacia de la optimización sin gradiente en redes complejas.
TechGPT-2.0: Un gran proyecto de modelo lingüístico para resolver la tarea de construcción de grafos de conocimiento. Los investigadores han presentado TechGPT-2.0, que incluye un modelo lingüístico de 7.000 millones de parámetros y una ponderación QLoRA especializada, optimizada para construir grafos de conocimiento a partir de textos extensos, y que muestra un gran rendimiento en diversos ámbitos, como la medicina, el derecho, la geografía o el transporte, entre otros.
MagicVideo-V2: Generación de vídeo multietapa de alta estética. MagicVideo-V2 de ByteDance funciona muy bien en la síntesis de texto a vídeo, aprovechando los modelos de texto a imagen, la generación de movimiento, la composición de imágenes de referencia y la interpolación de fotogramas para crear contenidos de vídeo de alta resolución, visualmente atractivos y fluidos.

4º semana de enero

RAG mejora e iguala los LLM. Un estudio ha evaluado el rendimiento de los modelos lingüísticos de código abierto frente a sus equivalentes de código cerrado en tareas de Retrieval-Augmented Generation (RAG). Las principales conclusiones indican que GPT4-Turbo supera a los demás, mientras que Mixtral-8x7B iguala el rendimiento de GPT3.5-turbo, y la eficacia de los enfoques RAG sigue siendo sólida incluso con vastos conjuntos de datos que superan los mil millones de trozos.
Modelos lingüísticos autorrecompensados. Los investigadores han explorado el concepto de modelos lingüísticos autorrecompensados, en los que los modelos lingüísticos generan sus propias recompensas durante el entrenamiento. Este concepto postula que para superar el nivel de rendimiento humano se necesitan señales de entrenamiento derivadas de una retroalimentación sobrehumana. Este planteamiento ha dado lugar a mejoras significativas en las capacidades de seguimiento de instrucciones y autorrecompensa. Al repetir esta técnica en el entrenamiento de Llama 2 70B, el modelo superó el rendimiento de varios sistemas punteros, como Claude 2, Gemini Pro y GPT-4 0613, en la clasificación AlpacaEval 2.0.
Cuantificación de la sensibilidad de los modelos lingüísticos a las características espurias en el diseño de avisos o: Cómo aprendí a preocuparme por el formato de las instrucciones. Los modelos lingüísticos, incluidos los de gran tamaño como el LLaMA-2-13B, son muy sensibles al formato de las instrucciones, mostrando variaciones significativas de rendimiento con cambios que no afectan al significado. Esta sensibilidad persiste aunque aumente el tamaño del modelo o la cantidad de ejemplos. Los expertos recomiendan evaluar los modelos con distintos formatos de aviso para calibrar con precisión sus capacidades, ya que la falta de correlación de rendimiento entre los modelos con un formato de aviso uniforme cuestiona la validez de las comparaciones directas entre modelos.
Los transformadores son RNN multiestado. Los transformadores, originalmente distintos de las RNN, se están convirtiendo en un puente conceptual hacia las RNN multiestado, con nuevas investigaciones que indican que los transformadores sólo con decodificador pueden funcionar de forma similar a las RNN con infinitos estados ocultos, o alternativamente como RNN finitas con un número específico de estados ocultos.
GPT-4V(ision) es un evaluador alineado con el criterio humano para la generación de texto a 3D. GPT-4V ofrece una metodología de evaluación innovadora para modelos generativos de texto a 3D mediante la automatización de parámetros de referencia que se alinean con el juicio humano, abordando así la falta de métricas de evaluación sólidas en el campo. Este sistema simula las evaluaciones detalladas de los usuarios mediante instrucciones personalizadas, lo que permite comparar de forma rentable y escalable los activos 3D con estándares diversos y específicos de cada usuario.
Preentrenamiento escalable de grandes modelos autorregresivos de imagen. Apple ha publicado una investigación en la que se detalla el desarrollo de modelos autorregresivos de visión conocidos como AIM, que presentan características de escalado similares a los LLM. Estos modelos han demostrado que su rendimiento mejora al aumentar el tamaño del modelo y el volumen de datos.
Agentes durmientes: Formación de LLM engañosos que persisten a través del entrenamiento de seguridad. Un estudio reveló que los LLM capaces de comportarse de forma engañosa, lo que se demuestra escribiendo condicionalmente código seguro o explotable en función de las instrucciones anuales, no pueden corregirse fácilmente mediante los métodos convencionales de entrenamiento de seguridad, incluidos el ajuste fino supervisado, el aprendizaje por refuerzo y el entrenamiento adversario.

5º semana de enero

Detección de LLM con prismáticos: Detección de Texto Generado por Máquinas con Cero Tiros. El método Binoculars ofrece un enfoque novedoso para identificar texto generado por ChatGPT con una precisión superior al 90% y una tasa mínima de falsos positivos del 0,01%. Utilizando una puntuación contrastada a partir de modelos lingüísticos duales, supera a los algoritmos existentes y no requiere bases de datos de ejemplos ni ajustes, demostrando su eficacia en toda una gama de tipos de documentos. Esta técnica es especialmente valiosa en plataformas que necesitan diferenciar entre contenidos generados por humanos y por máquinas.
CheXagent: Hacia un modelo de base para la interpretación de radiografías de tórax. Se ha introducido un nuevo conjunto de datos de código abierto y un modelo de referencia para abordar los retos que plantea el empleo de la IA en la interpretación de radiografías de tórax (RXT), muy frecuentes en entornos clínicos. El artículo presenta tres innovaciones: CheXinstruct, un importante conjunto de datos de ajuste de instrucciones derivado de 28 conjuntos de datos públicos; CheXagent, un LM ajustado a las instrucciones diseñado para leer y resumir CXRs; y CheXbench, un punto de referencia integral para probar LMs en ocho tareas de interpretación de CXR clínicamente importantes.
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. Depth Anything es un innovador modelo monocular de estimación de la profundidad que se ha entrenado con un conjunto de datos compuesto por 1,5 millones de imágenes etiquetadas y más de 62 millones de imágenes sin etiquetar. Este enfoque ha mejorado significativamente la capacidad de generalización del modelo sin depender de nuevos componentes técnicos. Además, los investigadores han mejorado la precisión de la síntesis reentrenando una ControlNet condicionada por la profundidad utilizando el modelo Depth Anything, superando al sistema anterior basado en MiDaS.
¿Cómo dice, señor? Su modelo lingüístico está filtrando (información). Los investigadores en el campo de la IA han creado una nueva técnica criptográfica que permite a los modelos lingüísticos incrustar cargas útiles seguras e indiscernibles en sus salidas de texto. Este método requiere una clave secreta para recuperar la información oculta, preservando la confidencialidad y sin afectar a la calidad del texto generado. Esta innovación supone un avance en el desarrollo de sistemas sigilosos de marcas de agua para modelos lingüísticos.
Optimización contrastiva de preferencias: Superando los límites del rendimiento de los LLM en traducción automática. Se ha perfeccionado un modelo lingüístico de 13B parámetros, ALMA, utilizando la optimización contrastiva de preferencias (CPO) en lugar de la tradicional optimización supervisada (SFT), para abordar las limitaciones de las tareas de traducción automática. El modelo mejorado, denominado ALMA-R, utilizó sólo 22.000 frases paralelas en CPO y logró una calidad de traducción equiparable a la de GPT-4 y a la de los ganadores de las pruebas de referencia WMT’21, WMT’22 y WMT’23, lo que demuestra la eficacia de CPO para mejorar la precisión de la traducción en modelos lingüísticos de gran tamaño.

¡Gracias por leer! Si quieres aprender más sobre NLP, recuerda seguir NLPlanet. Puedes encontrarnos en LinkedIn, Twitter, Medium, y en nuestro Discord server.

The post Noticias mensuales sobre IA y NLP – enero 2024 first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-nlp-enero-de-2024/feed/ 0 Navegando las Fronteras de la Inteligencia Artificial y el NLP en Noviembre https://desa.planetachatbot.com/navegando-las-fronteras-de-la-inteligencia-artificial-y-el-nlp-en-noviembre/?utm_source=rss&utm_medium=rss&utm_campaign=navegando-las-fronteras-de-la-inteligencia-artificial-y-el-nlp-en-noviembre https://desa.planetachatbot.com/navegando-las-fronteras-de-la-inteligencia-artificial-y-el-nlp-en-noviembre/#respond Thu, 30 Nov 2023 06:00:25 +0000 https://desa.planetachatbot.com/?p=16327 En este mes de noviembre, nos sumergimos en el fascinante universo de la Inteligencia Artificial (IA) y el Procesamiento del Lenguaje Natural (NLP), dos campos que convergen para transformar la forma en que interactuamos con la tecnología y comprendemos el mundo que nos rodea. A lo largo de este mes, exploraremos las últimas innovaciones, desafíos […]

The post Navegando las Fronteras de la Inteligencia Artificial y el NLP en Noviembre first appeared on Planeta Chatbot.

]]> En este mes de noviembre, nos sumergimos en el fascinante universo de la Inteligencia Artificial (IA) y el Procesamiento del Lenguaje Natural (NLP), dos campos que convergen para transformar la forma en que interactuamos con la tecnología y comprendemos el mundo que nos rodea. A lo largo de este mes, exploraremos las últimas innovaciones, desafíos y oportunidades que han surgido en estos ámbitos dinámicos, destacando cómo la IA y el NLP están dando forma a nuestro presente y esculpiendo el rumbo de nuestro futuro.

Desde avances pioneros hasta aplicaciones prácticas, cada artículo se sumerge en distintos aspectos de la IA y el NLP, revelando la riqueza y diversidad de estos campos. Analizaremos cómo la inteligencia artificial está revolucionando industrias enteras, desde la atención médica hasta la educación, y cómo el procesamiento del lenguaje natural está llevando la comunicación entre humanos y máquinas a niveles sin precedentes de comprensión y empatía.

Acompáñanos en este viaje a través de las novedades más emocionantes de la IA y el NLP en noviembre, donde la tecnología no solo es un medio, sino también un compañero en la búsqueda de respuestas a preguntas complejas y la solución de desafíos contemporáneos. ¡Bienvenidos a un mes de descubrimientos, innovaciones y reflexiones en el fascinante cruce de la inteligencia artificial y el procesamiento del lenguaje natural!

Destaquemos los artículos más destacados del mes:

Los miembros de ChatGPT Plus pueden subir y analizar archivos en la última beta. La última versión beta de ChatGPT Plus de OpenAI permite a los usuarios del campo de la IA subir archivos para analizarlos en profundidad, mejorando la plataforma con capacidades de análisis de archivos.
RedPajama-Data-v2: un conjunto de datos abierto con 30 billones de tokens para entrenar grandes modelos lingüísticos. RedPajama-Data-V2 es un conjunto de datos depurado que consta de 30 billones de tokens procedentes de 84 volcados de CommonCrawl en cinco idiomas principales. Incluye anotaciones de calidad precalculadas con fines de filtrado y ponderación, y ya está disponible para investigación y uso comercial. Se trata del mayor conjunto público de datos de entrenamiento para la investigación de modelos lingüísticos.
El primer producto de inteligencia artificial de Elon Musk es un chatbot llamado Grok. xAI, la startup de IA de Elon Musk, ha lanzado su primer chatbot, Grok, que estará disponible para los suscriptores de X Premium+. El equipo de Grok incluye especialistas en IA de DeepMind, OpenAI, Google, Microsoft y Tesla. Musk destaca que la capacidad de Grok para acceder a información en tiempo real en la plataforma X le da una ventaja sobre otros chatbots.
El nuevo servicio de AWS permite a los clientes alquilar GPU Nvidia para proyectos rápidos de IA. AWS lanza Amazon Elastic Compute Cloud (EC2) Capacity Blocks for ML, que permite a los clientes alquilar GPU Nvidia durante periodos de tiempo específicos.
Un vistazo a la próxima generación de AlphaFold. AlphaFold, un modelo avanzado de IA, predice con precisión moléculas en el Banco de Datos de Proteínas, mejorando la comprensión de las biomoléculas y apoyando la investigación en estructuras proteicas complejas. Tiene aplicaciones potenciales en el descubrimiento de fármacos contra el cáncer, el desarrollo de vacunas y la reducción de la contaminación.
Google invierte 2.000 millones de dólares en Anthropic. Al parecer, Google ha invertido 2.000 millones de dólares en la empresa de IA Anthropic, sumándose así a Microsoft y Amazon, que también han realizado importantes inversiones en empresas de IA. Esto demuestra el desarrollo de una competencia entre grandes empresas para asegurarse una posición en la industria de la IA.
Anuncios de OpenAI DevDay. OpenAI ha introducido varios modelos y API nuevos y mejorados, incluido GPT-4 Turbo con una ventana de contexto más grande y precios más bajos, la capacidad de procesar imágenes en la API Chat Completions, opciones de ajuste para GPT-4 y GPT-3.5 Turbo, y la disponibilidad de DALL·E 3 vía API. También han introducido funciones como el modo JSON, seguimiento de instrucciones mejorado y llamada de funciones paralelas. Además, hay nuevas opciones para la conversión de texto a voz y la creación de “asistentes GPT”. OpenAI también lanzó el modelo Whisper large-v3 para reconocimiento automático de voz.
Copilot transforma GitHub en la plataforma para desarrolladores impulsada por IA. GitHub está implementando tecnología de inteligencia artificial a través de Copilot y Copilot Chat, cuyo objetivo es revolucionar el desarrollo de software al brindar comprensión del código, sugerencias, correcciones de seguridad y experiencias mejoradas para los desarrolladores. Copilot Chat funcionará con el modelo GPT-4 de OpenAI y estará disponible a partir de diciembre de 2023.
Sam Altman y Greg Brockman se unirán a Microsoft para liderar un nuevo equipo de investigación avanzada de IA. Sam Altman, Greg Brockman y sus colegas liderarán un nuevo equipo de investigación de IA en Microsoft, centrándose en el desarrollo avanzado de IA con acceso a abundantes recursos.
Sam Altman despedido como director ejecutivo de OpenAI. OpenAI sufre un importante cambio de liderazgo cuando el director ejecutivo Sam Altman es despedido y reemplazado por Mira Murati como directora ejecutiva interina. Greg Brockman deja el cargo de presidente de la junta. A pesar de la reestructuración, Microsoft reafirma su asociación con OpenAI. Los miembros restantes de la junta incluyen a Ilya Sutskever, Tasha McCauley, Adam D’Angelo y Helen Toner.
Google retrasa el lanzamiento del modelo de IA Gemini, un rival potencial del GPT-4 de OpenAI. Google ha anunciado un retraso en el lanzamiento de su modelo de lenguaje grande Gemini, que se considera un competidor potencial de OpenAI, respaldado por Microsoft. Este desarrollo es significativo en el contexto de la ferozmente competitiva industria de la IA, especialmente en el espacio de la IA generativa.
GraphCast: modelo de IA para una previsión meteorológica global más rápida y precisa. DeepMind ha desarrollado GraphCast, un sistema avanzado de inteligencia artificial que utiliza Graph Neural Networks para predecir con precisión y rapidez el clima global hasta 10 días en solo un minuto. Supera al sistema HRES estándar de la industria, puede rastrear ciclones y ríos atmosféricos e identificar temperaturas extremas.

Guías de la Web

Cómo los detectores de IA pueden destruir el sustento de escritores inocentes. La pérdida de empleo del escritor independiente Michael Berben arroja luz sobre los falsos positivos comunes y la falta de mecanismos efectivos para desafiar los detectores de IA en el campo.
IA + API: lo que 12 expertos creen que depara el futuro. La convergencia de la IA y las API está revolucionando el mundo de la tecnología al transformar la forma en que se conectan las aplicaciones y los servicios. Las empresas emergentes que aprovechan estas herramientas pueden desafiar a los gigantes establecidos y remodelar la dinámica de poder en la economía digital.
Solicitar GPT-4 para el análisis de imágenes de gráficos: ¿está a la altura del desafío? La última versión de GPT, GPT-4, ha introducido capacidades de análisis de imágenes, incluidas imágenes de gráficos. Si bien puede proporcionar un análisis general de imágenes de gráficos, hay margen para mejoras significativas, particularmente en la cuantificación precisa de los datos. Se necesitan mejoras para lograr mayores niveles de precisión.
IA y código abierto en 2023. En 2023, la investigación y la industria de la IA se centraron en mejorar las tecnologías existentes como GPT y DALL-E, en lugar de realizar innovaciones radicales. Las empresas se volvieron más protectoras con su información patentada, lo que resultó en una menor divulgación pública en los trabajos de investigación. Sin embargo, hubo avances productivos en el código abierto, y Fuyu-8B dio lugar a modelos más pequeños y eficientes. La IA demostró ser útil en varios campos, pero en el futuro es necesario abordar las preocupaciones y los obstáculos éticos.
Aplicación de las estrategias RAG de OpenAI. El modelo RAG de OpenAI incorpora varias estrategias de recuperación categorizadas en similitud de coseno, consultas múltiples, indicaciones de paso atrás, reescritura-recuperación-lectura y enrutamiento eficiente. Estas estrategias optimizan la recuperación de documentos en función del problema en cuestión. Las técnicas de posprocesamiento, como la reclasificación y la clasificación, mejoran aún más el rendimiento de la recuperación antes de la ingestión.

¡Hasta aquí el resumen del mes de los artículos más interesantes! Descubre aquí los artículos completos. Aquí el segundo del mes y tercero con todos los resúmenes.

The post Navegando las Fronteras de la Inteligencia Artificial y el NLP en Noviembre first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/navegando-las-fronteras-de-la-inteligencia-artificial-y-el-nlp-en-noviembre/feed/ 0 23 recursos de aprendizaje para chatbots https://desa.planetachatbot.com/23-recursos-aprendizaje-chatbots/?utm_source=rss&utm_medium=rss&utm_campaign=23-recursos-aprendizaje-chatbots https://desa.planetachatbot.com/23-recursos-aprendizaje-chatbots/#respond Tue, 21 Jun 2022 08:00:07 +0000 https://desa.planetachatbot.com/?p=11287 ¡Hola compañeros entusiastas de la NLP! Pronto habrá un servidor de Discord de NLPlanet para la creación de redes entre los practicantes de NLP, estoy trabajando en la primera organización de sus canales. Estoy planeando añadir recursos de aprendizaje para muchas áreas de la PNL, por lo tanto este artículo es un paso hacia la […]

The post 23 recursos de aprendizaje para chatbots first appeared on Planeta Chatbot.

]]>

¡Hola compañeros entusiastas de la NLP!

Pronto habrá un servidor de Discord de NLPlanet para la creación de redes entre los practicantes de NLP, estoy trabajando en la primera organización de sus canales. Estoy planeando añadir recursos de aprendizaje para muchas áreas de la PNL, por lo tanto este artículo es un paso hacia la preparación de dicho contenido. Si estás interesado en el servidor Discord, sigue a NLPlanet en Medium, LinkedIn o Twitter para estar al día de su lanzamiento. ¡Que lo disfrutes!

Aquí sigue el primer borrador, comisariado por mí, de los recursos de aprendizaje de Chatbots de NLPlanet. Al ser un borrador, esta lista será mejorada con los comentarios de la comunidad.

Este artículo es la sexta parte de una serie de artículos sobre recursos de aprendizaje:

Awesome NLP – 18 Recursos de alta calidad para estudiar NLP
Two minutes NLP – 21 Recursos de aprendizaje para la clasificación de textos
Two minutes NLP – 20 recursos de aprendizaje para la incrustación de palabra s
Dos minutos de NLP – 20 recursos de aprendizaje para transformadores
Dos minutos de NLP – 20 recursos de aprendizaje para la recuperación de información

Qué son los chatbots

Un chatbot es un programa que se utiliza para mantener una conversación de chat a través de texto o texto a voz, sustituyendo el contacto directo con un agente humano en vivo.

Aplicaciones y casos de uso de los chatbots

Automatizar la atención al cliente B2C.
Automatizar las ventas y el marketing B2C.
Gestionar el servicio de asistencia interna y automatizar ciertas tareas como la programación de entrevistas, la remisión de empleados y la selección de candidatos (chatbot de RRHH).
Desbloquear y compartir el conocimiento y la experiencia en la organización de forma más eficiente.
Recoger las opiniones de los clientes.
Ofrecer recomendaciones de productos.

Artículos y tutoriales

La guía completa para principiantes de los chatbots: ¿Qué son los chatbots? ¿Por qué son una gran oportunidad? ¿Cómo funcionan? ¿Cómo puedo construir uno?
¿Qué es un chatbot y cómo utilizarlo para su negocio? Tipos de chatbots y sus casos de uso.
Construyendo un Chatbot simple desde cero en Python (usando NLTK): Construcción de un pequeño chatbot que saluda al usuario y responde a las consultas del usuario encontrando frases similares en una página de Wikipedia.
Chatbot conversacional usando Transformers y Streamlit: Construir una aplicación de Chatbot Conversacional usando Transformer y mostrarla con Streamlit.
Construir un Chatbot con Rasa: Qué es Rasa, configuración y entrenamiento de un chatbot.
Hacia una taxonomía del chatbot: Siete preguntas que permiten entender a los diferentes fabricantes de chatbots y el alcance de su tecnología.
Marco de diseño para los chatbots: El alcance del bot, la personalidad del chatbot, una lista priorizada de características imprescindibles y el flujo del chatbot.
Guía definitiva para aprovechar la NLP y el aprendizaje automático para su chatbot: Taxonomía de los modelos de chatbot, conversaciones largas vs cortas, desafíos comunes y evaluación de chatbots.
Chatbots contextuales con Tensorflow: Construir un marco de chatbot usando Tensorflow y añadir algo de manejo de contexto para mostrar cómo se puede abordar.
Consideraciones sobre la gestión del diálogo para los chatbots: Métodos de gestión de diálogo y consideraciones.
Conversational AI: Trends and Predictions for 2022: Seis tendencias y predicciones para la evolución del mercado de los chatbots en 2022.
LaMDA de Google: La próxima generación de chatbots: Echa un vistazo a los últimos chatbots conversacionales de dominio abierto.

Estudios

Una encuesta sobre agentes conversacionales/chatbotsClasificación y técnicas de diseño: Este documento tiene como objetivo discutir la clasificación de los chatbots, sus técnicas de diseño utilizadas en los chatbots anteriores y modernos, y cómo las principales categorías de chatbots manejan el contexto de la conversación.
Encuesta sobre chatbots inteligentes: Estado del arte y futuras direcciones de investigación: Este artículo estudia los enfoques de los chatbots más avanzados, basados en la capacidad de generar una respuesta adecuada.
Estudio de los avances recientes en chatbots: Este estudio revisa los recientes avances en chatbots, en los que se utiliza la inteligencia artificial y el procesamiento del lenguaje natural. El artículo destaca los principales retos y limitaciones de los trabajos actuales y hace recomendaciones para futuras investigaciones.

Bibliotecas y productos populares

Rasa: Rasa es un marco de aprendizaje automático de código abierto para conversaciones automatizadas basadas en texto y voz.
Dialogflow: Dialogflow es una plataforma de comprensión del lenguaje natural que facilita el diseño y la integración de una interfaz de usuario conversacional en tu app móvil, aplicación web, dispositivo, bot, sistema de respuesta de voz interactiva, etc.
Azure Bot Service: Azure Bot Service proporciona un entorno integrado que está construido especialmente para el desarrollo de bots.
ChatterBot: ChatterBot es un motor de diálogo conversacional basado en el aprendizaje automático construido en Python que permite generar respuestas basadas en colecciones de conversaciones conocidas.
Botkit: Botkit es una herramienta para desarrolladores de código abierto para construir chatbots, aplicaciones e integraciones personalizadas para las principales plataformas de mensajería.
Botpress: Botpress es la pila de desarrolladores estándar para construir, ejecutar y mejorar las aplicaciones de Conversational-AI.
Bottender: Un marco para la construcción de interfaces de usuario conversacionales.

Vídeo

IA conversacional con Rasa Open Source 3.x: Un curso completo sobre cómo construir IA conversacional con Rasa Open Source.

Conclusión

Si conoces algún otro buen recurso para aprender sobre Chatbots en particular, por favor házmelo saber para que pueda compartirlo con la comunidad.

Otras áreas de NLP que necesitarán un área de recursos de aprendizaje propia son los modelos de lenguaje, la respuesta a preguntas y el habla.

Gracias por leer. Si estás interesado en aprender más sobre NLP, recuerda seguir NLPlanet en Medium, LinkedIn o Twitter.

The post 23 recursos de aprendizaje para chatbots first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/23-recursos-aprendizaje-chatbots/feed/ 0 33 tareas importantes de NLP https://desa.planetachatbot.com/33-tareas-nlp/?utm_source=rss&utm_medium=rss&utm_campaign=33-tareas-nlp https://desa.planetachatbot.com/33-tareas-nlp/#respond Tue, 07 Jun 2022 08:00:04 +0000 https://desa.planetachatbot.com/?p=11204 ¡Hola compañeros entusiastas de NLP! Hoy voy a esbozar el panorama de NLP con una breve explicación de 33 tareas comunes de NLP. Intentaré hacerlo sencillo y no simplista en la medida de lo posible, por lo que tomad el artículo como punto de partida para adentraros en el campo. ¡Comencemos! 😄 Clasificación Clasificación de […]

The post 33 tareas importantes de NLP first appeared on Planeta Chatbot.

]]> ¡Hola compañeros entusiastas de NLP! Hoy voy a esbozar el panorama de NLP con una breve explicación de 33 tareas comunes de NLP. Intentaré hacerlo sencillo y no simplista en la medida de lo posible, por lo que tomad el artículo como punto de partida para adentraros en el campo.

¡Comencemos!

Clasificación

Clasificación de textos: asignación de una categoría a una frase o documento (por ejemplo, filtrado de spam).
Análisis de sentimientos: identificación de la polaridad de un texto.

Recuperación de información y clasificación de documentos

Similitud de frases/documentos: determinar el grado de similitud de dos textos.
Respuesta a preguntas: la tarea de responder a una pregunta en lenguaje natural.

Generación de texto a texto

Traducción automática: traducir de un idioma a otro.
Generación de texto: creación de un texto que parece indistinguible de un texto escrito por un humano.
Resumir textos: crear una versión abreviada de varios documentos que conserve la mayor parte de su significado.
Simplificación de textos: hacer que un texto sea más fácil de leer y comprender, conservando sus ideas principales y su significado aproximado.
Normalización léxica: traducir/transformar un texto no estándar a un registro estándar.
Generación de paráfrasis: creación de una frase de salida que conserva el significado de la entrada pero incluye variaciones en la elección de palabras y la gramática.

Bases de conocimiento, entidades y relaciones

Extracción de relaciones: extracción de relaciones semánticas de un texto. Las relaciones extraídas suelen darse entre dos o más entidades y corresponden a categorías semánticas específicas (por ejemplo, vive en, hermana de, etc).
Predicción de relaciones: identificación de una relación con nombre entre dos entidades semánticas con nombre.
Reconocimiento de entidades con nombre: etiquetado de entidades en el texto con su tipo correspondiente, normalmente en notación BIO.
Vinculación de entidades: reconocimiento y desambiguación de entidades con nombre en una base de conocimientos (normalmente Wikidata).

Temas y palabras clave

Modelización de temas: identificación de «temas» abstractos subyacentes a una colección de documentos.
Extracción de palabras clave: identificación de los términos más relevantes para describir el tema de un documento.

Chatbots

Detección de intenciones: captura de la semántica que hay detrás de los mensajes de los usuarios y los asigna a la etiqueta correcta.
Relleno de slots: tiene como objetivo extraer de los textos los valores de determinados tipos de atributos (o ranuras, como ciudades o fechas) de una entidad determinada.
Gestión de diálogos: gestión del estado y el flujo de las conversaciones.

Razonamiento textual

Razonamiento de sentido común: uso del «sentido común» o del conocimiento del mundo para hacer inferencias.
Inferencia en lenguaje natural: determinar si una «hipótesis» es verdadera (vinculación), falsa (contradicción) o indeterminada (neutra) dada una «premisa».

Detección de noticias falsas y discursos de odio

Detección de noticias falsas: detección y filtrado de textos que contienen información falsa y engañosa.
Detección de posturas: determinar la reacción de un individuo ante la afirmación de un actor principal. Es una parte fundamental de un conjunto de enfoques para la evaluación de noticias falsas.
Detección de discursos de odio: detectar si un texto contiene discursos de odio.

Texto a datos y viceversa

Texto a voz: tecnología que lee el texto digital en voz alta.
Speech-to-Text: transcripción de voz a texto.
Texto a imagen: generación de imágenes fotorrealistas que son semánticamente coherentes con las descripciones del texto.
Texto a datos: producción de texto a partir de datos no lingüísticos, como bases de datos de registros, hojas de cálculo y bases de conocimiento de sistemas expertos.

Preprocesamiento de textos

Resolución de correferencias: agrupación de menciones en el texto que se refieren a las mismas entidades del mundo real subyacentes.
Etiquetado de la parte del discurso (POS): etiquetado de una palabra en un texto con su parte del discurso. Una parte de la oración es una categoría de palabras con propiedades gramaticales similares, como sustantivo, verbo, adjetivo, adverbio, pronombre, preposición, conjunción, etc.
Desambiguación del sentido de las palabras: asociar palabras en contexto con su entrada más adecuada en un inventario de sentidos predefinido (normalmente WordNet).
Corrección de errores gramaticales: corrección de distintos tipos de errores en el texto, como los de ortografía, puntuación, gramática y elección de palabras.
Extracción de rasgos: extracción de rasgos numéricos genéricos del texto, normalmente incrustaciones.

¡Gracias por leer! Si estás interesado en aprender más sobre laNLP, recuerda seguir a NLPlanet en Medium, LinkedIn y Twitter.

The post 33 tareas importantes de NLP first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/33-tareas-nlp/feed/ 0 Consejos para estructurar el contenido de un chatbot y recoger comentarios útiles https://desa.planetachatbot.com/consejos-estructurar-para-estructurar-contenido-de-chatbot/?utm_source=rss&utm_medium=rss&utm_campaign=consejos-estructurar-para-estructurar-contenido-de-chatbot https://desa.planetachatbot.com/consejos-estructurar-para-estructurar-contenido-de-chatbot/#respond Tue, 24 May 2022 08:00:08 +0000 https://desa.planetachatbot.com/?p=11036 Recientemente he colaborado en varios proyectos relacionados con chatbots y he tenido la oportunidad de debatir con expertos del sector sobre las principales dificultades que se suelen encontrar en este tipo de proyectos. Aunque cada vez es más fácil construir asistentes conversacionales, parece que hay algunos problemas que surgen sistemáticamente a medida que el chatbot […]

The post Consejos para estructurar el contenido de un chatbot y recoger comentarios útiles first appeared on Planeta Chatbot.

]]> Recientemente he colaborado en varios proyectos relacionados con chatbots y he tenido la oportunidad de debatir con expertos del sector sobre las principales dificultades que se suelen encontrar en este tipo de proyectos. Aunque cada vez es más fácil construir asistentes conversacionales, parece que hay algunos problemas que surgen sistemáticamente a medida que el chatbot crece, como consecuencia de no tener una arquitectura de intenciones y contenido adecuada.

Algunos síntomas de una mala arquitectura de intenciones son:

El chatbot se confunde a menudo entre dos intenciones, que casualmente tienen frases de entrenamiento similares.
El chatbot no parece coincidir con lo que dicen algunos usuarios con la intención correcta aunque ya esté implementada, y es engorroso extraer mejores frases de entrenamiento de la gran cantidad de datos conversacionales recopilados.
A pesar de que la intención correcta coincide, el chatbot no consigue resolver los problemas de los usuarios, éstos dan opiniones negativas y no está claro cómo mejorar el servicio.

En este artículo, propongo una forma de diseñar intenciones con el objetivo de evitar estos malos síntomas.

Entradas del chatbot: texto libre y respuestas de elección múltiple

Me ocuparé principalmente de los chatbots cuya entrada puede ser tanto de texto libre o de voz (y, por tanto, de clasificación de la intención), como de elección múltiple. Aceptar texto libre o voz en un chatbot tiene dos ventajas principales:

El usuario puede decir lo que quiere y obtener una respuesta adecuada, sin tener que navegar por una secuencia de preguntas de elección múltiple. Esto significa que al principio de la conversación hay un factor de bifurcación muy alto, es decir, hay un gran número de posibles caminos de conversación que se pueden tomar desde un solo paso de la conversación. Esto no puede conseguirse con chatbots de elección múltiple, ya que la lista de opciones múltiples sería demasiado larga para que cupiera una sola respuesta, lo que daría lugar a caminos de conversación más profundos. Sin embargo, a medida que aumenta el factor de ramificación, también aumenta la probabilidad de que el chatbot dé una respuesta errónea porque hay más intenciones entre las que elegir.
Conseguimos ver lo que el usuario quiere realmente, ya que es libre de escribir o hablar. Esto significa que obtenemos datos que podemos analizar para mejorar el chatbot a lo largo del tiempo, sin involucrar a agentes humanos.

Sin embargo, las entradas de opción múltiple tienen también importantes ventajas sobre el texto libre:

Aunque el chatbot no haya entendido exactamente lo que el usuario quiere, puede proponer alternativas plausibles en forma de respuestas de opción múltiple. Proponer más soluciones posibles es mucho mejor que proponer sólo una, pero equivocada.
Es más fácil entender los comentarios de los usuarios si provienen de respuestas de opción múltiple.

La buena noticia es que podemos utilizar ambos modos de entrada en el mismo chatbot, utilizando el mejor en la ocasión adecuada. Veamos un ejemplo con un nuevo chatbot. Los únicos intents serán el Welcome Intent, que contiene un mensaje de bienvenida que el chatbot muestra al usuario cuando se inicia la conversación, y el Fallback Intent, que se empareja cuando no se empareja ningún otro intent a la petición del usuario.

Ejemplo de gráfico de intents con los intents de bienvenida y de retroceso. Imagen del autor.

Cómo gestionar intenciones con frases de formación similares

Supongamos que implementamos la intención Renovar suscripción, que responde con «Para renovar su suscripción, haga esto […]» a preguntas como «¿Cómo puedo renovar mi suscripción?«. Podemos distinguir las intents en:

System Intents: intents comunes que siempre están presentes en todo chatbot, como los intents Welcome y Fallback.
Response Intents: intents cuya respuesta debe resolver la petición del usuario.

Ejemplo de gráfico de intenciones con una intención de respuesta. Imagen del autor.

Más tarde, descubrimos que hay dos procedimientos de renovación distintos: uno en caso de que la suscripción no haya caducado todavía, y otro cuando la suscripción ya ha caducado. La solución ingenua sería crear una segunda intent y tratar de distinguir al máximo las frases de entrenamiento de las dos intents. Creamos la intención Renovar suscripción caducada, que responde con «Para renovar su suscripción, haga esto […]» a preguntas como «¿Cómo renuevo mi suscripción caducada?«.

A continuación, actualizamos la intención Renovar suscripción no caducada para que responda con «Para renovar su suscripción, haga esto […]» a preguntas como «¿Cómo renuevo mi suscripción aún no caducada?«.

Ejemplo de gráfico de intenciones con múltiples intenciones de respuesta con frases de entrenamiento similares. Imagen del autor.

Esto puede parecer correcto a primera vista. Pero, ¿realmente los usuarios especifican en sus preguntas si su suscripción ya ha caducado? Lo que los usuarios quieren es renovar su suscripción y el hecho de que el procedimiento correcto dependa de otros factores no significa que la intención de los usuarios sea diferente. Una mejor manera de gestionar esto es crear una intención cuyo propósito sea desambiguar si la suscripción del usuario ha caducado o no y llevar a la respuesta correcta. Llamemos a esta nueva intent Renew Subscription Is Expired, que pregunta al usuario «¿Ha caducado ya su suscripción?«. A continuación, debemos mover todas las frases de entrenamiento de las Intents de respuesta que creamos antes a esta nueva intent.

Esta nueva intent no es una Response Intent porque su respuesta no debe resolver directamente la petición del usuario. Podemos clasificarla como una intención de desambiguación, cuyo objetivo es encontrar la respuesta correcta entre una lista de opciones similares. Dado que su objetivo es muy similar a las ventajas de las entradas de opción múltiple, podemos hacer que se proporcione al usuario una respuesta de opción múltiple para ella, como «Sí, mi suscripción ha caducado» y «No, mi suscripción no ha caducado«.

Ejemplo de gráfico de intenciones con una intención de desambiguación. Imagen del autor.

Genial. Ahora los usuarios ya no obtendrán respuestas erróneas debido a intenciones con frases de entrenamiento similares, a costa de un paso conversacional más, pero necesario. Además, la desambiguación puede hacerse automáticamente si el sistema ya sabes si la suscripción del usuario ha caducado o no. Una vez que añadamos más intents a nuestro chatbot, tu arquitectura de intents tendrá el siguiente aspecto.

Ejemplo de gráfico de intenciones con múltiples intenciones de desambiguación y respuesta. Imagen del autor.

Se pueden encadenar múltiples intenciones de desambiguación, así como múltiples intenciones de respuesta. Hay que tener en cuenta que el flujo conversacional a través de múltiples Intents de Desambiguación siempre se bifurca en varios caminos posibles. Esto no siempre es cierto para múltiples Intents de Respuesta secuenciales, porque pueden resolver el problema del usuario en múltiples pasos o recoger los datos necesarios del usuario.

Hemos visto cómo resolver el problema de los intents con frases de entrenamiento similares con los Intents de Desambiguación. Veamos ahora cómo mejorar la clasificación de las intenciones gracias a un procedimiento adecuado de recogida de información.

Cómo estructurar la recogida de comentarios para mejorar la clasificación de intenciones

Es posible que nuestro chatbot no consiga ofrecer una buena atención al cliente debido a que las intenciones con frases de entrenamiento no cubren adecuadamente el espectro de posibles peticiones realizadas por los usuarios. Este tipo de problema se presenta principalmente en la parte del flujo conversacional donde tenemos un alto factor de ramificación, es decir, justo después de que se inicie la conversación.

Ejemplo de gráfico de intenciones en el que se destaca el alto factor de ramificación al inicio de la conversación. Imagen del autor.

Podemos estructurar la recopilación de opiniones de los usuarios para resolver este tipo de problemas a lo largo del tiempo y con poco esfuerzo. Consideremos este escenario más sencillo, en el que las intenciones disponibles al inicio de la conversación son Renovar suscripción caducada, Recuperar contraseña y Retirar.

Ejemplo de gráfico de intenciones con desambiguación e intenciones de respuesta. Imagen del autor.

Cuando una intención entre Renovar suscripción ha caducado y Recuperar contraseña coincide, el chatbot debe proporcionar su respuesta correspondiente y luego preguntar si eso era lo que el usuario quería decir. Por ejemplo, si el usuario dice «¿Cómo renuevo mi suscripción?«, la respuesta de la intención Renovar suscripción ha caducado debería ser algo así como «¿Quiere renovar su suscripción? Si es así, seleccione la opción que mejor describa su caso» con una respuesta de opción múltiple compuesta por «Sí, mi suscripción ya ha caducado«, «Sí, mi suscripción aún no ha caducado» y «No, no es eso lo que quería decir«.

Si el usuario selecciona una de las dos primeras opciones, podemos deducir que la clasificación de la intención fue exitosa y guardar una retroalimentación implícita positiva junto con el texto del usuario que llevó a la coincidencia de la intención Renueva la suscripción ha expirado. Si el usuario selecciona la tercera opción, el chatbot debe activar una nueva intención que gestione estos malentendidos (o la intención Fallback) y guardar un feedback implícito negativo, junto con el texto anterior del usuario.

Al guardar los feedbacks positivos y negativos de esta manera, se tiene una colección organizada de feedback dividida por intención y tipo de feedback, donde sólo se puede analizar el paso de la conversación que llevó al feedback en lugar de toda la conversación. Esto ahorrará mucho tiempo y dolores de cabeza a cualquiera que analice el feedback para mejorar la clasificación de las intenciones.

Veamos otro ejemplo. Si el usuario escribe «¿Cómo puedo recuperar mi contraseña?», el chatbot debería coincidir con la intención Recuperación de contraseña y responder con «Para recuperar tu contraseña, haz esto […] ¿He resuelto tu problema?» con las posibles opciones «Sí» (feedback positivo) y «No, quería decir otra cosa» (feedback negativo).

Las frases de los usuarios que dieron lugar a comentarios positivos son posibles nuevas frases de entrenamiento ya validadas. Ten en cuenta que añadir demasiadas frases de entrenamiento a una intención puede mejorar su rendimiento pero reducir su capacidad de mantenimiento, ya que comprobar 100 frases es más lento que comprobar 30. Sugiero que se considere un equilibrio de estos dos aspectos: intentar mantener no más de 40 frases de entrenamiento y, al mismo tiempo, cubrir adecuadamente el espectro de posibles peticiones realizadas por los usuarios con frases de entrenamiento diferentes.

Dado que el objetivo de este tipo de retroalimentación es mejorar la clasificación de la intención proporcionando nuevas y mejores frases de entrenamiento, lo llamaremos retroalimentación de la clasificación de la intención.

Ejemplo de gráfico de intents con retroalimentación de clasificación de intents. Imagen del autor.

Los errores de clasificación de la intención no son el único tipo de errores que se pueden abordar utilizando las retroalimentaciones, veamos por qué.

Cómo estructurar la recopilación de comentarios para mejorar las respuestas a las intenciones

La respuesta proporcionada con una intención puede no ser suficiente para que ciertos usuarios resuelvan sus problemas, aunque pueda parecerle extraño a quien escribe las respuestas de intención, ya que trata de ser lo más claro posible. Es algo similar a lo que ocurre con las pruebas de usabilidad de los productos: quien ha desarrollado un producto ha tenido tiempo de desarrollar un modelo conceptual que facilita la realización de cualquier acción dentro del mismo y le cuesta identificarse con un usuario que ve el producto por primera vez. Esto ocurre también con quienes tienen la tarea de escribir las respuestas que dará el chatbot: conocen tan bien el servicio que escriben respuestas completas a primera vista, pero sobre las que los nuevos usuarios no pueden orientarse.

Entonces, ¿cómo podemos recoger opiniones sobre la calidad de las respuestas del chatbot y mejorarlas? De nuevo, organizando el feedback de forma adecuada. Volvamos a nuestro ejemplo anterior.

No tiene mucho sentido comprobar la calidad de las respuestas de los Intents de Desambiguación, ya que tienen respuestas cortas y están en forma de pregunta. Nos centraremos en las intenciones de respuesta.

Si el usuario pregunta «¿Cómo puedo recuperar mi contraseña?», el chatbot debería coincidir con la intención de Recuperación de Contraseña y responder con «Para recuperar tu contraseña, haz esto […] ¿Resolví tu problema?» con tres posibles opciones: «Sí», «No, no he podido recuperar mi contraseña con tus instrucciones» y «No, me refería a otra cosa». La primera respuesta es tanto una retroalimentación positiva de clasificación de intención como una retroalimentación positiva sobre la calidad del texto de respuesta. La segunda respuesta es una retroalimentación negativa sobre la calidad de la respuesta, y la tercera es una retroalimentación de clasificación de intención negativa. Podemos definir la respuesta como un comentario sobre la calidad de la respuesta asociada a una intención de respuesta.

Ejemplo de gráfico de intenciones con retroalimentación de clasificación de intenciones y retroalimentación de respuestas. Imagen del autor.

Las respuestas negativas siempre deben conducir a un traspaso a agentes humanos si es posible. Sus conversaciones deben ser analizadas para entender por qué la respuesta de la intención no fue lo suficientemente buena.

Arquitectura de intención final sugerida con recogida de feedback

En general, así es como sugiero que se vea la arquitectura de intent.

Ejemplo de gráfico de intenciones con múltiples intenciones de desambiguación y respuesta, con retroalimentación de clasificación de intenciones y retroalimentación de respuesta. Imagen del autor.

A modo de recapitulación:

La entrada de texto libre es preferible para restringir el número de respuestas correctas plausibles para la solicitud del usuario y para recopilar datos sobre lo que los usuarios están preguntando.

La entrada de opción múltiple es preferible para encontrar la respuesta correcta a partir de una lista de posibles respuestas y para recopilar información.

Los intents de respuesta deben resolver directamente la petición del usuario con una respuesta. Pueden hacerlo en varios pasos, especialmente si necesitan pedir datos al usuario.

Los intents de desambiguación tienen como objetivo encontrar la respuesta correcta a partir de una lista de opciones similares, que pueden ser intents de respuesta u otros intents de desambiguación. Proporcionan respuestas de opción múltiple y resuelven el problema de los intents con frases de entrenamiento similares.

La intención de bienvenida sugiere al usuario que diga con texto libre cuál es su petición. El objetivo de la clasificación de intenciones es entonces reducir la petición del usuario a una intención de respuesta o a una intención de desambiguación.

Los comentarios de clasificación de intenciones tienen como objetivo mejorar la clasificación de intenciones mediante la recopilación de comentarios organizados y concisos que proporcionen nuevas frases de entrenamiento. Se recogen justo después de la clasificación de intenciones, tanto en las intenciones de desambiguación como en las de respuesta.

Los comentarios de respuesta tienen como objetivo mejorar las respuestas asociadas a las intenciones de respuesta, reuniendo comentarios organizados y concisos que proporcionen nuevas perspectivas sobre los problemas de los usuarios. Se recogen justo después de que se empareje una intención de respuesta.

Consejos adicionales

Estos son algunos consejos generales que parecen ser beneficiosos en la mayoría de los proyectos de chatbot. No pretende ser una lista completa, ya que podría convertirse en protagonista de un artículo por sí solo:

Es perfectamente normal no poder gestionar el 100% de los mensajes que recibe tu chatbot

Hay interacciones demasiado complejas para que las maneje un ordenador o lo suficientemente raras como para que no merezca la pena enseñarle a hacerlo. En estos casos, delegar a un agente humano. Un chatbot puede mejorar en gran medida la eficiencia, aunque sólo se encargue de la primera parte, la mecánica, de una conversación. Intente que el chatbot gestione ese 70% de contactos repetitivos y sencillos, dejando que los agentes humanos gestionen el 30% restante de contactos complejos y poco frecuentes (los porcentajes pueden variar mucho según el sector).

No hagas que el chatbot se repita

Los usuarios odian cuando obtienen respuestas idénticas varias veces, hace que parezca que la conversación no va a ninguna parte. Evita los bucles siempre que sea posible en tu gráfico de intención e implementa diferentes respuestas para la misma intención para evitar repetir exactamente las mismas frases.

Dirígete a los usuarios enfadados

Si tienes la tecnología para entender las emociones de tus usuarios (es decir, el análisis de sentimientos en el texto), úsala y dirígete a los usuarios enfadados con algo como «Lo siento pero no te entiendo, ¿quieres hablar con una persona real?«

Si estás comenzando un nuevo proyecto de chatbot, empieza con poco, prueba, monitoriza, afina e itera

Comienza implementando no más de 15 intents de respuesta, realiza pruebas de usuario y ponte en marcha. Céntrese en gestionar unos pocos motivos de contacto, pero bien. A continuación, supervise los feedbacks de clasificación de intents y los feedbacks de respuesta en su panel de control, revise las consultas de los usuarios que no funcionaron para los intents con los mayores volúmenes (es decir, el trabajo en el que tiene el mayor ROI), y mejore su chatbot. Mejora el chatbot a través de decisiones basadas en datos, no confíes sólo en tu intuición.

Conclusión

Como cualquier proyecto que puede crecer potencialmente en tamaño y complejidad, una buena arquitectura de intención en un proyecto de chatbot es esencial para hacerlo mantenible, supervisar su rendimiento con claridad y mejorarlo sistemáticamente con el tiempo.

Considera esta guía como una ayuda para gestionar las complejidades que surgen a medida que un chatbot crece, aunque creo que un buen modelo conceptual de la arquitectura de un chatbot puede ahorrar muchos dolores de cabeza incluso en proyectos más pequeños.

The post Consejos para estructurar el contenido de un chatbot y recoger comentarios útiles first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/consejos-estructurar-para-estructurar-contenido-de-chatbot/feed/ 0 Una breve cronología de NLP: desde el modelo bolsa de palabras hasta la Familia Transformer https://desa.planetachatbot.com/breve-cronologia-nlp/?utm_source=rss&utm_medium=rss&utm_campaign=breve-cronologia-nlp https://desa.planetachatbot.com/breve-cronologia-nlp/#respond Thu, 12 May 2022 08:00:46 +0000 https://desa.planetachatbot.com/?p=10941 ¡Hola compañer@s entusiastas de NLP! Como la carrera hacia la búsqueda de redes neuronales deja a disposición de los desarrolladores cada vez mejores herramientas, he pensado que podría ser un buen momento para obtener una visión general de los progresos realizados a lo largo de los años. ¡Que lo disfrutéis! 😄 Descargo de responsabilidad: Este […]

The post Una breve cronología de NLP: desde el modelo bolsa de palabras hasta la Familia Transformer first appeared on Planeta Chatbot.

]]> ¡Hola compañer@s entusiastas de NLP!

Como la carrera hacia la búsqueda de redes neuronales deja a disposición de los desarrolladores cada vez mejores herramientas, he pensado que podría ser un buen momento para obtener una visión general de los progresos realizados a lo largo de los años. ¡Que lo disfrutéis!

Descargo de responsabilidad: Este artículo no es una lista completa de la investigación realizada en NLP, ¡que difícilmente cabría incluso en varios libros! Se trata más bien de una visión personal de algunos de los modelos que han influido en la investigación del campo. Intentaré hacerlo sencillo y no simplista en la medida de lo posible, por lo tanto, te invito a que tomes este artículo como punto de partida para profundizar en el campo.

Dicho esto, ¡aquí está la lista de modelos!

Bag of Words (BOW) [1954]:

Cuenta las apariciones de cada palabra en los documentos y las utiliza como características.

TF-IDF [1972]:

Las puntuaciones de BOW se modifican para que las palabras raras tengan puntuaciones altas y las comunes, puntuaciones bajas.

Word2Vec [2013]:

Cada palabra se asigna a un vector de alta dimensión llamado incrustación de palabras, que captura su semántica. Las incrustaciones de palabras se aprenden mediante una red neuronal que busca correlaciones de palabras en un gran corpus.

RNN [1986]:

Las RNN calculan las incrustaciones de documentos aprovechando el contexto de las palabras en las frases, lo que no era posible con las incrustaciones de palabras solamente. Más tarde evolucionó con LSTM [1997] para capturar las dependencias a largo plazo, y con RNN bidireccionales [1997] para capturar las dependencias de izquierda a derecha y de derecha a izquierda. Finalmente, surgieron las RNN codificadoras-decodificadoras [2014], en las que una RNN crea una incrustación de documentos (es decir, el codificador) y otra RNN la decodifica en texto (es decir, el decodificador).

Transformer [2017]:

Modelo codificador-decodificador que aprovecha los mecanismos de atención para calcular mejores incrustaciones y alinear mejor la salida con la entrada.

BERT [2018]:

Transformador bidireccional preentrenado mediante una combinación de objetivos de Modelado de Lenguaje Enmascarado y Predicción de la Siguiente Frase. Utiliza la atención global.

GPT [2018]:

El primer modelo autorregresivo basado en la arquitectura de Transformer. Posteriormente evolucionó en GPT-2 [2019], una versión más grande y optimizada de GPT preentrenada en WebText, y GPT-3 [2020], una versión aún más grande y optimizada de GPT-2, preentrenada en Common Crawl.

CTRL [2019]:

Similar a GPT pero con códigos de control para la generación de texto condicional.

Transformer-XL [2019]:

Es un Transformer autorregresivo que puede reutilizar estados ocultos previamente calculados para atender a un contexto más largo.

ALBERT [2019]:

Una versión más ligera de BERT, en la que (1) se sustituye la Predicción de la siguiente frase por la Predicción del orden de las frases, y (2) se utilizan técnicas de reducción de parámetros para un menor consumo de memoria y un entrenamiento más rápido.

RoBERTa [2019]:

Versión mejorada de BERT, en la que (1) el objetivo de Modelado del Lenguaje Enmascarado es dinámico, (2) se elimina el objetivo de Predicción de la Siguiente Oración, (3) se emplea el tokenizador BPE y (4) se utilizan mejores hiperparámetros.

XLM [2019]:

Transformador preentrenado en un corpus de varios idiomas que utiliza objetivos como el Modelado Causal del Lenguaje, el Modelado del Lenguaje Enmascarado y el Modelado del Lenguaje de Traducción.

XLNet [2019]:

Transformer-XL con un método de preentrenamiento autorregresivo generalizado que permite aprender dependencias bidireccionales.

PEGASUS [2019]:

Un codificador bidireccional y un decodificador de izquierda a derecha preentrenados con objetivos de Modelado de Lenguaje Enmascarado y Generación de Oraciones de Brecha.

DistilBERT [2019]:

Igual que BERT pero más pequeño y rápido, conservando más del 95% de las prestaciones de BERT. Entrenado por destilación del modelo BERT preentrenado.

XLM-RoBERTa [2019]:

RoBERTa entrenado en un corpus multilingüe con el objetivo de Modelado de Lenguaje Enmascarado.

BART [2019]:

Un codificador bidireccional y un decodificador de izquierda a derecha entrenados corrompiendo el texto con una función de ruido arbitraria y aprendiendo un modelo para reconstruir el texto original.

ConvBERT [2019]:

Una versión mejorada de BERT, en la que los bloques de autoatención se sustituyen por otros nuevos que aprovechan las convoluciones para modelar mejor el contexto global y local.

Funnel Transformer [2020]:

Un tipo de Transformer que comprime gradualmente la secuencia de estados ocultos hasta hacerla más corta y, por tanto, reduce el coste de computación.

Reformer [2020]:

Un Transformer más eficiente gracias a la atención de hashing sensible a nivel local, la codificación de la posición axial y otras optimizaciones.

T5 [2020]:

Un codificador bidireccional y un decodificador de izquierda a derecha preentrenados en una mezcla de tareas supervisadas y no supervisadas.

Longformer [2020]:

Un modelo Transformer que sustituye las matrices de atención por matrices dispersas para una mayor eficiencia de entrenamiento.

ProphetNet [2020]:

Un modelo Transformer entrenado con el objetivo de Predicción de N-gramas futuros y con un novedoso mecanismo de auto-atención.

ELECTRA [2020]:

Igual que BERT pero más ligero y mejor. El modelo está entrenado con el objetivo de Detección de Fichas Reemplazadas.

Switch Transformers [2021]:

Un modelo de Transformador experto de activación dispersa que pretende simplificar y mejorar sobre la Mezcla de Expertos.

A continuación te comparto una infografía en la que se destacan todos los modelos citados en este artículo, aunque ojo, está en inglés:

Espero que el listado te haya resultado interesante y te animes a seguir profundizando en el mundo del nlp.

¡Nos vemos en los siguientes posts!

The post Una breve cronología de NLP: desde el modelo bolsa de palabras hasta la Familia Transformer first appeared on Planeta Chatbot.

]]> https://desa.planetachatbot.com/breve-cronologia-nlp/feed/ 0