Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the acf domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6170

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the all-in-one-seo-pack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6170

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wp-user-avatar domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6170

Warning: Cannot modify header information - headers already sent by (output started at /home/planetac/desa.planetachatbot.com/wp-includes/functions.php:6170) in /home/planetac/desa.planetachatbot.com/wp-content/plugins/all-in-one-seo-pack/app/Common/Meta/Robots.php on line 87

Warning: Cannot modify header information - headers already sent by (output started at /home/planetac/desa.planetachatbot.com/wp-includes/functions.php:6170) in /home/planetac/desa.planetachatbot.com/wp-includes/feed-rss2.php on line 8
Salvatore Raieli - Planeta Chatbot https://desa.planetachatbot.com Comunidad de expertos en IA Conversacional Mon, 01 Jul 2024 10:57:29 +0000 es hourly 1 https://wordpress.org/?v=7.0 https://desa.planetachatbot.com/wp-content/uploads/2021/05/cropped-favicon-32x32.png Salvatore Raieli - Planeta Chatbot https://desa.planetachatbot.com 32 32 Noticias mensuales sobre IA y ML – junio 2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-ml-junio-2024/?utm_source=rss&utm_medium=rss&utm_campaign=noticias-mensuales-sobre-ia-y-ml-junio-2024 https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-ml-junio-2024/#respond Thu, 04 Jul 2024 06:00:36 +0000 https://desa.planetachatbot.com/?p=17926 Las noticias, repositorios, artículos y recursos más interesantes del mes de junio resumidos en un solo artículo. No te pierdas este repositorio donde se recogerán e indexarán las noticias más destacables de IA y ML. Investigación Noticias Recursos Perspectivas

The post Noticias mensuales sobre IA y ML – junio 2024 first appeared on Planeta Chatbot.

]]>
Las noticias, repositorios, artículos y recursos más interesantes del mes de junio resumidos en un solo artículo. No te pierdas este repositorio donde se recogerán e indexarán las noticias más destacables de IA y ML.

Investigación

  • Golden Gate Claude. Publicamos un nuevo e importante artículo de investigación sobre la interpretación de grandes modelos lingüísticos, en el que empezamos a trazar el funcionamiento interno de nuestro modelo de IA, Claude 3 Sonnet. En la «mente» de Claude encontramos millones de conceptos que se activan cuando el modelo lee un texto o ve imágenes relevantes, a los que llamamos «características».
  • Una mejor combinación de conductores y pasajeros: Aprendizaje por refuerzo en Lyft. El equipo de Lyft emparejó a conductores y pasajeros mediante el aprendizaje por refuerzo en línea, que se ve recompensado por los beneficios futuros de los conductores. Consiguieron 30 millones de dólares más al año para los pasajeros y mejoraron significativamente en tiempo real.
  • Lecciones desde las trincheras sobre la evaluación reproducible de modelos lingüísticos. La evaluación de modelos lingüísticos es una tarea ardua, y la información sobre el proceso es escasa fuera de las grandes empresas. Este trabajo presenta un conjunto sólido y repetible de criterios de evaluación. En el apéndice se incluye un útil análisis de la evaluación de la perplejidad.
  • RectifID: Personalización del flujo rectificado con guía de clasificador anclada. Los investigadores presentan un método novedoso para adaptar los modelos de difusión con el fin de producir imágenes que preserven la identidad a partir de referencias proporcionadas por el usuario. Esta estrategia dirige los modelos de difusión sin formación adicional mediante el uso de la guía del clasificador, en contraste con los métodos clásicos que necesitan una considerable formación específica del dominio.
  • LoRA-Ensemble: Modelización eficiente de la incertidumbre para redes de autoatención. LoRA-Ensemble es una técnica de ensemble profunda y eficiente para redes de autoatención. Este método proporciona predicciones precisas y bien calibradas sin el importante coste computacional asociado a los métodos de ensemble típicos. Lo hace extendiendo Low-Rank Adaptation (LoRA) para ensamblaje implícito.
  • Agent Planning with World Knowledge Model. Demuestra un rendimiento superior en comparación con varias líneas de base sólidas al adoptar LLM de código abierto como Mistral-7B y Gemma-7B. Introduce un modelo paramétrico de conocimiento del mundo para facilitar la planificación de agentes. El modelo de agente puede autosintetizar el conocimiento a partir de trayectorias expertas y muestreadas; esto se utiliza para entrenar el modelo de conocimiento del mundo. El conocimiento previo de la tarea se utiliza para guiar la planificación global y el conocimiento dinámico del estado se utiliza para guiar la planificación local.
  • Mejora de la selección de respuestas en los LLM. Sugiere un marco de agregación de razonamiento jerárquico para mejorar las capacidades de razonamiento de los LLM; el método, conocido como Agregación de Razonamiento (AoR), elige las respuestas basándose en la evaluación de las cadenas de razonamiento; AoR emplea el muestreo dinámico para modificar el número de cadenas de razonamiento en relación con la complejidad de la tarea; hace uso de los resultados de la fase de evaluación para decidir si muestrea más cadenas de razonamiento; Un problema bien conocido de la votación por mayoría es que no funciona cuando la opción correcta está en minoría; AoR se concentra en evaluar las cadenas de razonamiento para mejorar la elección de la respuesta concluyente; AoR puede emplearse con diferentes LLM para mejorar el rendimiento en problemas de razonamiento difíciles, y supera a varios enfoques de conjunto bien conocidos.
  • Efficient Inference of LLMs. sugiere una caché KV condensada en capas para lograr una inferencia eficaz en LLMs; puede lograr un rendimiento hasta 26 veces mayor que los transformadores de línea de base, manteniendo un rendimiento satisfactorio; sólo calcula y almacena en caché los valores clave (KV) de un pequeño número de capas, lo que conduce a un menor consumo de memoria y un rendimiento de inferencia mejorado.
  • Mapeo de la mente de un modelo lingüístico de gran tamaño. Mediante el mapeo de millones de rasgos que se correlacionan con una amplia gama de conceptos, los antropólogos han mostrado una forma de comprender el funcionamiento interno de su enorme modelo lingüístico, Claude Sonnet. Esta interpretabilidad, que permite ciertas manipulaciones de estos atributos para dirigir los comportamientos del modelo, puede dar lugar a una IA más segura. La investigación indica un notable avance en la comprensión y mejora de los protocolos de seguridad de los modelos lingüísticos de la inteligencia artificial.
  • Segmentación de objetos en escenarios complejos. Para mejorar la Segmentación de Expresiones Referenciales Generalizada (GRES), los investigadores han desarrollado el marco de Descodificación Semántica Jerárquica con Asistencia de Recuento (HDC). A diferencia de las técnicas anteriores, la HDC combina las correspondencias semánticas y transmite información complementaria sobre la modalidad a través de granularidades para mejorar la descodificación multinivel.
  • Completación semántica de escenas eficiente con anotaciones de garabatos. Un novedoso método de compleción semántica de escenas denominado Scribble2Scene reduce la necesidad de un etiquetado exhaustivo.
  • Clasificador semántico y espacial adaptable a nivel de píxel para la segmentación semántica. Las limitaciones de la segmentación semántica se han abordado con la introducción de un nuevo clasificador adaptativo semántico y espacial (SSA). Este novedoso método hace uso de máscaras gruesas para dirigir el ajuste del prototipo, mejorando el reconocimiento de grano fino y delineando los límites de las máscaras.
  • RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model. Al integrar la extracción de edificios y la detección de cambios en un único modelo, RSBuilding presenta un método novedoso para descifrar edificios a partir de fotos de teledetección.
  • Meteor: travesía basada en Mamba del razonamiento para grandes modelos lingüísticos y de visión. Esta investigación presenta Meteor, un novedoso modelo masivo de lenguaje y visión que es eficiente y emplea varias justificaciones para mejorar la comprensión y los tiempos de respuesta.
  • Zip predice leyes de escalado dependientes de los datos. Las reglas de escalado permiten predecir el rendimiento de los modelos a tamaños específicos con una cantidad dada de datos. Obtenerlas es costoso. Para predecir una ley de escalado dependiente de los datos, esta investigación estudia el uso de la relación de compresión gzip como señal potente.
  • El camino menos programado. Unas semanas antes, un nuevo optimizador de Meta circulaba como posible sustituto de Adam. El método, incluida la parte relativa a las actualizaciones en línea, se describe en mayor profundidad en este artículo. En general, parece un buen resultado, sobre todo en los casos en los que no se conoce el número completo de pasos de entrenamiento previstos al inicio del proceso de entrenamiento.
  • Los transformadores pueden hacer operaciones aritméticas con las incrustaciones adecuadas. Los investigadores han añadido incrustaciones que codifican la posición de cada dígito con respecto al inicio del número, lo que ha mejorado el rendimiento de los transformadores en tareas aritméticas.DMPlug: Un método complementario para resolver problemas inversos con modelos de difusión.DMPlug es una nueva técnica complementaria que resuelve problemas inversos (PI) utilizando modelos de difusión (DM) previamente entrenados. DMPlug aborda eficientemente tanto la viabilidad del múltiple como la viabilidad de la medida tratando el proceso de difusión inversa como una función, en contraste con otras técnicas de intercalación.
  • PatchScaler: Un modelo eficiente de difusión independiente del parche para la superresolución. PatchScaler es una técnica basada en la difusión que mejora enormemente la eficacia de la inferencia para la superresolución (SR) de una sola imagen.
  • Reason3D: Búsqueda y razonamiento de segmentación 3D mediante un gran modelo de lenguaje. Se ha creado un revolucionario modelo de gran lenguaje multimodal llamado Reason3D para la comprensión exhaustiva de entornos 3D.
  • Yuan 2.0-M32: Mezcla de Expertos con Router de Atención. Un modelo de Mezcla de Expertos con 40B de parámetros y 3,7B activos en todo momento es Yuan 2.0-M32. Aunque sólo utiliza una 19ª parte del cálculo, su rendimiento es similar al de Llama 3 70B. Parece extraordinariamente potente teniendo en cuenta su tamaño, ya que se ha entrenado con 2T de fichas.
  • Leyes de escalado y entrenamiento óptimo más allá de duraciones de entrenamiento fijas. La programación de la tasa de aprendizaje Coseno empleada en las publicaciones de las leyes de escalado originales impide una pérdida óptima si el periodo Coseno no está en línea con el número total de pasos de entrenamiento. Por este motivo, resulta difícil entrenar suficientes modelos para producir leyes de escalado útiles. Con el fin de minimizar los costes de GPU para el desarrollo de leyes de escalado, este estudio presenta el concepto de una tasa de aprendizaje constante con un enfriamiento.
  • Hacia la eliminación de imágenes de ultra alta definición: Una referencia y un método eficiente. Para abordar el problema de la extracción de fotografías de ultra alta definición (UHD), los investigadores han publicado un nuevo conjunto de datos denominado 4K-Rain13k, que consta de 13.000 pares de imágenes de resolución 4K.
  • EasyAnimate, una solución integral para la generación de vídeos largos y de alta resolución. Los transformadores se utilizan en el método EasyAnimate para modificar la arquitectura DiT para la producción avanzada de vídeo en 3D. Para captar la dinámica temporal y garantizar transiciones de movimiento fluidas y fotogramas coherentes, este proyecto integra un bloque de módulo de movimiento.
  • Modelos lingüísticos autoexplorables (SELM). La retroalimentación en línea se utiliza en los modelos lingüísticos autoexplorables (SELM), una técnica que mejora la optimización de preferencias en los LLM.
  • T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback. Cuando se aplica a modelos de vídeo, la destilación de consistencia reduce significativamente el número de procesos necesarios para producir contenidos.

Noticias

Recursos

  • Mistral-finetune. mistral-finetune es una base de código ligera que permite un ajuste fino de los modelos de Mistral eficiente en cuanto a memoria y rendimiento. Se basa en LoRA, un paradigma de entrenamiento en el que la mayoría de los pesos se congelan y sólo se entrena un 1-2% de pesos adicionales en forma de perturbaciones matriciales de bajo rango.
  • Modula. Una novedosa técnica denominada norma modular permite a las redes neuronales escalar el entrenamiento de forma eficaz en un rango de tamaños de red mediante la normalización de las actualizaciones de pesos.
  • MobileNet-V4. MobileNet es un modelo de visión por ordenador extremadamente rápido y eficaz. Los dispositivos periféricos pueden ejecutarlo. Este artículo de blog describe el nuevo modelo y algunas modificaciones contemporáneas que se le han hecho.
  • Características multidimensionales. Este proyecto desafía la hipótesis de la representación lineal examinando si los modelos lingüísticos computan utilizando características multidimensionales.
  • Llamafile 0.8.6, referencia para CPU. Gracias a los últimos avances del proyecto Llamafile de Mozilla, ahora es posible ejecutar la inferencia del modelo insignia de Mistral a 20 tokens por segundo en una CPU básica.
  • Riesgos y oportunidades de la IA generativa de código abierto. Examina el potencial y los peligros asociados a los modelos de IA generativa de código abierto y defiende que las ventajas generales de estos modelos superan sus inconvenientes.
  • How Far Are We From AGI. ofrece un resumen de las tácticas necesarias para alcanzar la inteligencia general artificial (AGI), incluyendo un estudio exhaustivo, un debate y puntos de vista únicos. También aborda cuestiones importantes relativas al futuro próximo de la AGI.
  • Efficient Multimodal LLMs. Ofrece un análisis exhaustivo y metódico del estado actual de los grandes modelos lingüísticos multimodales eficientes; abarca aplicaciones, limitaciones, posibles direcciones futuras y estructuras y técnicas eficientes.
  • Scientific Applications of LLMs. Presenta INDUS, un conjunto completo de LLM que incluye pequeños modelos destilados, un modelo codificador y modelos de incrustación para las ciencias de la Tierra, la biología, la física y las ciencias planetarias, entre otros temas.
  • Guide for Evaluating LLMs. Ofrece consejos y lecciones para evaluar grandes modelos lingüísticos (LLM); también cubre las mejores prácticas y los problemas potenciales, e introduce un marco de código abierto para la evaluación de LLM.
  • Marigold Pipelines para tareas de visión por computadora. Los difusores ahora pueden utilizar uno de los mejores modelos de profundidad como tubería. Este tutorial explica cómo utilizar el modelo, qué puede hacer con él y cómo acondicionar las latentes del primer cuadro para que funcione con videos sin esfuerzo.
  • Reproducción de GPT-2 (124M) en llm.c en 90 minutos por 20 dólares. Andrej Karpathy ha puesto a disposición una versión de LLM C, una implementación GPT-2 autónoma y solitaria diseñada para replicar el conjunto de modelos de 2019. La biblioteca puede entrenar el más simple de estos modelos en aproximadamente 90 minutos con esta última versión. Tiene pocas dependencias y se ejecuta de principio a fin.
  • Desacoplamiento de estilo de contenido para transferencia de maquillaje no supervisada sin generar pseudoverdad fundamental. Una técnica innovadora para mejorar las tareas de transferencia de maquillaje sin depender de imágenes de destino genuinas es la transferencia de maquillaje desacoplada por estilo de contenido (CSD-MT). LaVague.LaVague es un marco de modelo de acción grande de código abierto para desarrollar agentes web de IA. Nuestros agentes web toman un objetivo, como «Imprimir los pasos de instalación para la biblioteca de difusores de Hugging Face» y realizan las acciones necesarias para lograr este objetivo aprovechando nuestros dos componentes principales.
  • PRISMA: Un modelo básico para la química de la vida. El modelo PRISM (Representaciones preentrenadas informadas por enmascaramiento espectral) de Enveda se entrenó en 1.200 millones de espectros de masas de moléculas pequeñas, el mayor conjunto de entrenamiento de espectros de masas de moléculas pequeñas jamás ensamblado.
  • Escalar la clasificación privada. Scale ha creado una tabla de clasificación de evaluación de modelos de lenguaje privado. Aunque el orden no es tan sorprendente, vale la pena señalar que el Llama 3 70B frecuentemente supera a Claude Opus en términos de seguimiento de instrucciones.
  • controlnet-scribble-sdxl-1.0. Dibujar líneas aleatorias se puede utilizar como datos condicionantes para la creación de imágenes utilizando Scribble ControlNet. Tiene un rendimiento sólido y se entrenó en una cantidad significativamente mayor de fotografías posteriores al entrenamiento que otros ControlNets.

Perspectivas

  • La revolución de la comunicación de la IA: ahora todos hablamos con las computadoras. El modelo de IA más reciente de OpenAI, GPT-4o, permite la comunicación en tiempo real entre personas y máquinas agregando visión y audio a sus capacidades basadas en texto. La revolución de la IA trae consigo una nueva ola de interacciones entre los humanos y la IA y, finalmente, la propia IA. Estas interacciones probablemente tendrán un impacto en nuestros hábitos sociales y estructuras comerciales. El impacto de esta tecnología en la comunicación humana se desarrollará a medida que avance, posiblemente estimulando el desarrollo de negocios y software creativos.
IA
  • Maneras de pensar sobre AGI. El consenso no es claro porque no existe un modelo teórico bien desarrollado de inteligencia general ni una explicación clara de por qué o cómo los LLM funcionan tan bien, a pesar de que algunos expertos piensan que la AGI puede lograrse. La conversación destaca la enorme cantidad de preguntas sin respuesta que rodean a AGI, reconociendo tanto sus posibles ventajas como desventajas al mismo tiempo que establece comparaciones entre la teología y la metodología empírica del Programa Apolo.
  • La revolución de la IA llega a los robots: ¿cómo los cambiará? La combinación de inteligencia artificial y robótica podría catapultar a ambas a nuevas alturas.
  • Lo que ilustra GPT-4o sobre la regulación de la IA. Este artículo compara y contrasta los marcos a nivel de modelo, nivel de uso y nivel de conducta para analizar varios enfoques para la regulación de la IA. Sostiene que la regulación a nivel de uso, que puede generar una complejidad innecesaria y limitaciones inviables para el despliegue de la IA, es inferior a la regulación a nivel de conducta, que aplica las leyes actuales a las nuevas tecnologías con una precisión mínima. Un ejemplo de los inconvenientes de un enfoque a nivel de usuario son las limitaciones impuestas a la capacidad de la IA para inferir emociones por la reciente Ley de IA de la UE.
  • ¿Cómo “piensa” ChatGPT? La psicología y la neurociencia abren grandes modelos de lenguaje de IA. Los investigadores se esfuerzan por aplicar ingeniería inversa a la inteligencia artificial y escanear los «cerebros» de los LLM para ver qué están haciendo, cómo y por qué.
  • El sesgo angloamericano podría hacer de la IA generativa una jaula intelectual invisible. Los estudios muestran que las aplicaciones de inteligencia artificial (IA) generativa, como ChatGPT y otros grandes modelos lingüísticos, funcionan notablemente bien en inglés, pero no son tan competentes en otros idiomas. Esto enmascara un problema más insidioso.
  • La IA no se comerá tu trabajo, pero sí tu salario. La IA plantea un peligro para la prima de habilidades asociada con las tareas, así como para la existencia de los empleos en sí, lo que podría resultar en una menor remuneración para los trabajadores calificados. La IA tiene el potencial de reorganizar las tareas laborales y reducir los obstáculos para completar las tareas, lo que resultaría en una mercantilización y una reducción en la capacidad de exigir un salario superior. Las ventajas gerenciales también pueden desaparecer a medida que se desarrolla la IA, particularmente a través de agentes de IA, lo que pondría a prueba la ventaja del ser humano en el circuito y erosionaría aún más las primas de habilidades.
  • “Todos los ojos puestos en Rafah”: cómo las imágenes generadas por IA se extendieron por las redes sociales. Las publicaciones de celebridades sobre gráficos posteriores al ataque de las FDI ayudan a que se encuentre entre el contenido más compartido de la guerra entre Israel y Gaza.

The post Noticias mensuales sobre IA y ML – junio 2024 first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/noticias-mensuales-sobre-ia-y-ml-junio-2024/feed/ 0
OpenELM puede ser el fin de Siri https://desa.planetachatbot.com/openelm-puede-ser-fin-de-siri/?utm_source=rss&utm_medium=rss&utm_campaign=openelm-puede-ser-fin-de-siri https://desa.planetachatbot.com/openelm-puede-ser-fin-de-siri/#respond Tue, 18 Jun 2024 06:00:59 +0000 https://desa.planetachatbot.com/?p=17855 Cuando Siri se lanzó en 2011, parecía casi ciencia ficción. Siri es un asistente intuitivo que con comandos de voz permite a los usuarios acceder a información, enviar mensajes y mucho más. Con el paso del tiempo, la reputación de Siri ha decaído definitivamente; a pesar de las actualizaciones de Apple, se ha quedado rezagada […]

The post OpenELM puede ser el fin de Siri first appeared on Planeta Chatbot.

]]>
Cuando Siri se lanzó en 2011, parecía casi ciencia ficción. Siri es un asistente intuitivo que con comandos de voz permite a los usuarios acceder a información, enviar mensajes y mucho más. Con el paso del tiempo, la reputación de Siri ha decaído definitivamente; a pesar de las actualizaciones de Apple, se ha quedado rezagada con respecto a sus rivales. Hoy Siri parece estar años luz por detrás de otros asistentes, especialmente en contexto, comprensión e integración.

Parece extraño decirlo, pero Apple lleva 30 años pensando en interacciones de voz entre humanos y ordenadores. Ya en 1987 se habló de la interacción por voz entre humanos y ordenadores en un vídeo.

Si llevan más de 30 años pensando en ello, ¿por qué Siri está hoy tan atrasada?

En cualquier caso, Siri no es un producto original de Apple, sino que fue adquirido e integrado.

Después de que Apple comprara Siri, la gigantesca compañía pareció tratarla como un remanso, limitándola a realizar sólo unas pocas tareas, que fueron aumentando lentamente, como informarte del tiempo, los resultados deportivos, la cartelera de cine y restaurantes, y controlar las funciones del dispositivo. Sus fundadores, descontentos, han abandonado Apple para crear un nuevo servicio de IA llamado Viv (Fuente).

Como ya hemos dicho, Apple se ha mantenido al margen de la IA generativa durante los dos últimos años. Pero algo parece estar cambiando en los últimos tiempos.

Apple parece haberse dado cuenta de la existencia de la IA generativa y haberse movido tarde. El interés de Apple no parece estar en competir en el mismo mercado que Google y OpenAI. Los últimos rumores y artículos publicados por Apple no parecen encaminarse hacia la construcción de un gigantesco Large Language Model (LLM). Hace unos días Apple, presentó un nuevo modelo en código abierto: OpenELM.
Estos modelos son bastante pequeños en tamaño (el más grande llega hasta 3B parámetros) como se puede ver en HuggingFace.

Apple’s OpenELM

Los autores publicaron 4 modelos con un número creciente de parámetros. También publicaron el código y varias versiones de estos modelos, incluidos modelos más sensibles a las preguntas de los usuarios (ajustados a las instrucciones). En palabras de los autores, estos modelos son superiores a los que se encuentran en código abierto:

Es importante destacar que OpenELM supera a los LLM abiertos existentes que están preentrenados utilizando conjuntos de datos disponibles públicamente (Fuente).

Los modelos se entrenaron con 1,8 billones de tokens extraídos de varios conjuntos de datos disponibles (una mezcla de artículos científicos, códigos, páginas web, libros y redes sociales).

Apple’s OpenELM

El modelo tiene un rendimiento muy bueno si se compara con modelos del mismo tamaño (como OLMO), pero al mismo tiempo este rendimiento del modelo no es impresionante.

Apple’s OpenELM

Uno de los puntos más interesantes es que estos modelos se han publicado con una licencia permisiva. Los modelos pueden utilizarse para aplicaciones comerciales siempre que se mantenga la exención de responsabilidad de Apple.

Por lo general, Apple es bastante reservada con su tecnología y suele ser de «código cerrado». En cambio, esta plantilla sigue una serie de lanzamientos de código abierto por parte de Apple.

La LLaMA3 de Meta fue liberada en la versión 8B (como una versión más pequeña), mientras que Apple no va más allá de la 3B. ¿Por qué?

Parece más o menos claro que Apple está empezando a centrarse en la IA generativa en dispositivos. Estos modelos parecen haber sido construidos para el rendimiento de los dispositivos (como los teléfonos móviles y como los ordenadores).

Según parece, Apple pretende llevar la IA a los iPhones y esto será en las próximas versiones de iOS. No necesariamente desarrollada internamente, sino también en colaboraciones. Según mencionan varias fuentes, parece que Apple está en conversaciones tanto con Google como con OpenAI:

Según Bloomberg, Apple y OpenAI discutieron un posible acuerdo a principios de este año. Esas conversaciones se han reabierto desde entonces, según personas con conocimiento del asunto. El posible acuerdo podría versar sobre la integración de OpenAI en iOS 18 (Fuente).

Si Apple realmente quiere llevar la IA generativa a iOS, ¿qué función se beneficiaría más de un LLM?

Pues Siri es la respuesta.

Puede que Apple le tenga cariño al nombre Siri (y a su marca) pero su estrella se ha vuelto cada vez más aburrida. Para algunos, es hora de jubilar a Siri y utilizar una aplicación LLM con otro nombre.

Por muy revolucionaria que fuera Siri hace años, hoy en día se ha convertido en el blanco de diferentes bromas (mira este vídeo). Tal vez, los LLM podrían ser otra excelente víctima. Siri.

Pronto tendremos un asistente de IA en los iPhones, la cuestión es si se llamará Siri o tendrá otro nombre (y si se llama Siri cómo se lo tomará).

Reference

Aquí comparto las principales referencias que he utilizado a lo largo de este artículo:

  1. Mehta, 2024, OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework:link.
  2. Reuters, 2024, Apple renews talks with OpenAI for iPhone generative AI features, Bloomberg News
    reports: link.
  3. Reuters, 2024, Apple in talks to let Google’s Gemini power iPhone AI features, Bloomberg News says: link.
  4. Vuruma, 2024, From Cloud to Edge: Rethinking Generative AI for Low-Resource Design Challenges: link.
  5. Groeneveld, 2024, OLMo: Accelerating the Science of Language Models: link.

The post OpenELM puede ser el fin de Siri first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/openelm-puede-ser-fin-de-siri/feed/ 0
Cómo los investigadores dotaron a la IA de un monólogo interior https://desa.planetachatbot.com/como-investigadores-dotaron-a-ia-de-monologo-interior/?utm_source=rss&utm_medium=rss&utm_campaign=como-investigadores-dotaron-a-ia-de-monologo-interior https://desa.planetachatbot.com/como-investigadores-dotaron-a-ia-de-monologo-interior/#respond Thu, 11 Apr 2024 06:00:47 +0000 https://desa.planetachatbot.com/?p=17337 Tu mente sólo sabe algunas cosas. Tu voz interior, tu instinto, lo sabe todo. Si escuchas lo que sabes instintivamente, siempre te llevará por el buen camino. – Henry Winkler La conciencia es la voz interior que nos avisa de que alguien podría estar mirando. – H. L. Mencken Los seres humanos no lo comunicamos […]

The post Cómo los investigadores dotaron a la IA de un monólogo interior first appeared on Planeta Chatbot.

]]>
Tu mente sólo sabe algunas cosas. Tu voz interior, tu instinto, lo sabe todo. Si escuchas lo que sabes instintivamente, siempre te llevará por el buen camino. – Henry Winkler

La conciencia es la voz interior que nos avisa de que alguien podría estar mirando. – H. L. Mencken

Los seres humanos no lo comunicamos todo con palabras, y lo que decimos tiene sentido entre líneas. Tanto si se trata de un simpático comentario sarcástico disfrazado de inocente cumplido como si es veladamente una mentira. Depende del lector o del oyente comprender lo que hay más allá del significado de una cadena de palabras juntas.

Gran parte del significado de un texto se esconde entre líneas: sin entender por qué aparecen las afirmaciones en un documento, el lector sólo tiene una comprensión superficial. (fuente)

Los humanos destacamos en la comprensión de estos mensajes ocultos (o al menos la mayoría de nosotros). Los LLM son excelentes a la hora de encontrar patrones en los datos, pero tienen dificultades con los matices del razonamiento o los mensajes implícitos.

En un estudio anterior, los autores crearon un conjunto de datos para la generación de razonamientos y afinaron un modelo sobre este conjunto de datos. Esto se debe a que varios trabajos muestran que el razonamiento intermedio explícito («rationales») puede ayudar al modelo a resolver una tarea. Por ello, los autores crearon manualmente este conjunto de datos. Una alternativa a la creación de estos razonamientos es pedir al modelo que cree razonamientos de forma iterativa mediante bootstrap. El proceso es iterativo y se utiliza para refinar las capacidades del modelo:

En concreto, pedimos a un gran modelo lingüístico que autogenere razonamientos y refinamos la capacidad del modelo afinando aquellos razonamientos que conducen a respuestas correctas. Repetimos este procedimiento, utilizando cada vez el modelo mejorado para generar el siguiente conjunto de entrenamiento. (fuente)

Quiet-STaR LLM inner monologue

Además del reentrenamiento, este enfoque aprovecha la capacidad de un modelo para aprender del contexto o in-context learning.

Sin embargo, este enfoque tiene limitaciones porque de vez en cuando el modelo sigue sin resolver los problemas porque a veces no encuentra una solución. Para solucionar esto, los autores proponen la racionalización: cuando el modelo falla, generan un nuevo razonamiento proporcionando al modelo la respuesta correcta.

Esto permite al modelo razonar hacia atrás: dada la respuesta correcta, el modelo puede generar más fácilmente un razonamiento útil. Estos razonamientos se recogen entonces como parte de los datos de entrenamiento, lo que a menudo mejora la precisión general. Así, desarrollamos el método del Razonador Autodidacta (STaR, Fig. 1), un método escalable de bootstrapping que permite a los modelos aprender a generar sus propios razonamientos, al tiempo que aprenden a resolver problemas cada vez más difíciles. (fuente)

De este modo, si el modelo responde correctamente, se crean estos razonamientos y si no resuelve se utiliza la racionalización, con lo que finalmente el modelo se afina en este conjunto de datos.

Obviamente, tener que contar con un conjunto de datos de partida limita la generalización y la escala del sistema. Un buen conjunto de datos tiene que ser conservado y sólo cubre un subconjunto de preguntas y temas, además de ser caro. Partiendo de este planteamiento anterior, en un nuevo trabajo los autores pretenden que el modelo genere un razonamiento para que sea capaz de afrontar nuevos retos más allá de los ya vistos.

A grandes rasgos, Quiet-STaR procede generando razonamientos después de cada token para explicar el texto futuro (pensar), mezclando las predicciones del texto futuro con y sin razonamientos (hablar), y luego aprendiendo a generar mejores razonamientos mediante REINFORCE (aprender). 

Quiet-STaR LLM inner monologue

En otras palabras, dotaron al LLM de un monólogo interno.

para introducir el razonamiento (o su capacidad) dentro del modelo. Así, en este caso, el modelo genera pensamientos (racionales) para cada fragmento de texto. La idea es imitar la forma en que razonamos los humanos, en la que hacemos pausas y reflexiones. Los humanos sopesamos las palabras antes de responder (o al menos la mayoría de ellas).

El planteamiento es, por tanto, interesante porque se trata de una especie de autorreflexión. Además, el proceso se optimiza mediante aprendizaje por refuerzo para seleccionar qué pensamientos son más útiles en futuras predicciones de texto. Los resultados demuestran que el modelo obtiene resultados satisfactorios en tareas de razonamiento habituales. Todo ello sin necesidad de una tarea específica de puesta a punto, como se hace con otros modelos. Se trata, de hecho, de un primer paso hacia una aproximación directa al razonamiento universal.

Une image contenant texte, capture d’écran, ligne, diagramme

Description générée automatiquement

Los resultados pueden no parecer impresionantes porque hay modelos que obtienen mejores resultados en estas pruebas de referencia. Aquí, sin embargo, los autores utilizan un modelo mucho más pequeño (sólo 7B parámetros). ChatGPT y Gemini han fallado espectacularmente en ocasiones con razonamientos comunes, por lo que cabe preguntarse qué ocurriría si se utilizara un enfoque similar con modelos mucho mayores.

Quiet-STaR representa un paso adelante hacia modelos lingüísticos capaces de aprender a razonar de forma general y escalable. Al entrenarse en el rico espectro de tareas de razonamiento implícitas en diversos textos web, en lugar de especializarse estrechamente para conjuntos de datos concretos, Quiet-STaR señala el camino hacia modelos lingüísticos más robustos y adaptables. (fuente)

Así pues, el planteamiento es interesante porque el modelo comprende mejor los matices del texto humano. Esto se debe a un enfoque que se inspira en cómo razonamos los humanos.

Se trata de un paso tanto en la dirección de un modelo que puede aplicar lo que aprende incluso a tareas para las que no ha sido entrenado, como en la de interactuar más eficazmente con nosotros, los humanos.

Tales modelos pueden ser útiles en las interacciones con los humanos; serían más receptivos que el mensaje del texto y garantizarían así una experiencia más atractiva.


Si te ha parecido interesante:

Puedes buscar mis otros artículos, y también puedes conectar o ponerte en contacto conmigo en LinkedIn. Consulta este repositorio con noticias actualizadas semanalmente sobre ML e IA. Estoy abierto a colaboraciones y proyectos y puedes contactar conmigo en LinkedIn.

Aquí está el enlace a mi repositorio GitHub, donde estoy recopilando código y muchos recursos relacionados con el aprendizaje automático, la inteligencia artificial, y más.

The post Cómo los investigadores dotaron a la IA de un monólogo interior first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/como-investigadores-dotaron-a-ia-de-monologo-interior/feed/ 0
Razonamiento indirecto para LLMs: No siempre hay un camino directo a la respuesta https://desa.planetachatbot.com/razonamiento-indirecto-para-llms-no-siempre-hay-camino-directo-a-respuesta/?utm_source=rss&utm_medium=rss&utm_campaign=razonamiento-indirecto-para-llms-no-siempre-hay-camino-directo-a-respuesta https://desa.planetachatbot.com/razonamiento-indirecto-para-llms-no-siempre-hay-camino-directo-a-respuesta/#respond Wed, 03 Apr 2024 06:00:16 +0000 https://desa.planetachatbot.com/?p=17301 Para cada problema complejo hay una respuesta clara, sencilla y equivocada. – H. L. Mencken Hay muchas técnicas prompt engineering, pero muchas de ellas tienen algo en común: el razonamiento directo. ¿Qué ocurre si intentamos lo contrario? ¿Podemos encontrar una solución a problemas que antes el modelo no podía resolver? En este artículo hablamos de […]

The post Razonamiento indirecto para LLMs: No siempre hay un camino directo a la respuesta first appeared on Planeta Chatbot.

]]>
Para cada problema complejo hay una respuesta clara, sencilla y equivocada. – H. L. Mencken

Hay muchas técnicas prompt engineering, pero muchas de ellas tienen algo en común: el razonamiento directo. ¿Qué ocurre si intentamos lo contrario? ¿Podemos encontrar una solución a problemas que antes el modelo no podía resolver?

En este artículo hablamos de ello.

Razonamiento directo frente a indirecto

direct versus indirect reasoning LLMs

Los grandes modelos lingüísticos (LLM) han demostrado una capacidad increíble incluso en tareas complejas como la comprensión del lenguaje, el razonamiento lógico y el razonamiento matemático. El éxito de estos modelos es aún más increíble si se tiene en cuenta que lo han conseguido con técnicas zero-shot o few-shot way. Esto significa que los modelos son capaces de aprender del contexto (aprendizaje dentro del contexto).

Esto ha hecho que varios grupos se centren en intentar comprender cómo aumentar estas capacidades de los modelos, por lo que han surgido técnicas como la Cadena de Pensamiento (CoT) y muchas otras.

La cadena de pensamiento (CoT) anima al modelo a explicar los distintos pasos intermedios que conducen a la solución final. La idea es que, desplegando los distintos pasos, el modelo pueda llegar correctamente a la solución final (mientras que si salta directamente a la conclusión, el modelo suele equivocarse).

CoT y otras técnicas siguen lo que se denomina el marco del Razonamiento Directo (DR), en el que se crean cadenas lógicas desde los hechos dados hasta el resultado final. El problema de este enfoque es que no todos los problemas pueden resolverse de esta manera. Así que surge la pregunta: si nos enfrentamos a un problema que no puede resolverse, ¿podemos recurrir al razonamiento indirecto (IR)?

El razonamiento indirecto (IR) es un enfoque complementario y alternativo para resolver problemas. Uno de los métodos más utilizados consiste en explotar procedimientos lógicos para demostrar que dos proposiciones son equivalentes. Por ejemplo, se puede demostrar que una proposición es verdadera suponiendo que es falsa y llegando a una contradicción: p → q y su contrapositiva ¬q → ¬p, si demostramos que ¬q → ¬p conducen a una contradicción

direct versus indirect reasoning LLMs

Razonamiento indirecto para resolver problemas

G. H. Hardy describió la prueba por contradicción como «una de las mejores armas de un matemático», diciendo: «Es un gambito mucho más fino que cualquier gambito de ajedrez: un jugador de ajedrez puede ofrecer el sacrificio de un peón o incluso de una pieza, pero un matemático ofrece la partida» (wikipedia).

El razonamiento indirecto es un sistema explotado por los humanos y podría ser explotado por los modelos para poder resolver diversos problemas en los que fallan las técnicas de razonamiento directo. ¿Cómo conseguir que los LLM se beneficien del IR?

Un nuevo estudio muestra cómo esto es posible simplemente utilizando un nuevo tipo de prompt.

En matemáticas y en algunas aplicaciones prácticas, hay circunstancias en las que la demostración directa puede no ser factible o eficaz. En tales casos, a menudo se utilizan los métodos de demostración indirecta para verificar una afirmación. Existen dos métodos populares de prueba indirecta, que son: el método contrapositivo y el método de contradicción (fuente).

La idea de los autores es explotar tanto las contradicciones como los contrastes para dirigir un modelo hacia la solución cuando no es posible obtener pruebas directas. El objetivo de los autores es permitir que el modelo realice razonamientos factuales en lenguaje natural: teniendo una pregunta Q hay que llegar a una respuesta A mediante un razonamiento P que explote los hechos conocidos F y las reglas R (las reglas suelen formar parte del conocimiento previo y no necesariamente se hacen explícitas).

direct versus indirect reasoning LLMs

¿Cómo adaptar el razonamiento indirecto a un LLM?

Para los autores, el proceso se divide en dos partes:

  • Rule augmentation. En este paso, se pide al modelo que aumente el conjunto de reglas.
  • Indirect reasoning. Recibidos los hechos, las reglas y las preguntas, el modelo realiza un razonamiento indirecto.

Por tanto, los autores definen un modelo de zero-shot y un few-shot template para prompts, por lo que los IR puedan utilizarse con un LLM.

direct versus indirect reasoning LLMs

La evaluación del rendimiento del razonamiento de un método incluye la investigación de la corrección de la respuesta A y el proceso de razonamiento P. Por lo tanto, aquí utilizamos tres métricas: la precisión de la respuesta (AA), la precisión de los procesos de razonamiento (AP) y la precisión global (OA) (fuente).

Los autores definen prácticamente tres métricas basadas en el número de ejemplos con respuestas correctas, proceso correcto y ambos correctos.

Los autores utilizan tanto COT como autoconsistencia además de su prompt para ver cómo cambia el modelo en respuesta al razonamiento indirecto. Utilizan tanto GPT-3.5 como Gemini como modelos y los prueban en conjuntos de datos tanto de lenguaje natural como matemático.

Por ejemplo, lo prueban en un conjunto de datos de preguntas en lenguaje natural (ProofWriter) y otro de problemas matemáticos (ProofMath) en los que es necesario utilizar pruebas de contradicción para resolver los problemas. El uso de IR aumenta las capacidades del modelo a la hora de resolver este tipo de problemas.

direct versus indirect reasoning LLMs

Otro resultado interesante es que el aumento de reglas también ayuda al modelo, incluso sólo con DR.

direct versus indirect reasoning LLMs

Además, otra ventaja es que este enfoque reduce los pasos para llegar a la conclusión (el proceso es, por tanto, más rápido).

direct versus indirect reasoning LLMs

Reflexiones de despedida

direct versus indirect reasoning LLMs

En los últimos tiempos, se han adoptado ampliamente diversos LLM para resolver tareas como el razonamiento factual, la generación de diálogos y la generación de contenidos multimodales. Estos enfoques han generado un notable valor económico e impacto social en múltiples aplicaciones (fuente).

Los LLM han entrado en producción en la actualidad y son utilizados por el público; por un lado, estos modelos siguen teniendo problemas con el razonamiento factual. A lo largo del tiempo se han desarrollado varias técnicas para mejorar la capacidad de razonamiento de los modelos. Esas técnicas explotan procesos denominados razonamiento directo, aquí los autores muestran que hay problemas que no pueden resolverse con DR pero que se benefician del razonamiento indirecto.


Si te ha parecido interesante:

Puedes buscar mis otros artículos, y también puedes conectar o ponerte en contacto conmigo en LinkedIn. Consulta este repositorio con noticias actualizadas semanalmente sobre ML e IA. Estoy abierto a colaboraciones y proyectos y puedes contactar conmigo en LinkedIn.

Aquí está el enlace a mi repositorio GitHub, donde estoy recopilando código y muchos recursos relacionados con el aprendizaje automático, la inteligencia artificial, y más.

The post Razonamiento indirecto para LLMs: No siempre hay un camino directo a la respuesta first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/razonamiento-indirecto-para-llms-no-siempre-hay-camino-directo-a-respuesta/feed/ 0
OpenAI Sora: Bienvenido a un mundo simulado https://desa.planetachatbot.com/openai-sora-bienvenido-a-mundo-simulado/?utm_source=rss&utm_medium=rss&utm_campaign=openai-sora-bienvenido-a-mundo-simulado https://desa.planetachatbot.com/openai-sora-bienvenido-a-mundo-simulado/#respond Thu, 07 Mar 2024 06:00:01 +0000 https://desa.planetachatbot.com/?p=17108 «Las herramientas de IA generativa están evolucionando tan rápidamente, y tenemos la red social – que conduce a un talón de Aquiles en nuestra democracia y no podría haber ocurrido en peor momento» – Oren Etzioni Cuando salió DALL-E cambió la forma en que el público en general veía la inteligencia artificial, más allá de […]

The post OpenAI Sora: Bienvenido a un mundo simulado first appeared on Planeta Chatbot.

]]>
«Las herramientas de IA generativa están evolucionando tan rápidamente, y tenemos la red social – que conduce a un talón de Aquiles en nuestra democracia y no podría haber ocurrido en peor momento» Oren Etzioni

Cuando salió DALL-E cambió la forma en que el público en general veía la inteligencia artificial, más allá de la gran importancia técnica, la idea de que escribiendo texto podíamos generar imágenes ha reconfigurado nuestra imaginación.

Evidentemente, esto llevó a acelerar la búsqueda de modelos capaces de generar imágenes a partir de texto. Rápidamente Google publicó Imagen, y la propia comunidad de código abierto publicó un gran número de modelos. Sin embargo, DALL-E puso la semilla, estimulando la respuesta de investigadores y empresas. ChatGPT tuvo el mismo efecto: Google temía quedarse atrás y estimuló docenas de grandes modelos lingüísticos.

Esta semana, OpenAI ha publicado Sora: una nueva herramienta de IA Generativa que permite pasar de texto a vídeo. Veremos por qué es importante este modelo, el avance técnico que hay detrás y hablaremos del futuro. Mientras tanto, echemos un vistazo a lo que puede hacer este modelo:

Presentamos Sora, nuestro modelo de conversión de texto en vídeo. Sora puede generar vídeos de hasta un minuto de duración manteniendo la calidad visual y la adherencia a la indicación del usuario (fuente).

Pues Sora es un modelo capaz de generar vídeos a partir de texto. Vídeos de hasta un minuto de duración, pero lo más importante es que lo hace con una calidad increíble, impensable hasta ahora.

Pero, ¿cómo lo hace?

En este caso, OpenAI ha publicado un informe técnico. Como ya es tradición, estos informes técnicos son muy amplios y solo dan una idea general de cómo funciona el modelo.

Empecemos por el hecho de que Sora no sólo es capaz de generar vídeo:

  • Texto a vídeo. Vídeo que puede ser en diferentes formatos (de 1920 x 1080 a 1080 x 1920 y todo lo demás) y de hasta un minuto de duración.
  • Imagen a vídeo. Puede partir de una imagen.
  • Vídeo a vídeo. Cambiar el estilo de un vídeo (básicamente edición de vídeo).
  • Extender el vídeo en el tiempo. Ya sea hacia delante o hacia atrás, o crear bucles sin fin.
  • Generar imágenes.
  • Simular mundos.

Muchos de los modelos actuales son capaces de producir vídeos excelentes, pero o son muy cortos o sólo se dedican a castigar un tipo concreto de vídeo, necesitan formatos específicos y, en cualquier caso, están muy limitados por el algoritmo que tienen detrás. Sora, en cambio, es flexible tanto en datos como en funcionalidad.

Esto se puede notar aquí (en comparación con Pika, Runway y Leonardo):

Sora es un modelo de difusión, que genera un vídeo partiendo de uno que parece ruido estático y lo transforma gradualmente eliminando el ruido a lo largo de muchos pasos. (Fuente)

Sora es entonces un modelo de difusión (por tanto, como DALL-E) y lo combina con un transformador que puede analizar el texto.

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresen emociones vibrantes.

Así pues, Sora nació combinando la experiencia de OpenAI adquirida con ChatGPT y DALL-E, y esto es lo que le permite los detalles vibrantes.

¿Y la capacidad de vídeo?

Parches espaciotemporales. Un trabajo anterior de DeepMind había introducido el concepto (Google DeepMind on NaViT). En otras palabras, se trata de una extensión del Transformador de Visión (ViT). En otras palabras, en ViT la imagen se transforma en una serie de parches.

Un vídeo es una secuencia de imágenes, por lo que podría transformarse en imágenes y en una serie de parches. El problema es que un vídeo requiere muchas imágenes y, por tanto, muchos parches (y además tenemos una dimensión adicional).

El truco está en que el modelo se centra en tratar el vídeo no como una secuencia de imágenes sino como una secuencia de parches en el espacio-tiempo, esto permite aprender una representación más precisa.

OpenAI también es conocido por entrenar modelos con enormes cantidades de datos. Esta enorme diversidad de datos, tanto en cantidad como en calidad, es también uno de los factores que hacen que este modelo sea tan preciso y flexible.

OpenAI no ha publicado ni descrito el conjunto de datos de entrenamiento, pero se han hecho suposiciones. Tanto los artefactos como algunos detalles muestran que se utilizó Unreal Engine 5 para generar imágenes y texto. Por ejemplo, alguien señala: «El Sora «hombre del espacio de 30 años» tiene unos labios y un bigote que gritan metahumano Unreal».

O bien, el movimiento de las personas u otros detalles. Por un lado, tiene sentido porque permite obtener datos para el entrenamiento de una forma mucho más barata.

Sora parece seguir la ley de escalado, al aumentar el tiempo de computación los resultados mejoran. Esto significa que al aumentar el entrenamiento y los datos, el rendimiento del modelo mejorará.

Sin embargo, los resultados ya parecen increíbles, tanto en lo que se refiere al espacio tridimensional como a la permanencia de los objetos. De hecho, el modelo parece aprender el mundo físico con una precisión impresionante y los objetos parecen moverse de forma convincente en el espacio.

Descubrimos que los modelos de vídeo muestran una serie de capacidades emergentes interesantes cuando se entrenan a escala. Estas capacidades permiten a Sora simular algunos aspectos de personas, animales y entornos del mundo físico. Estas propiedades emergen sin ningún sesgo inductivo explícito para 3D, objetos, etc. – son puramente fenómenos de escala.

Según los autores, estas capacidades se derivan del entrenamiento a escala (y, por tanto, mejorarían en el futuro). Para los autores, además, se puede utilizar el modelo para simular mundos digitales. Por tanto, Sora podría revolucionar los videojuegos:

Sora puede controlar simultáneamente al jugador en Minecraft con una política básica y, al mismo tiempo, renderizar el mundo y su dinámica en alta fidelidad. (Fuente)

¿Cuándo estará disponible?

Hoy mismo, Sora está a disposición de los equipos rojos para que evalúen las zonas críticas en busca de daños o riesgos. También estamos dando acceso a una serie de artistas visuales, diseñadores y cineastas para recabar sus opiniones sobre cómo hacer avanzar el modelo para que resulte más útil a los profesionales creativos (Fuente).

Por ahora no hay fecha de lanzamiento, ni tampoco lista de espera. En el anuncio, OpenAI está evaluando la seguridad del modelo y, por ahora, sólo puede ser probado por un conjunto limitado de personas. Si estás interesado, Sam Altman está pidiendo en Twitter a sus seguidores que sugieran indicaciones y luego publicará el resultado.

¿El futuro?

El mero hecho de haber mostrado estas capacidades hará que el vídeo se dispare. Desde luego, Google ya está intentando reproducirlo. Pero hoy en día muchos grupos tienen conocimientos tanto de texto a imagen como de LLM. Probablemente alguien empezará a conectar Mistral con la difusión estable y tratará de replicar el proceso que hay detrás de Sora.

Estos modelos podrán abaratar mucho la creación de videojuegos y películas. Además, la experiencia será muy inmersiva en los videojuegos; de hecho, las elecciones del usuario podrán cambiar el propio desarrollo del mundo. Por no hablar de que estos modelos hacen que la creación de contenidos visuales sea asequible para todo el mundo.

Las implicaciones sociales podrían ser preocupantes. Las imágenes DeepFake son cada vez más convincentes (como señala este post del New York Times). Antaño, el vídeo se consideraba un testigo irrefutable de cómo sucedían los hechos, a día de hoy, ya no.

OpenAI es consciente de ello, tratando de encontrar una manera de poder aumentar la seguridad, pero afirman:

A pesar de las numerosas investigaciones y pruebas realizadas, no podemos predecir todas las formas beneficiosas en que la gente utilizará nuestra tecnología, ni todas las formas en que abusará de ella.

Sora promete redefinir nuestras interacciones con el mundo digital y simular mundos y videojuegos. Si estos mundos serán una pesadilla lo veremos en los próximos meses.


Si te ha parecido interesante: Puedes buscar mis otros artículos, y también puedes conectar o ponerte en contacto conmigo en LinkedIn. Consulta este repositorio con noticias actualizadas semanalmente sobre ML e IA.

The post OpenAI Sora: Bienvenido a un mundo simulado first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/openai-sora-bienvenido-a-mundo-simulado/feed/ 0