Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the acf domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the all-in-one-seo-pack domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wp-user-avatar domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/planetac/desa.planetachatbot.com/wp-includes/functions.php on line 6131

Warning: Cannot modify header information - headers already sent by (output started at /home/planetac/desa.planetachatbot.com/wp-includes/functions.php:6131) in /home/planetac/desa.planetachatbot.com/wp-content/plugins/all-in-one-seo-pack/app/Common/Meta/Robots.php on line 87

Warning: Cannot modify header information - headers already sent by (output started at /home/planetac/desa.planetachatbot.com/wp-includes/functions.php:6131) in /home/planetac/desa.planetachatbot.com/wp-includes/feed-rss2.php on line 8
Ignacio de Gregorio Noblejas - Planeta Chatbot https://desa.planetachatbot.com Comunidad de expertos en IA Conversacional Mon, 11 Mar 2024 09:21:11 +0000 es hourly 1 https://wordpress.org/?v=6.9.4 https://desa.planetachatbot.com/wp-content/uploads/2021/05/cropped-favicon-32x32.png Ignacio de Gregorio Noblejas - Planeta Chatbot https://desa.planetachatbot.com 32 32 Google por fin ha destronado a ChatGPT https://desa.planetachatbot.com/google-por-fin-ha-destronado-a-chatgpt/?utm_source=rss&utm_medium=rss&utm_campaign=google-por-fin-ha-destronado-a-chatgpt https://desa.planetachatbot.com/google-por-fin-ha-destronado-a-chatgpt/#respond Tue, 12 Mar 2024 06:00:28 +0000 https://desa.planetachatbot.com/?p=17166 Cuando uno ve lo que Google acaba de conseguir, no es de extrañar que OpenAI lanzara de repente Sora unas horas más tarde para distraer al mundo del hecho de que ya no están a la cabeza en el espacio de los Grandes Modelos de Lenguaje (LLM). Gemini 1.5 Pro de Google es un salto […]

The post Google por fin ha destronado a ChatGPT first appeared on Planeta Chatbot.

]]>
Cuando uno ve lo que Google acaba de conseguir, no es de extrañar que OpenAI lanzara de repente Sora unas horas más tarde para distraer al mundo del hecho de que ya no están a la cabeza en el espacio de los Grandes Modelos de Lenguaje (LLM).

Gemini 1.5 Pro de Google es un salto generacional en términos de modelos lingüísticos multimodales, o MLLM, como GPT-4 lo fue para los LLM en marzo de 2023.

En concreto, es capaz de procesar millones de palabras a la vez, vídeos de 40 minutos de duración u 11 horas de audio en cuestión de segundos con una precisión de recuperación de contexto del 99%, algo absolutamente inaudito en este campo hasta la fecha.

La era de las secuencias largas ha llegado, y con ella, un nuevo actor dominante se posiciona por primera vez frente a OpenAI.

Google, el rey, reclama su trono

En noviembre de 2022, el rey inequívoco de la industria de la IA durante más de una década, Google, vio como una empresa parcialmente desconocida (al menos para el gran público) y respaldada por Microsoft, OpenAI, lanzaba un producto, ChatGPT, que cambió por completo la narrativa y les envió a la posición de subcampeón.

Sam, el hombre más odiado del cuartel general de Google

De repente, la IA se convirtió en la tecnología más importante, pero al mismo tiempo, Google ya no era vista como la empresa puntera del sector. Sam Altman había lanzado el LLM más potente que el mundo había visto jamás, ChatGPT.

Al mismo tiempo, Google no tenía nada que ofrecer. Claro que tenían cosas en marcha dentro de su sede de Mountain View, como LAMDA, pero ni de lejos se acercaban a la calidad y la preparación de la producción que tenía ChatGPT.

¿Y lo más doloroso? ChatGPT se basaba en Transformer, una arquitectura que, para consternación de muchos accionistas de Google en ese momento, había sido creada por investigadores de Google en 2017.

En otras palabras, era como si Google hubiera estado de brazos cruzados mientras tenía la «salsa secreta» del próximo salto tecnológico en un armario polvoriento. Imperdonable. Naturalmente, Google recibió el memorándum y se puso manos a la obra.

Todos los caminos conducían a Gemini

Después de un tiempo, Google lanzó Bard, un completo y absoluto desastre si lo comparamos con el modelo GPT-4 de OpenAI que corría detrás de ChatGPT lanzado en marzo de 2023.

Ahora Google parecía aún más atrasado que nunca.

Entonces, a finales de 2023, Google finalmente lanzó Gemini 1.0, una familia de LLMs nativamente multimodales, lo que significa que fueron entrenados desde cero para procesar vídeo, imágenes y texto, además de ser capaces de generar texto, código e imágenes, lo que puso a la compañía de búsquedas al menos al nivel de GPT-4 de OpenAI, si consideramos Gemini 1.0 Ultra, el modelo más capaz.

Google

Sin embargo, si pensamos en los plazos, esto no fue nada especial.

A fin de cuentas, Gemini salió al mercado en noviembre del año pasado para competir con un producto que OpenAI había lanzado en marzo.

Como era de esperar, para evitar el desprecio de la industria, lanzaron rápidamente Alphacode 2 al mismo tiempo, un modelo revolucionario que combinaba Gemini con un algoritmo de búsqueda y cálculo en tiempo de prueba para permitir a la IA competir en el nivel superior de la programación competitiva, obteniendo un asombroso percentil del 85%.

¿Qué es el cálculo en tiempo de prueba?

La computación en tiempo de prueba significa que, para maximizar las posibilidades de obtener una respuesta correcta, Alphacode 2 genera hasta un millón de posibles respuestas a cualquier pregunta en tiempo de ejecución, y utiliza un algoritmo de búsqueda y filtrado para llegar a la mejor respuesta y responder.

En lugar de la respuesta básica del «Sistema 1» que te dan los LLM, es como si el modelo «explorara» el abanico de posibilidades hasta encontrar la mejor opción, como haría un humano.

Salvado por la campana.

Pero ahora, por fin, Google se lo ha «cargado» de verdad gracias a Gemini 1.5, hasta el punto de que OpenAI se ha visto «obligada» a lanzar Sora inmediatamente después, ya que Google ha recuperado el trono de la IA con un salto generacional en términos de rendimiento general y de secuencia larga.

Gemini, el supermodelo de largo alcance

En pocas palabras, Gemini 1.5 es impresionante.

Aunque sólo disponemos de los resultados del modelo Pro, el de tamaño medio, lo que presumiblemente indica que pronto llegará un modelo aún mejor, las puntuaciones son increíbles.

Recordatorio: La familia Gemini se divide en tres grupos, de menor (por tanto peor) a mayor (por tanto mejor), Nano, Pro y Ultra.

Para empezar, tiene la ventana contextual más larga y de rendimiento optimizado que conoce el ser humano, de hasta 10 millones de tokens.

Pero, ¿qué es un token y qué es la ventana contextual?

Los tokens son las unidades utilizadas por los Transformers para procesar y generar datos. En el caso del texto, suelen tener entre 3 y 4 caracteres. Por ejemplo, aunque esto dependerá del tokenizador que utilices (un modelo que divide tu texto en tokens), «Londres» podría dividirse en tokens «Lon» y «don».

Por otro lado, la ventana de contexto es la mayor cantidad de tokens que un LLM puede procesar en un momento dado. Es su memoria en tiempo real, algo parecido a lo que la memoria de acceso aleatorio (RAM) es para los procesadores informáticos.

Las ventanas contextuales existen por una sencilla razón: las secuencias largas son caras y difíciles de modelar.

En concreto, los costes de ejecución de un LLM tienen una complejidad cuadrática en relación con la longitud de la secuencia. En términos sencillos, si duplicas la longitud de la secuencia que les das, el coste se cuadruplica.

Además, los Transformadores sufren una gran degradación de su rendimiento cuando trabajan con secuencias más largas que para las que fueron entrenados.

Este problema se conoce como extrapolación (aunque también influyen otras características de diseño, como la elección de las incrustaciones posicionales correctas, pero esa es una conversación para otro momento).

Piensa en la extrapolación como si te hubieras entrenado para correr 8 kilómetros al día y, de repente, un día inesperadamente fueras a hacer 15. Naturalmente, esos 16 kilómetros extra van a ser más duros y vas a rendir mucho peor. Naturalmente, esas 10 millas extra van a ser más duras y vas a rendir mucho peor.

Pero, para entender el tamaño del aumento de la ventana contextual de Google, ¿cuánto son 10 millones de tokens?

Pues eso:

  • Alrededor de 7,5 millones de palabras, o unas 15.000 páginas de 500 palabras, que es mucho más que toda la saga de Harry Potter
  • Vídeos mudos de 44 minutos de duración
  • 6-8 minutos de un vídeo estándar de YouTube

De una sola vez.

Como referencia, el líder actual en esta faceta es Claude 2.1, con hasta 200.000 tokens. Es decir, unas 150.000 palabras, 50 veces menos que Gemini 1.5.

Y no sólo eso, sino que consiguieron un 99% de precisión en la recuperación de hechos concretos y puntuales a partir de secuencias extremadamente largas, como puede verse en la imagen inferior (no pudieron resistirse a poner en aprietos a ChatGPT en el proceso):

Otro resultado asombroso fue que el modelo aprendió Kalamang, una de las lenguas más raras que existen, con sólo un puñado de documentos y casi igualando el rendimiento humano a pesar de que ambos tenían la misma información.

Y, en el proceso, destruyeron absolutamente otros modelos de frontera para esa tarea:

Esta hazaña no puede subestimarse, ya que significa que la IA se está convirtiendo poco a poco en «tan buena» como los humanos en términos de eficiencia de aprendizaje.

Pero la verdadera pregunta es: ¿cómo lo han conseguido?

La coronación de los expertos

En el informe técnico, Google atribuye su éxito principalmente al hecho de que Gemini 1.5 utiliza la Mezcla de Expertos (Mixture-of-Experts layer, MoE) como principal impulsor de la arquitectura.

Divide y vencerás

MoE es una técnica relativamente conocida que se ha convertido en un estándar en la actualidad, con ejemplos como Gemini 1.5, Mixtral-8x7B o GPT-4 (rumor más o menos confirmado).

El principio es bastante sencillo.

En lugar de tener un gran modelo experto, se reúne un grupo de modelos expertos más pequeños especializados en determinadas regiones de la entrada.

Pero, ¿qué entendemos por regionalización de input?

El secreto de las redes neuronales es que aproximan (aprenden) un mapa muy complejo entre inputs y outputs. En el caso del lenguaje, esto significa que aprenden a mapear cuidadosamente la siguiente palabra de una secuencia basándose en las palabras anteriores.

El espacio de entrada, es decir, el espacio de todas las entradas posibles (todas las posibles secuencias de texto que puede enviar a ChatGPT) es enorme, pero las redes neuronales son capaces de crear una función, o mapa, que «divide» este espacio de modo que, independientemente de la especificidad de la secuencia, sigue prediciendo con exactitud sin importar lo poco común que sea la secuencia de entrada.

Pero, ¿qué hace que MoE sea tan bueno?

Sencillo: en lugar de obligar al modelo a aprender un mapa global de todas las posibles entradas a todas las posibles salidas, se crean «expertos», redes neuronales más pequeñas que se centran en regiones de inputs específicos.

Por ejemplo, un experto puede llegar a dominar las ciudades europeas, mientras que otro se convierte en experto en la fauna de Groenlandia.

En realidad, al contar con un número limitado de expertos, estos siguen siendo polifacéticos y competentes en miles de temas de entrada diferentes, pero combinados dan cuenta de una especificidad mucho mayor que teniendo un experto global.

Tomando como ejemplo el modelo Mixtral-8x7B MoE de Mistral, el modelo se divide en 8 expertos. Así, para cualquier entrada, 2 de los expertos son elegidos para responder, mientras que el resto permanece en silencio.

Por lo tanto, MoE es lo mejor de ambos mundos, ya que:

  • Se consigue entrenar una red neuronal enorme, un elemento esencial para crear buenos MLLM.
  • En el momento de la inferencia, sólo se ejecuta una fracción de la red, lo que ahorra costes y reduce la latencia.

Si te interesa saber cómo se hace, consulta el artículo de Mistral.

Para abreviar, MoE funciona dividiendo las capas Feedforward, una pieza esencial en el Transformador, en grupos, con una puerta delante. Esta puerta, normalmente una función softmax que clasifica a los expertos en orden probabilístico, decide qué expertos participan en cada entrada, activando a aquellos y silenciando a los demás.

Fuente: Peter Belcak

Sin embargo, la arquitectura MoE no explica cómo han conseguido un modelado de secuencias largas asequible y eficaz.

No explican cómo, pero podríamos saberlo.

Compresión en caché

Como ya se ha mencionado, uno de los problemas de trabajar con secuencias largas son los enormes costes, y una de las mejores formas de reducirlos es mediante la cuantización.

La cuantización reduce la precisión de los parámetros del modelo para ahorrar memoria. Por ejemplo, para un modelo de 50.000 millones de parámetros con precisión float32 (32 bits por parámetro, o 4 bytes), el archivo de pesos ocupa 200 GB, por lo que se necesitan al menos 3 GPU de última generación de 80 GB sólo para alojar el modelo.

En los Transformers, todo el modelo se ejecuta para cada predicción, por lo que es necesario almacenarlo en RAM. Algunas técnicas, como los LLM Flash de Apple, pueden ayudar a almacenar algunas partes del modelo en memoria flash.

Pero si reducimos la precisión de los parámetros a 4 bits, eso significa que nuestro modelo ocupa ahora 25 GB (pasando de 32 a 4), lo que significa que se puede ejecutar eficientemente el modelo en una GPU.

Pero con secuencias largas, entra en juego otro problema, caché KV.

Los transformadores se basan en el mecanismo de atención, un sistema muy intensivo en computación esencial para que Gemini o ChatGPT procesen el lenguaje.

Por suerte, los cálculos realizados en este proceso son muy redundantes durante esta tarea de predicción de la siguiente palabra. Así, esos cálculos redundantes se almacenan en memoria caché, evitando que todo el proceso resulte prohibitivamente caro.

Sin embargo, como se explica en un reciente artículo presentado por investigadores de Stanford, en estos casos la caché KV es el principal cuello de botella de la memoria:

Así, lo que han hecho estos investigadores es lograr la primera cuantización de caché KV de alto rendimiento. En otras palabras, no solo los pesos del modelo pueden almacenarse con menor precisión, sino también la caché.

Esto permitió ejecutar secuencias de millones de tokens en una sola GPU, algo nunca visto.

Teniendo en cuenta los tiempos, apuesto a que Google ha utilizado un método similar o ha alcanzado un avance parecido para explicar sus resultados con Gemini 1.5.

Hay quien sospecha que Google también ha introducido una variante del mecanismo de atención que consume menos recursos informáticos, aunque no hay confirmación al respecto.

Una gran victoria para los transformadores

En definitiva, no se puede subestimar el avance de Google con Gemini 1.5.

De hecho, esta mejora de las funciones paso a paso es una clara señal de lo que está por venir: Compañeros de IA.

Pronto, los humanos tendrán a su disposición un modelo capaz de recordar conversaciones de meses (o incluso años) con absoluta precisión.

Un modelo que estará siempre dispuesto a escuchar, siempre dispuesto a ayudar y siempre recordará tus pensamientos, problemas y preocupaciones.

Un verdadero amigo digital.

Esto puede parecer algo malo, pero en última instancia creo que algunas personas, personas en la era de la soledad creciente, necesitan a alguien, o «algo» con quien hablar y estar dispuestos a escuchar en todo momento.

Sin embargo, ¿esto alienará cada vez más a los humanos, que se decidirán a hablar sólo con sus IA? Tal vez, lo que empeoraría las cosas.

Y tú, ¿cómo te sientes?


Por último, si te ha gustado este artículo, en mi LinkedIn comparto gratuitamente reflexiones similares de forma más completa y simplificada.

Espero poder conectar contigo.

The post Google por fin ha destronado a ChatGPT first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/google-por-fin-ha-destronado-a-chatgpt/feed/ 0
El modelo de IA de Google para la vida real https://desa.planetachatbot.com/modelo-de-ia-de-google-para-vida-real/?utm_source=rss&utm_medium=rss&utm_campaign=modelo-de-ia-de-google-para-vida-real https://desa.planetachatbot.com/modelo-de-ia-de-google-para-vida-real/#comments Thu, 23 Nov 2023 06:00:31 +0000 https://desa.planetachatbot.com/?p=16284 Lo que estoy a punto de mostrarte no tiene precedentes y parece casi magia… Google Research, en colaboración con la Universidad de Cornell, ha anunciado RealFill, un modelo de inpainting y outpainting de imágenes con resultados impactantes. El modelo toma como referencia un conjunto de imágenes y permite rellenar las partes que faltan de una […]

The post El modelo de IA de Google para la vida real first appeared on Planeta Chatbot.

]]>
Lo que estoy a punto de mostrarte no tiene precedentes y parece casi magia… Google Research, en colaboración con la Universidad de Cornell, ha anunciado RealFill, un modelo de inpainting y outpainting de imágenes con resultados impactantes.

El modelo toma como referencia un conjunto de imágenes y permite rellenar las partes que faltan de una imagen de destino basándose en las primeras.

Pero, ¿qué significa eso?

El modelo es capaz de utilizar las referencias de un puñado de imágenes para rellenar (inpaint) o ampliar (outpaint, el caso que sigue) respetando la referencia.

Es capaz de hacerlo aunque las referencias estén en otros ángulos de cámara o iluminación, ya que el modelo extrae las características clave de esas imágenes y las aplica con éxito a las nuevas generaciones.

De este modo, no tienes que imaginar cómo debería haber sido la imagen perfecta pero recortada. Ahora, basta con pedirla.

Pero profundicemos en cómo han creado realmente este modelo mágico.

El Miguel Ángel del siglo XXI

Como la mayoría de los modelos actuales de IA generativa, RealLife es un modelo de difusión.

Los modelos de difusión son sistemas de IA que aprenden a transformar una imagen en una distribución de datos Gaussian (aleatoria) en una imagen objetivo.

En otras palabras, toman una imagen «con ruido», predicen el ruido que tiene y lo eliminan, descubriendo la nueva imagen.

La imagen de arriba muestra el proceso de entrenamiento. A partir de una imagen real (izquierda), se añade ruido (valores aleatorios de los píxeles) a la imagen, obteniendo la imagen de la derecha.
Al mismo tiempo, el modelo toma una condición que describe la imagen original, como «un gato tumbado».

A continuación, el modelo tiene que predecir el ruido, eliminarlo y reconstruir la imagen inicial utilizando el texto como «pista».

Por consiguiente, al generar nuevas imágenes, el modelo puede partir con éxito de un «lienzo» con ruido arbitrario y una condición de texto como «dibújame un gato» y obtener una nueva imagen que coincida con la original.

Si tienes problemas para comprender lo que esto significa, piensa en esta cita de uno de los seres humanos con más talento que ha pisado la Tierra, el renacentista Miguel Ángel:

«La escultura ya está completa dentro del bloque de mármol. Sólo tengo que cincelar el material superfluo».

En cierto modo, el modelo hace exactamente lo mismo.

A partir de un montón de píxeles colocados arbitrariamente, el modelo es capaz de «cincelar» el ruido y descubrir la imagen deseada:

Google

Sin embargo, no todo iban a ser campanas y silbatos.

Para evitar generar siempre la misma imagen, el proceso de difusión parte siempre de ruido aleatorio, por lo que la petición «un retrato de un hombre» le dará resultados ligeramente distintos cada vez.
De hecho, esto se hace a propósito, para que las imágenes cambien cada vez. Pero aquí, el diablo está en los detalles.

¿Y si también queremos generar imágenes coherentes y fieles a una referencia determinada?

Por ejemplo, ¿qué pasa si quiero ampliar la imagen del retrato (derecha) pero asegurarme de que la parte de la imagen recién generada respeta el atuendo original (izquierda)?

Et voilà.

Por si te lo estás preguntando, este NO soy yo.

Los modelos de difusión estándar siempre dan resultados aleatorios, por lo que la ampliación nunca coincidirá del todo con el original.

Con RealFill, eso ya no es un problema.

Se trata de centrarse en QUÉ aprender

No importa el caso de uso, o si se trata de texto, imagen o sonido.

Las redes neuronales, en esencia, aprenden todas de la misma manera: utilizando el descenso gradiente para optimizar contra una función de pérdida dada.

Si pensamos en ChatGPT, se trata de minimizar las posibilidades de no adivinar la palabra correcta en una frase. Para Stable Diffusion, minimizar las posibilidades de no reconstruir correctamente la imagen inicial.

Por tanto, se trata de averiguar cómo medir esa «diferencia» y simplemente ajustar las neuronas de la red para que la diferencia en el resultado sea progresivamente menor.

Las redes neuronales son aproximadores universales de funciones.

Para una tarea determinada, aprenden el conjunto de neuronas y activaciones que le permiten aprender la función que modela esa tarea, es decir, predecir la siguiente palabra (ChatGPT) o generar nuevas partes de una imagen (RealFill).

Sea cual sea el caso de uso, en esencia, el procedimiento es siempre el mismo.

En el caso de RealFill, tenemos que hacer dos cosas:

  1. Enseñar al modelo a reconstruir una imagen inicial siguiendo el proceso de difusión descrito anteriormente.
  2. Enseñar al modelo a reconstruir sólo determinadas partes de una imagen, es decir, enseñarle a pintar o a despintar una imagen.

Por suerte, ya tenemos la primera, ya que podemos tomar simplemente un modelo de código abierto como Stable Diffusion.

Pero para la segunda tarea, necesitamos afinar Stable Diffusion siguiendo el siguiente gráfico:

  • Alimentamos el modelo con varias imágenes de referencia, muestreando una imagen cada vez y aplicándole ruido aleatorio (lo que ellos llaman «imagen de entrada»).
  • También introducimos una condición de texto, ya que queremos poder determinar lo que el modelo generará en el área asignada.
  • Como queremos que sea leal a una referencia dada, también alimentamos el modelo con la imagen de entrada con un patrón de parches aleatorios sobre ella.
  • Ahora, el objetivo es reconstruir las partes visibles de la parcheada.

Pero la intuición clave aquí es, ¿por qué estamos parcheando la imagen?

Para tener éxito en una tarea estándar de reconstrucción de imágenes, el modelo no necesita realmente entender que la característica más destacada de esta imagen es una chica, ya que básicamente tratará toda la imagen como un montón de píxeles estructurados de una manera determinada.

Por tanto, durante el entrenamiento, el modelo se centra en la imagen global.
Pero puede que pienses: «No estoy de acuerdo, ya que modelos como Stable Diffusion generarán lo que yo les pida, ya sea una chica o un gorila, lo que significa que el modelo entiende lo que está generando».

Y en cierto modo es cierto, pero esto sólo funcionará si el modelo parte de un «lienzo sin ruido» completo sobre el que trabajar.

Si le das el 80% de la imagen y le dices que rellene el 20% que falta, eso requiere localidad, y en esas tareas, los generadores de imágenes estándar fracasan estrepitosamente:

Por tanto, si forzamos al modelo a reconstruir sólo imágenes parcheadas (parcialmente visibles), le estamos obligando a prestar atención localmente.

La reconstrucción de imágenes parcheadas es la base de los autocodificadores o del modelo mundial I-JEPA de Meta, soluciones que obligan a los modelos a prestar atención tanto global como localmente para aprender características más complejas.

Por ejemplo, si parcheamos la mitad de la cara de la chica, el objetivo del modelo ya no es generar una chica bailando, sino reconstruir la mitad de la cara de una chica que resulta que también está bailando.

¿Y a la hora de inferir?

La inferencia es como en cualquier modelo de difusión, pero añadiendo una máscara para que el modelo genere sólo la parte de la imagen que falta.

En conclusión, la reconstrucción parcial implica una comprensión más compleja de lo que tiene que generar y de cómo mantenerse fiel a una referencia dada.

Funciones mágicas pero prácticas

Lo mejor de RealFill es que lo más probable es que ya sea un producto real y disponible.

Viendo que el documento se publicó casi al mismo tiempo que Google anunciaba las nuevas funciones de edición de imágenes de su smartphone Pixel 8, está bastante claro que esto se basa en RealFill.

Pero RealFill también tiene sus inconvenientes.

Como explica este artículo de la BBC, será muy difícil diferenciar la realidad de las generaciones falsas, desatando una polémica en torno a «¿cuánta IA es demasiada IA?».

Mientras tanto, herramientas como RealFill permitirán a los humanos dar forma a sus experiencias y recuerdos de nuevas maneras que los hagan más memorables.

Por otro lado, cabe preguntarse… ¿se puede confiar en algo a estas alturas?

The post El modelo de IA de Google para la vida real first appeared on Planeta Chatbot.

]]>
https://desa.planetachatbot.com/modelo-de-ia-de-google-para-vida-real/feed/ 1