El nuevo modelo Gemini AI de Google está obteniendo un recepción mixta después de su gran debut ayer, pero los usuarios pueden tener menos confianza en la tecnología o la integridad de la compañía después de descubrir que la demostración más impresionante de Gemini era prácticamente falsa.

Un vídeo llamado «Práctica con Gemini: interacción con IA multimodal» alcanzó un millón de visitas durante el último día, y no es difícil ver por qué. La impresionante demostración “destaca algunas de nuestras interacciones favoritas con Gemini” y muestra cómo el modelo multimodal (es decir, comprende y combina el lenguaje y la comprensión visual) puede ser flexible y responder a una variedad de entradas.

Para empezar, narra la evolución de un boceto de un pato desde un garabato hasta un dibujo completamente coloreado, luego muestra sorpresa (“¡Qué diablos!”) al ver un pato azul de juguete. Luego responde a varias preguntas de voz sobre ese juguete, luego la demostración pasa a otros movimientos de alarde, como rastrear una pelota en un juego de cambio de taza, reconocer gestos de marionetas de sombras, reordenar bocetos de planetas, etc.

Todo responde muy bien, aunque el vídeo advierte que «la latencia se ha reducido y las salidas de Gemini se han acortado». Así que se saltan una vacilación aquí y una respuesta demasiado larga allá, entendido. En definitiva, fue una demostración de fuerza bastante alucinante en el ámbito de la comprensión multimodal. Mi propio escepticismo sobre que Google pudiera ofrecer un contendiente se vio afectado cuando vi la práctica.

Sólo un problema: el vídeo no es real. “Creamos la demostración capturando imágenes para probar las capacidades de Gemini en una amplia gama de desafíos. Luego le solicitamos a Gemini que usara fotogramas de imágenes fijas del metraje y le solicitamos mediante texto.(Parmy Olsen en Bloomberg fue el primero en informar la discrepancia.)

Entonces, aunque podría hacer las cosas que Google muestra en el video, no las hizo, y tal vez no pudo, hacerlas en vivo y en la forma que implicaban. En realidad, se trataba de una serie de indicaciones de texto cuidadosamente ajustadas con imágenes fijas, claramente seleccionadas y acortadas para tergiversar cómo es realmente la interacción. Puede ver algunas de las indicaciones y respuestas reales en una publicación de blog relacionada – que, para ser justos, está vinculado en la descripción del video, aunque debajo de “…más”.

Por un lado, Géminis realmente parece haber generado las respuestas que se muestran en el vídeo. ¿Y quién quiere ver algunos comandos de limpieza, como decirle al modelo que vacíe su caché? Pero los espectadores se engañan acerca de la velocidad, la precisión y el modo fundamental de interacción con el modelo.

Por ejemplo, en el minuto 2:45 del vídeo, se muestra una mano haciendo en silencio una serie de gestos. Géminis responde rápidamente “¡Sé lo que estás haciendo! ¡Estás jugando a piedra, papel y tijera!

Créditos de imagen: Google YouTube

Pero lo primero que aparece en la documentación de la capacidad es cómo el modelo no razona basándose en ver gestos individuales. Se le deben mostrar los tres gestos a la vez y se le debe indicar: “¿Qué crees que estoy haciendo? Pista: es un juego”. Responde: «Estás jugando piedra, papel y tijera».

Créditos de imagen: Google

A pesar de la similitud, no parecen la misma interacción. Se sienten como interacciones fundamentalmente diferentes, una es una evaluación intuitiva y sin palabras que captura una idea abstracta sobre la marcha, otra es una interacción diseñada y fuertemente insinuada que demuestra tanto limitaciones como capacidades. Géminis hizo lo segundo, no lo primero. La “interacción” que se muestra en el video no sucedió.

Posteriormente, se colocan en la superficie tres notas adhesivas con garabatos del Sol, Saturno y la Tierra. «¿Es este el orden correcto?» Géminis dice que no, va Sol, Tierra, Saturno. ¡Correcto! Pero en el mensaje real (nuevamente escrito), la pregunta es “¿Es este el orden correcto? Considera la distancia al sol y explica tu razonamiento”.

Créditos de imagen: Google

¿Géminis lo hizo bien? ¿O se equivocó y necesitó un poco de ayuda para producir una respuesta que pudieran incluir en un vídeo? ¿Reconoció siquiera los planetas o también necesitaba ayuda allí?

Estos ejemplos pueden parecerle triviales o no. Después de todo, reconocer los gestos con las manos como un juego tan rápidamente es realmente impresionante para un modelo multimodal. ¡También lo es decidir si una película a medio terminar es un pato o no! Aunque ahora, dado que la publicación del blog carece de una explicación para la secuencia del pato, también estoy empezando a dudar de la veracidad de esa interacción.

Ahora bien, si el video hubiera dicho al principio: «Esta es una representación estilizada de las interacciones que nuestros investigadores probaron», nadie se habría inmutado; esperamos que videos como este sean mitad objetivos y mitad aspiracionales.

Pero el video se llama “Práctica con Géminis” y cuando dicen que muestra “nuestras interacciones favoritas”, está implícito que las interacciones que vemos son aquellos interacciones. Ellos no eran. A veces estaban más involucrados; a veces eran totalmente diferentes; a veces no parece que hayan sucedido en absoluto. Ni siquiera nos dicen qué modelo es: ¿el Gemini Pro que la gente puede usar ahora o (más probablemente) la versión Ultra cuyo lanzamiento está previsto para el próximo año?

¿Deberíamos haber asumido que Google sólo nos estaba dando un vídeo de muestra cuando lo describieron como lo hicieron? Quizás entonces deberíamos suponer todo Las capacidades en las demostraciones de IA de Google se están exagerando para lograr un efecto. Escribo en el titular que este vídeo fue “falso”. Al principio no estaba seguro de si ese lenguaje duro estaba justificado. Pero este vídeo simplemente no refleja la realidad. Es falso.

Google dice que el vídeo «muestra resultados reales de Gemini», lo cual es cierto, y que «hicimos algunas ediciones en la demostración (hemos sido sinceros y transparentes al respecto)», lo cual no lo es. No es una demostración (en realidad no) y el vídeo muestra interacciones muy diferentes de las creadas para informarlo.

En un publicación en redes sociales Después de la publicación de este artículo, el vicepresidente de investigación de Google DeepMind, Oriol Vinyals, mostró un poco más de cómo se elaboraba la salchicha. “El vídeo ilustra las experiencias de usuario multimodal creadas con Gemini. podría parece. Lo hicimos para inspirar a los desarrolladores”. (El énfasis es mío.) Curiosamente, muestra una secuencia previa que le permite a Géminis responder la pregunta sobre los planetas sin que el Sol lo indique (aunque sí le dice a Géminis que es un experto en planetas y que debe considerar la secuencia de objetos representados).

Quizás me comeré el cuervo cuando, la próxima semana, AI Studio con Gemini Pro esté disponible para experimentar. Y Gemini bien podría convertirse en una poderosa plataforma de inteligencia artificial que realmente rivalice con OpenAI y otras. Pero lo que Google ha hecho aquí es envenenar el pozo. ¿Cómo puede alguien confiar en la empresa cuando afirma que su modelo hace algo ahora? Ya cojeaban detrás de la competencia. Es posible que Google se haya disparado en el otro pie.