Google DeepMind integrará Gemini y Veo

Google DeepMind ha anunciado su intención de combinar en el futuro dos de sus modelos de Inteligencia Artificial más avanzados, Gemini y Veo, con el objetivo de desarrollar un asistente digital universal y avanzar significativamente en el ámbito de la robótica. Así lo ha expresado el director ejecutivo de la compañía, Demis Hassabis, durante su participación en el pódcast Possible, conducido por el cofundador de LinkedIn, Reid Hoffman.
Gemini, presentado en diciembre de 2023, es un modelo fundacional multimodal de forma nativa, diseñado para comprender y razonar sobre múltiples tipos de información: texto, código, audio, imágenes y vídeo. Por su parte, Veo es un modelo de generación de vídeo capaz de producir secuencias de alta calidad con un movimiento realista, gracias a su entrenamiento con ingentes cantidades de contenido audiovisual, especialmente de YouTube.
Hassabis ha destacado que Veo "puede comprender la física del mundo" al haber sido entrenado con material visual que refleja la realidad cotidiana, lo que ofrece un enorme potencial para mejorar la capacidad contextual de Gemini. Esta sinergia, sostiene, será clave para desarrollar sistemas capaces de interactuar eficazmente con el mundo físico.
DeepMind concibe un futuro en el que la inteligencia artificial pueda ofrecer una ayuda real y contextualizada en tareas cotidianas. “Queremos construir un asistente digital universal, un acompañante inteligente que te asista en el día a día, que te recomiende cosas, que te ayude a orientarte o incluso a cocinar”, ha afirmado Hassabis.
Esta visión va más allá de los asistentes de voz actuales. La combinación de las capacidades de razonamiento multimodal de Gemini con la comprensión visual y dinámica de Veo permitirá una interacción más rica, autónoma y útil entre humanos y sistemas de inteligencia artificial.
Uno de los campos donde esta combinación resulta especialmente prometedora es la robótica. Hassabis ha subrayado que esta integración permitirá a los modelos comprender no solo conceptos abstractos, sino también acciones motoras, planificación y tareas físicas complejas. “Es el comienzo de lo que podemos hacer con modelos multimodales que entienden la física del mundo y que, con algunos ajustes, pueden ser aplicados directamente a la robótica”, ha indicado.
Con esta visión, Google DeepMind se posiciona en La Vanguardia de una carrera tecnológica orientada a construir agentes inteligentes que comprendan el entorno físico de forma profunda y que puedan interactuar eficazmente en él, no solo a través de órdenes verbales o visuales, sino también mediante acción autónoma y adaptativa.