Google lanzó IA para el desarrollo de robots humanoides que pueden plegar origamis
Con visión-lenguaje-acción y razonamiento corporal avanzado, los nuevos modelos avanzan hacia la creación de máquinas "verdaderamente útiles" en el mundo real.
La compañía tecnológica dijo estar sentando las bases de una nueva generación de robots.
Google DeepMind presentó este miércoles dos nuevos modelos de inteligencia artificial (IA) que, según la compañía, sientan las bases de una nueva generación de robots útiles: Gemini Robotics y Gemini Robotics-ER.
Ambos modelos, basados en su IA Gemini 2.0, permiten a diversos robots realizar en el mundo real una gama de tareas más amplia.
Meet Gemini Robotics: our latest AI models designed for a new generation of helpful robots. 🤖
— Google DeepMind (@GoogleDeepMind) March 12, 2025
Based on Gemini 2.0, they bring capabilities such as better reasoning, interactivity, dexterity and generalization into the physical world. 🧵 https://t.co/EXRJrmxGxl pic.twitter.com/MeEkRLomXm
El primero es un modelo avanzado de visión-lenguaje-acción (VLA) que incorpora acciones físicas como nueva modalidad para controlar directamente a los robots.
Así, Gemini Robotics puede abordar tareas extremadamente complejas y de varios pasos que requieren una manipulación precisa, como plegar un origami o meter un bocadillo en una bolsa con cierre de 'zip', explica Google en su blog.
Para ser útiles, los modelos de IA para robótica necesitan tres cualidades principales: una de ellas ser generales, es decir, capaces de adaptarse a diferentes situaciones; ser interactivos o con capacidad para comprender y responder rápidamente a instrucciones o cambios en su entorno; y ser diestros, que quiere decir poder realizar las tareas que las personas generalmente hacen con las manos y los dedos.
"Si bien nuestro trabajo previo demostró avances en estas áreas, Gemini Robotics representa un avance sustancial en el rendimiento en los tres ejes, acercándonos a robots verdaderamente de propósito general", resume Google DeepMind.
Gemini Robotics-ER, el modelo de razonamiento
Por su parte, Gemini Robotics-ER es un modelo de visión-lenguaje (VLM) con una comprensión espacial avanzada, que permite a los expertos en robótica ejecutar sus propios programas utilizando el razonamiento corporal de Gemini.
Así, este modelo mejora "con creces" capacidades como la de apuntar y la detección 3D para, por ejemplo, cuando se le muestra una taza de café, el modelo pueda intuir un agarre adecuado para cogerla por el asa y una trayectoria segura para acercarse a ella.
Estas capacidades de razonamiento, conseguidas al incorporar Gemini a ambos modelos, permiten a los diversos robots realizar una gama más amplia de tareas en el mundo real, indica la compañía.
"Para que la IA sea útil y útil para las personas en el mundo físico, deben demostrar razonamiento corporal (la capacidad similar a la humana de comprender y reaccionar al mundo que nos rodea), así como actuar con seguridad para realizar tareas", añade.
Por eso, "hoy presentamos dos nuevos modelos de IA, basados en Gemini 2.0, que sientan las bases para una nueva generación de robots útiles", señala.