Gemini Robotics On-Device: la revolución de la IA robótica sin conexión llega de la mano de DeepMind

Google DeepMind ha dado un paso trascendental en la evolución de la robótica con el lanzamiento de Gemini Robotics On-Device, un modelo de inteligencia artificial diseñado para ejecutarse directamente en robots, sin necesidad de conexión a internet. Esta innovación promete transformar la forma en que los robots interactúan con el mundo físico, ofreciendo mayor autonomía, velocidad de respuesta y adaptabilidad.

De la nube al dispositivo: un cambio de paradigma

Hasta ahora, muchos sistemas robóticos dependían de la nube para procesar instrucciones complejas, lo que generaba problemas de latencia, privacidad y fiabilidad en entornos con conectividad limitada. Gemini Robotics On-Device rompe con esta dependencia al ejecutar modelos de visión, lenguaje y acción (VLA) directamente en el hardware del robot.

“Estamos introduciendo un modelo eficiente, con destreza general y adaptación rápida a tareas, optimizado para funcionar localmente”, explicó Carolina Parada, directora de robótica en DeepMind.

Capacidades destacadas del modelo

Gemini Robotics On-Device hereda las capacidades multimodales de Gemini 2.0, integrando razonamiento visual, comprensión semántica y ejecución de acciones físicas. Entre sus características más destacadas se encuentran:

Generalización de tareas: puede adaptarse a nuevas instrucciones y entornos con tan solo 50 a 100 demostraciones.
Destreza física: realiza tareas complejas como abrir cremalleras, doblar ropa o ensamblar piezas industriales.
Comprensión del lenguaje natural: sigue instrucciones verbales complejas y de múltiples pasos.
Baja latencia: al operar localmente, responde en tiempo real, ideal para aplicaciones críticas.

Adaptabilidad a múltiples robots

Aunque el modelo fue entrenado inicialmente para robots ALOHA, DeepMind ha demostrado su capacidad de adaptación a otros sistemas como el Franka FR3 de doble brazo y el humanoide Apollo de Apptronik. En ambos casos, el modelo logró ejecutar tareas con objetos y escenarios nunca antes vistos, demostrando su versatilidad.

“El mismo modelo generalista puede manipular objetos desconocidos y seguir instrucciones en lenguaje natural, incluso en robots con morfologías distintas”, destaca el equipo de DeepMind.

Gemini Robotics SDK: democratizando la robótica avanzada

Junto con el modelo, DeepMind ha lanzado el Gemini Robotics SDK, un kit de desarrollo que permite a los ingenieros:

Evaluar el modelo en sus propios entornos.
Probar tareas en el simulador físico MuJoCo.
Adaptar el modelo a nuevos dominios con pocas demostraciones.

Este SDK está disponible inicialmente para un grupo selecto de desarrolladores a través del programa de testers de confianza de DeepMind.

Seguridad y desarrollo responsable

DeepMind ha desarrollado Gemini Robotics On-Device bajo estrictos principios de seguridad. El modelo se integra con controladores de bajo nivel para garantizar la seguridad física, y se somete a evaluaciones semánticas y ejercicios de red-teaming para detectar vulnerabilidades.

“Nuestro Consejo de Responsabilidad y Seguridad revisa cada etapa del desarrollo para maximizar el impacto positivo y minimizar los riesgos”, afirma DeepMind.

Aplicaciones potenciales

Las posibilidades de Gemini Robotics On-Device son amplias y abarcan sectores como:

Salud: asistencia en quirófanos o residencias sin depender de la nube.
Industria: automatización de tareas en líneas de ensamblaje con alta precisión.
Logística: manipulación de paquetes en almacenes con entornos cambiantes.
Hogar: robots asistentes que entienden y ejecutan tareas domésticas complejas.

Comparativa de rendimiento

En pruebas internas, Gemini Robotics On-Device superó a otros modelos locales en tareas fuera de distribución y en instrucciones complejas. Aunque su rendimiento es ligeramente inferior al modelo Gemini Robotics basado en la nube, ofrece una solución más robusta y autónoma para entornos con restricciones de conectividad.

Gemini Robotics On-Device representa un avance significativo en la convergencia entre inteligencia artificial y robótica. Al llevar la potencia de los modelos multimodales directamente al hardware, DeepMind abre la puerta a una nueva generación de robots más inteligentes, autónomos y útiles en el mundo real.

Este lanzamiento no solo marca un hito tecnológico, sino también una invitación a la comunidad global de desarrolladores a explorar nuevas fronteras en la interacción entre humanos y máquinas.

El artículo puede contener imprecisiones y/o errores, consulte la web del fabricante para obtener la principal información.