Lo más relevante:

  • Los nuevos modelos de Gemini Robotics de DeepMind han dotado a las máquinas de la capacidad de planificar y razonar, marcando un avance significativo en la robótica. Estos modelos permiten a los robots no solo realizar tareas, sino también buscar información en línea, como reglas de reciclaje, antes de actuar.
  • A diferencia de los robots que siguen guiones predefinidos, la nueva IA de Google les permite adaptarse a situaciones inesperadas y resolver problemas de forma autónoma. Además, estos robots pueden transmitir habilidades entre ellos, lo que acelera su aprendizaje y eficiencia.
  • En demostraciones que incluyeron desde empacar maletas hasta clasificar basura. Los robots impulsados por Gemini-ER 1.5 han mostrado los primeros indicios de una inteligencia de propósito general. Esto sugiere un futuro en el que los robots puedan realizar una amplia gama de tareas con mínima supervisión.

Google DeepMind se adelanta en el desarrollo de los robots superinteligentes

Google DeepMind ha lanzado esta semana dos modelos de inteligencia artificial que representan un salto cualitativo en las capacidades robóticas, diseñados para dotar a las máquinas de un nivel de autonomía sin precedentes. La versión actualizada de Gemini Robotics 1.5 y su variante Gemini Robotics-ER 1.5 trascienden la mera ejecución de comandos para permitir que los robots analicen problemas complejos, consulten información en internet de forma autónoma y compartan conocimientos entre diferentes agentes robóticos. Según Google, esta evolución constituye un “paso fundamental que permite navegar por las complejidades del mundo físico con inteligencia y destreza”.

La compañía describe a Gemini Robotics 1.5 como un “hito importante en la solución de la IA general en el mundo físico”. Destacando que mediante la introducción de capacidades de agencia, superan la reactividad básica para crear sistemas que “realmente pueden razonar, planificar, usar herramientas activamente y generalizar”. 

Este último concepto, la generalización, representa el avance más significativo, dado que tradicionalmente ha sido el mayor punto débil de los sistemas robóticos. Mientras que un robot convencional programado para doblar pantalones no podría transferir ese conocimiento a doblar camisetas sin reprogramación explícita, estos nuevos modelos rompen esa barrera.

La demostración práctica incluye tareas como clasificar ropa por color, preparar equipaje, mientras consultan pronósticos meteorológicos en línea o aplicar normativas locales de reciclaje para desechar basura correctamente. Estas actividades requieren que las máquinas capturen señales contextuales, interpreten entornos dinámicos, formulen suposiciones razonables y ejecuten secuencias multi-paso que anteriormente estaban fuera de su alcance operativo. La capacidad de generalización permite a los robots adaptar conocimiento previo a situaciones novedosas, acercándose a la flexibilidad cognitiva humana.

Todavía están lejos de la perfección

Efectivamente, el avance tecnológico no equivale a perfección operativa. En una demostración específica, los investigadores presentaron a los robots un conjunto diverso de objetos y les encomendaron la tarea de desecharlos según los protocolos de reciclaje correctos. Los sistemas utilizaron sus cámaras integradas para identificar visualmente cada artículo, consultaron autónomamente las directrices actualizadas de reciclaje de San Francisco a través de internet, y clasificaron los objetos en los contenedores correspondientes. 

Este flujo de trabajo integrado, que combina percepción visual, búsqueda en línea y planificación secuencial, representa un salto cualitativo en la toma de decisiones contextuales para máquinas autónomas. Sin embargo, las métricas de desempeño revelan la brecha restante entre capacidad teórica y eficacia práctica. 

Los robots lograron completar la tarea correctamente en solo entre el 20% y el 40% de los intentos, un porcentaje considerablemente bajo para aplicaciones comerciales. Pero todavía notablemente alto para un sistema que nunca antes había demostrado comprensión de tales matices ecológicos. 

Esta tasa de éxito moderada subraya los desafíos pendientes en la generalización robusta del conocimiento, donde la interferencia ambiental, la variabilidad de los objetos y la interpretación de directrices textuales siguen presentando obstáculos significativos.

El experimento ilustra el punto de inflexión actual en robótica cognitiva: mientras la arquitectura permite ahora procesos de razonamiento similares a los humanos, la ejecución física y la adaptación a entornos no controlados mantienen un margen sustancial de mejora. Esta brecha entre comprensión conceptual y realización confiable define la frontera inmediata de investigación para DeepMind y otros laboratorios compitiendo en la carrera de la IA en expansión.

Los superrobots de Google 

La arquitectura dual de los nuevos modelos Gemini Robotics establece una división laboral estratégica que optimiza sus capacidades respectivas. Gemini Robotics-ER 1.5 funciona como el centro de planificación cognitiva, analizando objetivos complejos y desarrollando secuencias lógicas de acción paso a paso. 

Este componente tiene la capacidad de acceder a Google Search en tiempo real cuando requiere información contextual, actuando esencialmente como el cerebro ejecutivo del sistema. Una vez formulada la estrategia, transmite instrucciones en lenguaje natural a Gemini Robotics 1.5, que se especializa en la traducción de comandos a movimientos físicos precisos.

Desde una perspectiva técnica más profunda, Gemini Robotics 1.5 opera como un modelo de visión-lenguaje-acción (VLA) que transforma inputs visuales e instrucciones textuales en comandos motores ejecutables. Por su parte, Gemini Robotics-ER 1.5 funciona como un modelo de visión-lenguaje (VLM) avanzado que genera planes multi-etapa para cumplir misiones complejas. 

Robots con especializaciones específicas:

Esta especialización permite que cada modelo optimice su dominio específico mientras mantiene una interoperabilidad fluida. El proceso se manifiesta claramente en tareas como la clasificación de ropa, donde el robot desarrolla internamente una cadena de razonamiento lógico: primero comprende que “clasificar por color” implica separar prendas blancas y de color en contenedores distintos. Luego desglosa los movimientos específicos necesarios para manipular cada artículo. Significativamente, el sistema puede articular verbalmente su proceso de toma de decisiones en lenguaje sencillo, proporcionando transparencia operativa que facilita la depuración y mejora continua.

El CEO de Google, Sundar Pichai, destacó en X el potencial transformador de estos modelos, señalando que permitirán a los robots “razonar mejor, planificar con antelación, utilizar herramientas digitales como la búsqueda y transferir el aprendizaje entre diferentes tipos de robots”. Lo caracterizó como el “próximo gran paso de Google hacia robots de uso general verdaderamente útiles”, subrayando la ambición de la compañía de liderar la convergencia entre inteligencia artificial y robótica práctica.