Google ha presentado su último modelo de inteligencia artificial llamado Robotics Transformer 2 (RT2), el cual tiene la capacidad de controlar robots utilizando texto e imágenes.
A diferencia de los modelos de lenguaje convencionales que se entrenan en texto para aprender conceptos generales, RT2 utiliza datos web para informar el comportamiento del robot.
Vincent Vanhoucke, Jefe de Robótica de Google DeepMind, explica que RT2 puede “hablar robot” transfiriendo conocimiento desde la web.
Los chatbots pueden ser entrenados proporcionándoles información, pero los robots requieren una comprensión más profunda del mundo real.
Por ejemplo, si se le instruye sobre una manzana, un chatbot simplemente aprendería sobre su existencia, mientras que un robot necesita saber cómo distinguirla de otros objetos y cómo recogerla.
RT2 de Google mejora el modelo anterior de Google, RT1, al utilizar datos web.
En lugar de entrenar al robot de manera explícita sobre ciertos objetos, RT2 permite que el robot aprenda de forma independiente utilizando información disponible en Internet.
Esto le permite adquirir y aplicar conocimientos en situaciones futuras. Sin embargo, RT2 tiene limitaciones en su forma actual.
Solo puede mejorar el rendimiento de un robot en tareas que ya conoce, en lugar de enseñarle desde cero. A pesar de ello, este avance marca un paso significativo hacia potenciales capacidades futuras.
Robotic Transformer 2 (RT-2) es un novedoso modelo de visión-lenguaje-acción (VLA) que aprende de datos web y robóticos, traduciendo este conocimiento en instrucciones generalizadas para el control robótico.
RT2 de Google es un VLM
Los modelos de lenguaje visual de alta capacidad se entrenan en grandes conjuntos de datos web, lo que los hace eficientes para reconocer patrones visuales o de lenguaje y operar en diferentes idiomas.
Para que los robots alcancen un nivel similar de competencia, necesitarían recopilar datos de robots de primera mano para cada objeto, entorno, tarea y situación. En este contexto, RT-2 surge como una solución.
Se basa en modelos previamente entrenados en datos web y de robótica, y muestra capacidades de generalización y comprensión semántica y visual más allá de los datos robóticos a los que ha sido expuesto.
Para lograr el control de los robots, RT-2 representa las acciones como tokens en la salida del modelo y las describe como cadenas procesables por tokenizadores de lenguaje natural estándar.
A través de experimentos, se exploraron las capacidades emergentes de RT-2 en más de 6,000 ensayos robóticos.
Se identificaron tres categorías de habilidades: comprensión de símbolos, razonamiento y reconocimiento humano.
RT2 es un innovador modelo de IA que aprende de datos web y robóticos para controlar robots, mostrando capacidades de generalización y comprensión más allá de los datos robóticos a los que ha sido expuesto.
Aunque presenta limitaciones, representa un importante avance en el campo de la inteligencia artificial y el control robótico.
More Stories
CEO de Automattic paga a empleados en desacuerdo
Android 15 se lanza para AOSP
Granite Rapids: Intel vuelve a competir con AMD