El equipo de fútbol OP3 en DeepMind realizó una investigación sobre si el Deep Reinforcement Learning (subcampo del aprendizaje automático que combina el aprendizaje por refuerzo (RL) y el aprendizaje profundo, dando como resultado estos robots futbolistas.
Esta tecnología es capaz de sintetizar las habilidades de movimiento sofisticadas y seguras para los robots de bajo costo que se puede componer en estrategias de comportamiento complejas en entornos dinámicos.
Los jugadores de fútbol pueden abordar, levantarse, patear y perseguir una pelota en un movimiento sin problemas. ¿Cómo podrían los robots dominar estas habilidades motoras ágiles?
Los científicos usaron Deep RL para entrenar a un robot humanoide con 20 articulaciones accionadas para realizar un juego de fútbol simplificándolo uno contra uno.
¿Cómo funcionan los robots futbolistas con DR?
Primero entrenando sus habilidades individuales de forma aislada y luego complementando dichas habilidades de extremo a extremo en un entorno de reproducción automática.
La política resultante exhibe habilidades de movimiento dinámico como recuperación rápida de caídas, caminar, girar, patear y más; y transiciones entre ellos de una manera suave, estable y de manera eficiente – mucho más allá de lo que intuitivamente se espera del robot.
Los agentes también desarrollaron una comprensión estratégica básica del juego, y aprendiendo, por ejemplo, para anticipar los movimientos de la pelota y bloquear los tiros del oponente. La gama de comportamientos surgió de un pequeño conjunto de recompensas simples.

Los robots fueron entrenados en simulación y transferido a robots reales zero-shot.
Encontrando que una combinación de control de frecuencia debe ser suficientemente alta, dinámica para dirigirla con aleatorización durante el entrenamiento en simulación habilitada.
Bajo esta investigación se realizó una transferencia de buena calidad, a pesar de los efectos y variaciones significativas sin modelar en todas las instancias de robots.
Aunque los robots son inherentemente frágiles, las modificaciones de hardware junto con regularización básica del comportamiento durante el entrenamiento llevó a los robots a aprender movimientos seguros y efectivos mientras seguían funcionando de forma dinámica y ágil.
De hecho, a pesar de que los agentes fueron optimizados para puntuar, en los experimentos caminaron 156% más rápido, tomaron 63% menos tiempo para levantarse, y patearon un 24% más rápido que una línea de base programada, mientras que combinaban eficientemente las habilidades para lograr los objetivos a largo plazo.
Ejemplos de los comportamientos emergentes y coincidencias completas 1v1 están disponibles en el sitio web complementario a este desarrollo.
Más historias
Windows 11: Actualización elimina accidentalmente Copilot
Desarrollador condenado por sabotaje tras su despido
Apple prepara un rediseño radical en iOS para iPhone, iPad y Mac