Meta Reality Labs, lanzó Sapiens, una familia de modelos de visión diseñados y centrados en la composición humana.
A diferencia de los modelos tradicionales que suelen operar en ambientes controlados, Sapiens se enfoca en cuatro tareas esenciales: estimación de pose 2D, segmentación de partes del cuerpo, estimación de profundidad y predicción de la normal de la superficie.
Dichos modelos han sido entrenados con más de 300 millones de imágenes, lo que les otorga una capacidad de adaptación y un rendimiento sobresaliente en escenarios del mundo real.
Arquitectura basada en transformadores
El éxito de Sapiens se debe a su arquitectura basada en transformadores de visión. Los transformadores generan que los modelos se adapten a datos reales, incluso cuando son escasos o sintéticos.
Meta ya había experimentado con arquitecturas similares en proyectos anteriores, como Data-efficient Image Transformers (DeiT) y DETR, que sentaron las bases para el desarrollo de Sapiens.
Los mecanismos de atención dentro de los transformadores hacen que los modelos se enfoquen dinámicamente en las características más relevantes de una imagen, mejorando la precisión en tareas como la estimación de pose y la segmentación.
Soporte y rendimiento en alta resolución
Sapiens ofrece soporte nativo para inferencia de alta resolución de 1K, mejorando su rendimiento a medida que se incrementa el número de parámetros del modelo.
Por su parte, Meta ha reportado perfeccionamientos en comparación con otros modelos, superando las bases existentes en diversas pruebas de referencia centradas en el ser humano.
Aplicaciones potenciales de Sapiens
Los modelos Sapiens tienen un amplio rango de aplicaciones, desde el entretenimiento, donde pueden mejorar la captura de movimiento y las animaciones CGI, hasta la realidad aumentada y virtual.
Incluso, su capacidad para generalizarse a escenarios reales los hace ideales para su uso en vigilancia, seguridad, y sistemas avanzados de asistencia al conductor.
También cuenta con un potencial en el campo de la salud, con aplicaciones en el análisis de la marcha y la fisioterapia.
Con informacion de Meta Reality Labs y Research & Development World.
More Stories
3DTopia-XL: Escalamiento de activos 3D con difusión primitiva
Inteligencia artificial en el juego en equipo: MARLadona
El Proyecto Astra de Google se retrasa hasta 2025