septiembre 14, 2024

VEKTRA 374

Sitio web de animación 3D, inteligencia artificial, robótica y tecnología

- Inicio » Sapiens de Meta: Modelos de visión que optimizan el análisis 3D

Sapiens de Meta: Modelos de visión que optimizan el análisis 3D

Sapiens Meta
Meta Reality Labs lanzó Sapiens, una familia de modelos de visión diseñados y centrados en la composición humana.

Meta Reality Labs, lanzó Sapiens, una familia de modelos de visión diseñados y centrados en la composición humana.

A diferencia de los modelos tradicionales que suelen operar en ambientes controlados, Sapiens se enfoca en cuatro tareas esenciales: estimación de pose 2D, segmentación de partes del cuerpo, estimación de profundidad y predicción de la normal de la superficie.

Dichos modelos han sido entrenados con más de 300 millones de imágenes, lo que les otorga una capacidad de adaptación y un rendimiento sobresaliente en escenarios del mundo real.

Arquitectura basada en transformadores

El éxito de Sapiens se debe a su arquitectura basada en transformadores de visión. Los transformadores generan que los modelos se adapten a datos reales, incluso cuando son escasos o sintéticos.

Meta ya había experimentado con arquitecturas similares en proyectos anteriores, como Data-efficient Image Transformers (DeiT) y DETR, que sentaron las bases para el desarrollo de Sapiens.

Los mecanismos de atención dentro de los transformadores hacen que los modelos se enfoquen dinámicamente en las características más relevantes de una imagen, mejorando la precisión en tareas como la estimación de pose y la segmentación.

Sapiens Meta

Soporte y rendimiento en alta resolución

Sapiens ofrece soporte nativo para inferencia de alta resolución de 1K, mejorando su rendimiento a medida que se incrementa el número de parámetros del modelo.

Por su parte, Meta ha reportado perfeccionamientos en comparación con otros modelos, superando las bases existentes en diversas pruebas de referencia centradas en el ser humano.

Aplicaciones potenciales de Sapiens

Los modelos Sapiens tienen un amplio rango de aplicaciones, desde el entretenimiento, donde pueden mejorar la captura de movimiento y las animaciones CGI, hasta la realidad aumentada y virtual.

Incluso, su capacidad para generalizarse a escenarios reales los hace ideales para su uso en vigilancia, seguridad, y sistemas avanzados de asistencia al conductor.

También cuenta con un potencial en el campo de la salud, con aplicaciones en el análisis de la marcha y la fisioterapia.

Con informacion de Meta Reality Labs y Research & Development World.