Sapiens de Meta: Modelos de visión que optimizan el análisis 3D

Carmen Vektra

agosto 30, 2024

Meta Reality Labs, lanzó Sapiens, una familia de modelos de visión diseñados y centrados en la composición humana.

A diferencia de los modelos tradicionales que suelen operar en ambientes controlados, Sapiens se enfoca en cuatro tareas esenciales: estimación de pose 2D, segmentación de partes del cuerpo, estimación de profundidad y predicción de la normal de la superficie.

Dichos modelos han sido entrenados con más de 300 millones de imágenes, lo que les otorga una capacidad de adaptación y un rendimiento sobresaliente en escenarios del mundo real.

Arquitectura basada en transformadores

El éxito de Sapiens se debe a su arquitectura basada en transformadores de visión. Los transformadores generan que los modelos se adapten a datos reales, incluso cuando son escasos o sintéticos.

Meta ya había experimentado con arquitecturas similares en proyectos anteriores, como Data-efficient Image Transformers (DeiT) y DETR, que sentaron las bases para el desarrollo de Sapiens.

Los mecanismos de atención dentro de los transformadores hacen que los modelos se enfoquen dinámicamente en las características más relevantes de una imagen, mejorando la precisión en tareas como la estimación de pose y la segmentación.

Soporte y rendimiento en alta resolución

Sapiens ofrece soporte nativo para inferencia de alta resolución de 1K, mejorando su rendimiento a medida que se incrementa el número de parámetros del modelo.

Por su parte, Meta ha reportado perfeccionamientos en comparación con otros modelos, superando las bases existentes en diversas pruebas de referencia centradas en el ser humano.

Aplicaciones potenciales de Sapiens

Los modelos Sapiens tienen un amplio rango de aplicaciones, desde el entretenimiento, donde pueden mejorar la captura de movimiento y las animaciones CGI, hasta la realidad aumentada y virtual.

Incluso, su capacidad para generalizarse a escenarios reales los hace ideales para su uso en vigilancia, seguridad, y sistemas avanzados de asistencia al conductor.

También cuenta con un potencial en el campo de la salud, con aplicaciones en el análisis de la marcha y la fisioterapia.

Con informacion de Meta Reality Labs y Research & Development World.

Tagged in :

digitalización, Empresas, IA, Inteligencia artificial, meta, Tecnología, tecnologico, Transformación Digital

Carmen Vektra

Fundadora Vektra 374 | Ciencia y Tecnología | Creadora de contenido Tech | Publicista | Mercadóloga

You May Love

Tecnología
El marcapasos celular está en el núcleo, no fuera de él
junio 27, 2025
.
Carmen Vektra
Investigadores del Instituto Francis Crick demostraron que el «marcapasos» que regula la división celular, se encuentra dentro del núcleo.
Inteligencia Artificial
Gemini CLI: Inteligencia artificial en la terminal
junio 26, 2025
.
Carmen Vektra
Gemini CLI es una nueva herramienta de código abierto que lleva el poder de Gemini directamente al terminal de los desarrolladores.
Tecnología
Nueva RTX 5050: potencia accesible con trazado de rayos
junio 25, 2025
.
Carmen Vektra
Nvidia anunció la llegada de la nueva tarjeta gráfica GeForce RTX 5050, una solución accesible tanto para sobremesa como para portátiles.