octubre 6, 2024

VEKTRA 374

Sitio web de animación 3D, inteligencia artificial, robótica y tecnología

- Inicio » Neuralangelo, el nuevo modelo de IA de Nvidia Research

Neuralangelo, el nuevo modelo de IA de Nvidia Research

Neuralangelo es el nuevo modelo de Nvidia para la reconstrucción 3D utilizando redes neuronales, convirtiendo video 2D en estructuras 3D.

Neuralangelo es el nuevo modelo de Nvidia para la reconstrucción 3D utilizando redes neuronales, convirtiendo videoclips 2D en estructuras 3D detalladas, generando réplicas virtuales realistas de edificios, esculturas y otros objetos del mundo real.

Al igual que Miguel Ángel esculpiendo impresionantes visiones realistas de bloques de mármol, Neuralangelo genera estructuras 3D con detalles y texturas intrincadas.

Los profesionales creativos pueden importar estos objetos 3D en aplicaciones de diseño, editándolos aún más para su uso en arte, desarrollo de videojuegos, robótica y gemelos digitales industriales.

La capacidad de Neuralangelo para traducir las texturas de materiales complejos, incluidas tejas de techo, paneles de vidrio y mármol liso, de videos 2D a activos 3D supera significativamente los métodos anteriores.

¿Cómo funciona Neuralangelo?

La alta fidelidad hace que sus reconstrucciones 3D sean más fáciles para desarrolladores y profesionales creativos para crear rápidamente objetos virtuales utilizables para sus proyectos utilizando imágenes capturadas por teléfonos inteligentes.

Los modelos anteriores de IA para reconstruir escenas 3D han tenido dificultades para capturar con precisión patrones de textura repetitivos, colores homogéneos y fuertes variaciones de color.

“Las capacidades de reconstrucción 3D que ofrece Neuralangelo serán un gran beneficio para los creadores, ayudándoles a recrear el mundo real en el mundo digital”, dijo Ming-Yu Liu, director senior de investigación y coautor del artículo.

“Esta herramienta eventualmente permitirá a los desarrolladores importar objetos detallados, ya sean pequeñas estatuas o edificios masivos, en entornos virtuales para videojuegos o recursos digitales industriales”.

En una demostración, los investigadores de NVIDIA mostraron cómo el modelo podría recrear objetos tan icónicos como el David de Miguel Ángel y tan comunes como un camión de plataforma.

Neuralangelo también puede reconstruir interiores y exteriores de edificios, lo que se demuestra con un modelo 3D detallado del parque en el campus del Área de la Bahía de Nvidia.

El modelo de renderizado neuronal visto en 3D

Los modelos anteriores de inteligencia artificial para reconstruir escenas 3D han tenido dificultades para capturar con precisión patrones de textura iterativos, colores homogéneos y variaciones de color.

Neuralangelo adopta primitivas de gráficos neuronales instantáneos, detrás está la tecnología de NVIDIA Instant NeRF, para ayudar a capturar dichos detalles más finos.

Usando un video 2D de un objeto o escena filmada desde varios ángulos, el modelo selecciona varios cuadros que capturan diferentes puntos de vista, como un artista que considera un sujeto desde múltiples lados para tener una idea de profundidad, tamaño y forma.

Una vez que se determina la posición de la cámara de cada cuadro, la IA de Neuralangelo crea una representación 3D aproximada de la escena, como un escultor que comienza a cincelar la forma del sujeto.

Luego, el modelo optimiza el renderizado para afilar los detalles, al igual que un escultor talla minuciosamente la piedra para imitar la textura de la tela o una figura humana.

El resultado final es un objeto 3D o una escena a gran escala que se puede utilizar en aplicaciones desde el VR hasta desarrollo de robótica.

¿De qué se compone Neuralangelo?

La reconstrucción de la superficie neuronal ha demostrado ser poderosa para recuperar superficies 3D densas a través de la representación neuronal basada en imágenes.

Sin embargo, los métodos actuales luchan por recuperar estructuras detalladas de escenas del mundo real. Para abordar el problema, Neuralangelo combina el poder de representación de las cuadrículas hash 3D de resolución múltiple con la representación de la superficie neuronal.

El enfoque está habilitado por dos ingredientes clave: (1) gradientes numéricos para calcular derivados de orden superior como una operación de suavizado y (2) optimización de grueso a fino en las cuadrículas hash que controlan diferentes niveles de detalles.

Incluso sin profundidad auxiliar, Neuralangelo puede recuperar eficazmente estructuras de superficie 3D densas a partir de imágenes de múltiples vistas con una fidelidad que supera significativamente los métodos anteriores, lo que permite una reconstrucción detallada de escenas a gran escala a partir de capturas de video RGB. 

Una vez que se determina la posición de la cámara de cada cuadro, la IA de Neuralangelo crea una representación 3D aproximada de la escena, como un escultor que comienza a cincelar la forma del sujeto.

Luego, el modelo optimiza el renderizado para afilar los detalles, al igual que un escultor talla minuciosamente la piedra para imitar la textura de la tela o una figura humana.

El resultado final es un objeto 3D o una escena a gran escala que se puede utilizar en aplicaciones de realidad virtual, gemelos digitales o desarrollo de robótica.