El martes, Microsoft Research Asia presentó un adelanto en la animación digital con el lanzamiento de VASA-1, un modelo de inteligencia artificial capaz de animar fotos estáticas para que se sincronicen con pistas de audio preexistentes.
Capacidades y funcionamiento
VASA-1, acrónimo de “Visual Affective Skills Animator”, utiliza técnicas avanzadas de aprendizaje automático para analizar una imagen fija junto a un clip de audio.
Al aplicar la IA, el resultado es un video animado que exhibe expresiones faciales realistas, movimientos de cabeza y una perfecta sincronización labial sin alterar la voz original.
El modelo supera a sus predecesores en términos de realismo, expresividad y eficiencia, modernizando la animación de rostros a partir de una sola imagen.
Desarrollo y entrenamiento
Para entrenar a VASA-1, los investigadores utilizaron VoxCeleb2, una base de datos que incluye más de un millón de declaraciones de 6.112 celebridades extraídas de videos de YouTube.
Gracias al entrenamiento permite que el modelo genere videos de alta resolución (512×512 píxeles) a una velocidad de hasta 40 cuadros por segundo, ideal para aplicaciones en instantáneas como las videoconferencias.
Implicaciones éticas
A la par de sus numerosas aplicaciones potenciales, VASA-1 también plantea preocupaciones éticas características, especialmente en torno a la creación de contenido falso o engañoso.
Los científicos de Microsoft son conscientes de los riesgos y están trabajando en métodos para detectar y prevenir el uso indebido de la tecnología.
Afirmaron que, aunque el modelo es prometedor para la generación de contenido interactivo y educativo, no tienen intención de lanzar este producto al mercado ni de abrir su código al público general en el corto plazo.
Expectativas de VASA-1
VASA-1 representa un avance notable en la tecnología de animación por IA, con el potencial de transformar cómo interactuamos con los medios digitales.
Pero su desarrollo también subraya la necesidad de considerar cuidadosamente las implicaciones éticas de tales tecnologías, especialmente en lo que respecta a la autenticidad y la manipulación de imágenes y audio.
A medida que esta tecnología se perfecciona, será crucial desarrollar normativas y herramientas que aseguren su uso responsable y seguro.
Con información de Ars Technica.
More Stories
CEO de Automattic paga a empleados en desacuerdo
Android 15 se lanza para AOSP
Unreal Engine 5.5: Versión preliminar con nuevas funciones