OpenAI presenta Sora, un modelo de IA revolucionario capaz de transformar instrucciones de texto en videos con excelente calidad.
Sora no solo sigue las indicaciones del usuario, sino que también comprende y simula el mundo físico en movimiento, abriendo nuevas posibilidades para resolver problemas del mundo real.
Capacidades de Sora: Vistazo a su tecnología
Sora puede generar videos de hasta un minuto de duración manteniendo una calidad visual excepcional y adhiriéndose a las indicaciones del usuario.
Actualmente se encuentra disponible para artistas visuales, diseñadores y cineastas, Sora busca mejorar y adaptarse a las necesidades de los profesionales creativos.
Complejidad y detalles precisos
Sora destaca por su capacidad para crear escenas complejas con múltiples personajes, movimientos específicos y detalles precisos del entorno.
Este modelo no solo comprende las instrucciones, sino también la existencia de elementos en el mundo físico.
Desafíos y progreso de Sora
Aunque Sora posee un profundo conocimiento del lenguaje, OpenAI reconoce sus debilidades. Puede enfrentar dificultades para simular con precisión la física de escenas complejas y comprender causas y efectos específicos.
Sin embargo, se destaca en la creación de personajes convincentes con emociones reales.
Comprensión espacial y descripciones temporales
Sora puede confundirse con detalles espaciales y descripciones temporales, como la dirección izquierda-derecha y eventos a lo largo del tiempo.
La empresa creadora de chat GPT se compromete a mejorar estas áreas para ofrecer un modelo más preciso y útil.
Una promesa prioritaria
Antes de su implementación, OpenAI se asegura de aplicar medidas de seguridad rigurosas.
La empresa trabaja actualmente con su equipo de desarrollo para evaluar áreas críticas, y determinar herramientas como un clasificador de detección para identificar contenido generado por Sora.
Además, han implementado Metadatos C2PA para mejorar la seguridad en futuros despliegues.
Con esto buscan la participación de responsables políticos, educadores y artistas para comprender preocupaciones y casos de usos positivos.
Reconocemos que el aprendizaje de su manipulación en el mundo real es esencial para mejorar la seguridad de sistemas de IA a lo largo del tiempo.
Técnicas de investigación: Detrás de Sora
Sora utiliza una arquitectura de transformador, similar a los modelos GPT, permitiendo un rendimiento de escalado superior.
OpenAI representa videos e imágenes como parches, entrenando a Sora en una amplia gama de datos visuales.
Basado en investigaciones previas en modelos DALL·E y GPT, Sora utiliza la técnica de resubtitulado de DALL·E 3 para seguir instrucciones de texto.
Aparte de generar videos a desde texto, Sora puede animar imágenes fijas y extender videos existentes.
Sora como base para el futuro de la IA
Sora marca un paso importante hacia la creación de una IA generalizada.
Aunque enfrenta desafíos, OpenAI están comprometido a mejorar y aprender de la utilizacion de su modelo de IA.
Todo el estudio y su investigación ha sido liderada por Bill Peebles y Tim Brooks.
Con información de OpenAI.
More Stories
Usuarios de iPhone no quieren actualizar hasta que Musi regrese
Apple implementa función de seguridad que reinicia los iPhones
Meta enfrentará juicio de la FTC que podría separar Instagram y WhatsApp