El sistema VASA puede convertir una imagen estática en un video de una persona gesticulando y hablando.
Por Infobae
Microsoft ha presentado un sistema de inteligencia artificial para generar avatares hiperrealistas. Este sistema, conocido como VASA, tendrá la capacidad de usar IA para recrear rostros humanos con una sorprendente precisión y expresividad.
Desde el lanzamiento de su asistente Copilot el año pasado, la compañía ha estado consolidando su posición en el campo de la inteligencia artificial, y ahora, con esta nueva herramienta, amplía aún más su catálogo de sistemas impulsados por esta tecnología.
¿Qué es VASA?
VASA es un sistema de IA desarrollado por Microsoft que utiliza avanzados modelos de aprendizaje automático para crear avatares hiperrealistas a partir de imágenes estáticas y fragmentos de voz. Este sistema es capaz de dotar de una notable expresividad a los avatares virtuales mientras interactúan en vídeos generados a partir de una imagen estática y un fragmento de voz.
Este avance no solo permite la creación de avatares que parecen reales, sino que también gesticulan y hablan de manera convincente en tiempo real, gracias a la precisión en la sincronización de los movimientos labiales con el audio.
El desarrollo de VASA ha sido el resultado de una investigación y desarrollo por parte del equipo de Microsoft. Este sistema incorpora herramientas de IA como StyleGAN2 y DALL·E-3, que permiten generar una amplia gama de emociones y matices faciales, así como movimientos naturales de la cabeza.
La compañía entrenó su modelo con una amplia colección de videos de personas hablando, utilizando un enfoque 3D para capturar más detalles sobre la cara y su movimiento en un espacio tridimensional. Este enfoque permite modelar la dinámica facial de manera más realista, lo que se refleja en la expresividad y el realismo de los avatares generados por VASA.
El funcionamiento de VASA es muy sencillo. Solo se necesita una imagen estática y un fragmento de audio con voz para crear un avatar realista. A partir de estos datos, el sistema genera un video donde el avatar habla y gesticula de manera convincente, con una resolución de 512 x 512 píxeles a 45 fotogramas por segundo en modo offline, y 40 fotogramas por segundo con una latencia de 170 ms en modo online.
Esta herramienta utiliza un enfoque 3D para capturar más detalles sobre la cara y cómo se mueve en un espacio tridimensional. Además, acepta señales adicionales, como la dirección de la mirada principal y la distancia de la cabeza, así como emociones, para generar avatares con diferentes expresiones.
Para lograr este resultado no solo se debe tener una imagen de una persona real, sino que también es posible usar otros contenidos, como imágenes animadas, pinturas o diseños previamente generados con inteligencia artificial.
El programa permite generar un avatar de una misma persona y con la misma pista de audio, pero expresando diferentes emociones, lo que da un resultado cambiante al entregar diferentes emociones con una misma persona.
Microsoft no publicará esta IA
VASA tiene el potencial de revolucionar diversas industrias y campos, desde el entretenimiento hasta la educación y la atención médica. Los avatares generados por este sistema podrían utilizarse para crear contenido multimedia más convincente y atractivo, o para desarrollar aplicaciones de asistencia virtual más avanzadas.
Sin embargo, a pesar de los avances tecnológicos y las posibles aplicaciones prometedoras de esta herramienta, Microsoft ha dejado claro que no tiene planes de lanzar públicamente VASA debido a los riesgos potenciales que podría conllevar su mal uso, especialmente en lo que respecta a la suplantación de identidades.
El desarrollo responsable de la inteligencia artificial es una prioridad para la compañía, y están comprometidos a evitar cualquier aplicación negativa de esta tecnología. Además, la empresa está explorando cómo esta herramienta podría contribuir a la detección de falsificaciones y a la protección contra la desinformación.