03yhs9og.bmp
|

El nuevo generador de vídeo EMO de Alibaba hace que las fotos hablen y canten

La multinacional china Alibaba, más conocida por sus operaciones de comercio electrónico, también invierte mucho en proyectos de desarrollo tecnológico. Los investigadores del Instituto de Computación Inteligente de la empresa mostraron su nuevo generador de vídeo de IA, EMO.

EMO, o Emote Portrait Alive, es un «marco de generación de retratos y vídeos expresivos basados en audio» que convierte una única imagen fija de referencia y audio vocal en un vídeo de avatar animado con expresiones faciales y poses.

1y5w0ogc.bmp

Entre los numerosos ejemplos creados por el equipo se encuentra tomar a una mujer con gafas de sol generada por IA del debut de Sora de OpenAI y hacerla cantar «Don’t Start Now» de Dua Lipa. Afortunadamente, el personaje es una de las creaciones menos terroríficas de Sora.

Otro ejemplo muestra una foto generada por IA de la Mona Lisa de Da Vinci y la hace cantar «Flowers» de Miley Cyrus, versionada por YUQI. En otro clip, Audrey Hepburn canta una versión de un tema de Ed Sheeran. El canal de YouTube RINKI recopiló todos los vídeos de demostración de Alibaba y los amplió a 4K.

Una parte fundamental de EMO es que puede sincronizar los labios de un videoclip sintetizado con el audio real, por lo que el modelo admite canciones en varios idiomas. También funciona con numerosos estilos artísticos, ya sea fotografía, pintura o dibujos animados de estilo anime. También funciona con otras entradas de audio, como el habla típica.

En teoría, una entrada de audio tampoco tendría que ser «auténtica». Esta misma semana, Adobe ha presentado una nueva plataforma de IA generativa capaz de crear música a partir de mensajes de texto. Y como bien saben famosos como Taylor Swift, es muy sencillo generar voces que suenen realistas.

03yhs9og.bmp

El modelo, basado en una columna vertebral de difusión estable, no es el primero de su clase, pero podría decirse que es el más eficaz. Hay imperfecciones notables en este esfuerzo inicial, como un efecto de suavizado bastante fuerte en la piel de las personas y movimientos de la boca ocasionalmente discordantes. Aun así, la precisión general de los movimientos de los labios en respuesta al audio de entrada es notable.

La investigación completa del Alibaba Institute for Intelligent Computing está publicada en Github, y el artículo de investigación asociado está disponible en ArXiv.

Entra en el nuevo mundo y aprende con estos recursos sobre la IA