Conoce a Riffusion, un modelo de IA que compone música visualizándola y saca partido en el nuevo mundo dominado por la IA

Aunque la idea de la música generada por inteligencia artificial ya es novedosa, Riffusion sube la apuesta con una técnica creativa y alocada que genera música extraña e intrigante utilizando imágenes de audio en lugar de audio real.

Por extraño que parezca, el comentario es acertado. Pero si funciona, funciona. Además, es eficaz. En cualquier caso, es así y esta aquí para quedarse.

¿Que es Riffusion?

Durante los últimos 12 meses, el campo de la inteligencia artificial ha recibido un enorme impulso gracias a un método de aprendizaje automático llamado Diffusion, que se utiliza para generar imágenes. Los métodos más conocidos, DALL-E 2 y Stable Diffusion, funcionan sustituyendo gradualmente el ruido visual por el aspecto que la IA cree que debería tener una imagen.

La técnica ha sido eficaz en una amplia variedad de entornos y es muy susceptible de ajustes finos, en el que una gran cantidad de un solo tipo de contenido se envía al modelo mayoritariamente entrenado para que pueda aprender a producir ejemplos adicionales de ese tipo de contenido. Se le puede entrenar en tipos específicos de obras de arte, como acuarelas o fotografías de vehículos, y luego utilizar ese conocimiento para que sea más preciso a la hora de duplicar ese tipo de obras de arte.

Para su proyecto paralelo Riffusion, Seth Forsgren y Hayk Martiros optimizaron Stable Diffusion con espectrogramas.

Forsgren explicó que él y su compañero de banda Hayk iniciaron el proyecto «simplemente porque nos encanta la música» y tenían curiosidad por saber si Stable Diffusion podría generar una imagen de espectrograma con la fidelidad suficiente para transferirla al audio. A medida que hemos ido avanzando, no ha dejado de sorprendernos el alcance de lo que es factible; además, parece que cada nuevo concepto lleva de forma natural a otro aún mejor.

¿Qué son los espectrogramas?

Es una forma de visualizar el audio representando la intensidad relativa de varias frecuencias a lo largo del tiempo. Seguro que conoces las formas de onda, que representan los cambios de volumen a lo largo del tiempo haciendo que la música parezca una serie de colinas y valles; ahora, supón que también se mostrara el volumen de cada frecuencia, de menor a mayor.

Aquí tienes un fragmento de una canción que he creado («Marconi’s Radio» de Secret Machines, por si te lo estabas preguntando):

A medida que avanza la canción, el volumen aumenta de forma generalizada, lo que permite seguir el volumen de cada instrumento y escuchar la progresión de la melodía. No es un método sin pérdidas, pero proporciona una representación detallada y organizada del sonido. Y si se invierte el proceso, se puede recuperar el archivo de sonido original.

Forsgren y Martiros crearon espectrogramas de varias composiciones musicales y anotaron los visuales resultantes con etiquetas específicas de cada género, como «guitarra blues«, «piano jazz«, «afrobeat«, etcétera. Estos datos ayudaron al modelo a entender qué «aspecto» tienen los distintos sonidos y cómo pueden recrearse o combinarse.

Echa un vistazo a cómo se ve el proceso de difusión en acción mientras afina la imagen:

via GIPHY

Cuando se le introducían géneros musicales e instrumentos como «piano funky«, «saxofón jazzy«, etc., el modelo era capaz de generar espectrogramas que encajaban bien con la acústica. He aquí un ejemplo:

Una canción de tres minutos sería un rectángulo mucho más amplio de lo que puede representar un espectrograma cuadrado (512 por 512 píxeles, la resolución habitual de Stable Diffusion). No podían limitarse a hacer un espectrograma de 512 píxeles de alto y 10.000 de ancho debido a las limitaciones del sistema que habían construido, pero nadie quiere escuchar música durante cinco segundos seguidos.

Probaron varios enfoques antes de decidirse por la estructura subyacente de modelos enormes con mucho «espacio latente«, como la difusión estable [Stable Diffusion]. Esta zona se asemeja al vacío entre dos puntos claramente definidos. Si el modelo se dividiera en dos partes, una que representara a los gatos y otra a los perros, la zona intermedia sería espacio latente que, si se instruyera, daría lugar a que la IA dibujara un perro-gato o un perro-gato, aunque estos animales no existan en el mundo real.

Sin embargo, el proyecto Riffusion no crea escenarios de pesadilla. En cambio, han descubierto que si le das dos pistas, como «campanas de iglesia» y «ritmos electrónicos«, hará una transición orgánica y gradual entre las dos, justo al compás:

Es un sonido inusual e intrigante, pero no especialmente complicado ni de alta fidelidad; recordemos que ni siquiera estaban seguros de que los modelos de difusión pudieran hacerlo, así que la facilidad con la que éste convierte campanas en ritmos o pulsaciones de máquina de escribir en piano y bajo es realmente impresionante.

La producción de archivos más largos es teóricamente factible, pero aún no se ha probado:

Forsgren ha dicho que el grupo no ha intentado escribir una canción de rock tradicional de tres minutos con un estribillo ganchero y unas pocas letras. Creo que es posible con algunos métodos ingeniosos, como modelar la estructura general de una canción a un nivel superior y luego utilizar ese modelo para analizar porciones individuales. Si se quiere, también se puede entrenar intensivamente nuestro modelo utilizando fotos de alta resolución de canciones completas.

¿Como sacar partido y ganar dinero con Riffusion?

Los sitios de mixes y beats como Epidemic Sound y Audio Jungle de Envato, son muy populares entre los creadores de contenido y cualquiera que necesite un trozo de música para un proyecto en particular, si has navegado por estos sitios, veras que estas canciones son cortas y repetitivas, diseñadas especialmente para música de fondo.

Pues bueno, ahora con la IA entrando en muchos campos que se creían dominados única y exclusivamente por el talento humano, se podrían crear sonidos similares, con cierto ritmo que se puedan comercializar , de la misma manera que con las imágenes.

¿Cuál es el siguiente paso?

Otros grupos están intentando generar música utilizando IA utilizando una gran variedad de métodos, incluidos los modelos de síntesis de voz y los de audio especialmente entrenados, como Dance Diffusion.

Forsgren y Martiros afirman que están encantados de ver cómo la gente conecta con su trabajo, se divierte y lo repite, y que Riffusion es más una demostración de «mira esto» que una gran estrategia para cambiar la música.

Hay mucho que aprender por el camino, y estamos entusiasmados con las posibles vías que hemos identificado. Ha sido emocionante observar esta mañana cómo otros amplían nuestro código para poner en práctica sus propias ideas. La velocidad con la que la comunidad de Stable Diffusion construye sobre el trabajo existente de maneras que los escritores originales nunca podrían haber imaginado es realmente notable.

Si estás interesado en probarlo, en Riffusion.com encontrarás una muestra en vivo; sin embargo, puede que tengas que esperar a que tus imágenes se rendericen, ya que ha recibido más atención de la que los desarrolladores habían previsto. Todo el código está en la página de Riffusion.com, así que si tienes capacidad de procesamiento, también puedes ejecutar el tuyo propio.