Stability AI lance un générateur de texte-musique formé sur du contenu sous licence via un partenariat avec la bibliothèque musicale AudioSparx

Stability AI, connu pour son générateur de texte en image à intelligence artificielle, est entré dans le monde de la musique IA.

La société basée à Londres a annoncé mercredi 13 septembre le lancement de Stable Audio, un générateur d’IA qui est l’équivalent musical de Stable Diffusion, son outil de génération d’images qui a contribué à faire de l’entreprise une licorne de l’IA l’année dernière.

Le nouveau générateur de texte en musique fonctionne en prenant une série d’indices verbaux saisis par un utilisateur et en les transformant en piste audio.

Par exemple, si vous saisissez « post-rock, guitares, batterie, basse, cordes, euphorique, exaltant, maussade, fluide, brut, épique, sentimental, 125 BPM », vous obtiendrez ce morceau.

La version gratuite, destinée uniquement à un usage non commercial, permet aux utilisateurs de créer des pistes de 20 secondes, tandis que la version Pro, destinée aux produits commerciaux comptant moins de 100 000 utilisateurs actifs mensuels (MAU), permet des pistes allant jusqu’à 90 secondes. long.

Les produits commerciaux comportant plus de 100 000 MAU nécessitent une licence d’entreprise.

Contrairement à certains autres produits d’IA, l’algorithme d’IA derrière Stable Audio a été formé sur du contenu sous licence, via un partenariat entre Stability AI et la bibliothèque musicale AudioSparx.

La technologie derrière Stable Audio est similaire à celle utilisée dans le générateur d’images Stable Diffusion, s’appuyant sur une architecture d’IA de « diffusion latente ». En termes simples, cela signifie que l’algorithme peut être entraîné plus rapidement et générer du contenu plus rapidement, en mappant les données avec lesquelles il travaille dans un espace virtuel simple, ce qui facilite l’analyse.

Stability AI affirme que sa technologie est « la première du secteur » à utiliser cette technique pour générer de l’audio.

« Grâce aux dernières avancées en matière de techniques d’échantillonnage par diffusion, notre modèle phare Stable Audio est capable de restituer 95 secondes d’audio stéréo à une fréquence d’échantillonnage de 44,1 kHz en moins d’une seconde sur un NVIDIA A100. [graphics processing unit]», déclare Stability AI sur son site Internet.

« En tant que seule société d’IA générative indépendante, ouverte et multimodale, nous sommes ravis d’utiliser notre expertise pour développer un produit destiné à soutenir les créateurs de musique », a déclaré Emad Mostaque, PDG de Stability AI, dans un communiqué.

« Nous espérons que Stable Audio permettra aux passionnés de musique et aux professionnels de la création de générer de nouveaux contenus avec l’aide de l’IA, et nous attendons avec impatience les innovations infinies qu’il inspirera. »

Le produit Stable Diffusion de la société, lancé en août de l’année dernière, est devenu l’un des générateurs de texte en image les plus populaires du marché, contribuant ainsi à propulser Stability AI à une valorisation boursière de 1 milliard de dollars américains en octobre dernier, sur la base d’un cycle de financement au cours duquel il a levé 101 millions de dollars. Selon un rapport de Forbes du printemps dernier, la société cherche désormais à lever des fonds à une valorisation d’environ 4 milliards de dollars.

Stability AI fait son chemin dans l’espace musical depuis un certain temps déjà. L’un des groupes de recherche de son écosystème est Harmonai, une organisation « communautaire » qui publie des outils audio génératifs open source.

La société s’est également associée au légendaire rocker Peter Gabriel dans le cadre d’un concours appelé « DiffuseTogether » dans lequel les participants étaient invités à soumettre une vidéo générée par l’IA sur la musique de Gabriel.

« Nous espérons que Stable Audio permettra aux passionnés de musique et aux professionnels de la création de générer de nouveaux contenus avec l’aide de l’IA, et nous attendons avec impatience les innovations infinies qu’il inspirera. »

Emad Mostaque, IA de stabilité

Notamment, Stability AI a embauché Ed Newton-Rex, qui – entre autres – a fondé et créé la plateforme de création musicale IA Jukedeck. Il a également travaillé comme directeur de produit dans le laboratoire d’IA interne de TikTok et est maintenant vice-président de l’audio chez Stability AI.

Dans une interview avec MBW au printemps dernier, Newton-Rex a suggéré que – loin d’être une menace – la technologie de l’IA serait une aubaine majeure pour les musiciens et pour le secteur de la musique.

« L’IA sera à son apogée [as] un outil utilisé par les musiciens d’innombrables manières différentes. Franchement, [that includes] des façons que même les gens comme moi qui travaillent dans l’industrie aujourd’hui ne peuvent pas encore prévoir », a-t-il déclaré.

Selon Newton-Rex, « le principal avantage [of AI] pour l’industrie musicale augmente la valeur pour les titulaires de droits. Cela peut paraître contre-intuitif [in the context of debates around AI making music] mais lorsque vous disposez de l’IA, la musique que vous écrivez ou que vous possédez peut devenir bien plus précieuse, car ce n’est plus seulement une chose statique. Il peut être modifié.

« Alors peut-être qu’un morceau que vous avez écrit ou que vous avez dans votre bibliothèque est allongé pour s’adapter à une autre publicité télévisée, peut-être que l’instrumentation est modifiée pour obtenir la bonne ambiance dans une vidéo, peut-être que vous modifiez tout le style pour l’adapter à quelque chose. totalement nouveau.

Il y a des gens « qui réalisent l’opportunité que l’IA générative peut apporter au secteur de la musique », a-t-il ajouté.

« Je pense que les ayants droit sont dans une très bonne position. Et si vous voulez… une musique qui réagit à votre course [as you exercise]? Les ayants droit qui possèdent les chansons que les gens aiment écouter sont dans une position idéale [for that]. Parce que l’IA n’est pas seulement générative, elle est aussi adaptative.Entreprise de musique dans le monde