La mise à jour Stable Audio de Stability AI permet la production de chansons complètes à partir de texte ou d'audio

Le développeur d'intelligence artificielle Stability AI a dévoilé Stable Audio 2.0, la prochaine itération de son système de génération de texte en musique.

La dernière version aide les artistes et les musiciens avec une gamme plus large d'outils créatifs et la possibilité de produire des morceaux de musique complets « avec une structure de chanson traditionnelle et une qualité audio élevée » en utilisant des invites en langage naturel, a annoncé la société mercredi 3 avril.

Stable Audio 1.0, sorti en septembre dernier, a attiré l'attention grâce à sa capacité à créer de courts clips audio basés sur des descriptions textuelles. Il a été nommé l'un des Les meilleures inventions de TIME en 2023.

La nouvelle version étend cette base, permettant aux utilisateurs de générer des chansons complètes d'une durée maximale de trois minutes à la fois. Stéréo 44,1 kHz. Ce délai prolongé ouvre les portes à une plus grande variété de créations musicales, des instrumentaux complets aux compositions structurées avec intros, sections de développement et outros.

« Stable Audio 2.0 établit une nouvelle norme en matière d'audio généré par l'IA », a déclaré Stability AI dans un article de blog. « Le nouveau modèle introduit la génération audio-audio en permettant aux utilisateurs de télécharger et de transformer des échantillons à l'aide d'invites en langage naturel.

Au-delà de la longueur accrue, Stable Audio 2.0 offre également d'autres fonctionnalités, notamment de nouvelles capacités « audio-audio » qui permettent aux utilisateurs de télécharger leurs propres échantillons audio pour définir le style et le son des sorties générées par l'IA.

« Grâce aux invites texte-audio et audio-audio, les utilisateurs peuvent produire des mélodies, des pistes d'accompagnement, des stems et des effets sonores, améliorant ainsi le processus créatif. »

IA de stabilité

« Notre modèle audio le plus avancé à ce jour élargit la boîte à outils créative pour les artistes et les musiciens avec ses nouvelles fonctionnalités. Grâce aux invites texte-audio et audio-audio, les utilisateurs peuvent produire des mélodies, des pistes d'accompagnement, des stems et des effets sonores, améliorant ainsi le processus créatif », a déclaré Stability AI.

La sortie de Stable Audio 2.0 intervient au milieu d’une période de changement interne chez Stability AI. Ed Newton-Rexl'ancien vice-président de l'audio de la société, a récemment quitté l'entreprise en raison de désaccords sur l'utilisation de matériels protégés par le droit d'auteur dans les ensembles de données de formation.

« Des entreprises valant des milliards de dollars forment, sans autorisation, des modèles d'IA génératifs sur les œuvres des créateurs, qui sont ensuite utilisés pour créer de nouveaux contenus qui, dans de nombreux cas, peuvent rivaliser avec les œuvres originales. Je ne vois pas comment cela peut être acceptable dans une société qui a mis en place l'économie des arts créatifs de telle sorte que les créateurs dépendent du droit d'auteur », a déclaré Newton-Rex, qui a contribué au développement de Stable Audio, dans une lettre publique de démission. Il a depuis lancé une initiative visant à évaluer et certifier les modèles d'IA sur la base de leur respect des droits des créateurs.

Stability AI a répondu aux préoccupations en matière de droits d'auteur concernant le développement de son IA, en déclarant : « Stable Audio 2.0 a été exclusivement formé sur un ensemble de données sous licence du AudioSparx bibliothèque musicale, honorant les demandes de désinscription et garantissant une rémunération équitable aux créateurs.

Le modèle 1.0 a également été formé à l'aide des données de AudioSparxqui comprend plus de 800 000 fichiers audio contenant de la musique, des effets sonores et des tiges d'instrument unique, ainsi que les métadonnées de texte correspondantes.

« Stable Audio 2.0 est l'un des outils musicaux d'IA générative les plus puissants et les plus flexibles disponibles et permet aux musiciens, producteurs et autres créateurs d'utiliser l'IA comme outil collaboratif pour la composition musicale, l'expérimentation audio et la création de contenu – comme jamais auparavant. .»

IA de stabilité

La mise à jour a également intégré Magie audible pour analyser les téléchargements audio à la recherche de violations du droit d'auteur. Audible Magic propose une technologie de reconnaissance de contenu pour faciliter la correspondance de contenu en temps réel afin d'éviter toute violation du droit d'auteur.

Stable Audio 2.0 introduit également des fonctionnalités telles que Transfert de style pour faire correspondre l'audio généré ou téléchargé aux pistes existantes, à la création SFX et aux variations.

« Stable Audio 2.0 est l'un des outils musicaux d'IA générative les plus puissants et les plus flexibles disponibles et permet aux musiciens, producteurs et autres créateurs d'utiliser l'IA comme outil collaboratif pour la composition musicale, l'expérimentation audio et la création de contenu – comme jamais auparavant. », a déclaré Stability AI dans un communiqué.

Stability AI propose également des détails techniques sur l'architecture du modèle, expliquant son efficacité à générer des compositions musicales de haute qualité.

« Un nouvel encodeur automatique hautement compressé compresse les formes d'onde audio brutes en représentations beaucoup plus courtes. Pour le modèle de diffusion, nous utilisons un transformateur de diffusion (DiT), semblable à celui utilisé dans Diffusion stable 3à la place du précédent U-Net, car il est plus apte à manipuler des données sur de longues séquences.

« La combinaison de ces deux éléments aboutit à un modèle capable de reconnaître et de reproduire les structures à grande échelle essentielles aux compositions musicales de haute qualité. »

Le nouveau modèle est disponible gratuitement sur le site Web de Stable Audio et sera bientôt disponible sur le API audio stable.

Stability AI a également lancé Radio stableun flux en direct 24h/24 et 7j/7 qui présente des pistes générées par Stable Audio.