Découvrez AudioCraft : le nouvel outil d’IA générative de Meta pour l’audio et la musique

Meta a dévoilé un nouvel outil d’intelligence artificielle générative pour générer de la musique à partir d’invites de texte et a annoncé sa disponibilité en open source à des fins de recherche.

Le nouvel outil appelé AudioCraft se compose de trois modèles : MusicGen, AudioGen et Encodec.

Meta en juin a déclaré avoir utilisé 20 000 heures de musique sous licence pour former MusicGen, qui comprenait 10 000 morceaux de musique sous licence de « haute qualité ». À l’époque, les chercheurs de Meta décrivaient dans un article les défis éthiques qu’ils rencontraient autour du développement de modèles d’IA génératifs comme MusicGen.

Plus récemment, le parent Facebook et Instagram a déclaré que si MusicGen était formé avec de la musique appartenant à Meta et spécifiquement sous licence, AudioGen était formé sur les effets sonores publics pour générer de l’audio à partir d’invites de texte.

La société a également mis à jour son décodeur EnCodec, qui permet « une génération de musique de meilleure qualité avec moins d’artefacts ».

Meta déploie également ses modèles AudioGen pré-formés, permettant aux utilisateurs de générer divers sons et effets sonores environnementaux, tels que des aboiements de chiens, des klaxons de voitures ou des pas sur des sols en bois.

« Nous offrons ces modèles en open source, donnant aux chercheurs et aux praticiens un accès afin qu’ils puissent former leurs propres modèles avec leurs propres ensembles de données pour la première fois, et aider à faire progresser le domaine de l’audio et de la musique générés par l’IA. »

Méta

« Nous offrons ces modèles en open source, donnant aux chercheurs et aux praticiens un accès afin qu’ils puissent former leurs propres modèles avec leurs propres ensembles de données pour la première fois, et aider à faire progresser le domaine de l’audio et de la musique générés par l’IA », a déclaré Meta.

Meta a ajouté qu’il simplifiait la conception globale des modèles génératifs pour l’audio par rapport aux travaux antérieurs sur le terrain, fournissant aux utilisateurs « la recette complète pour jouer avec les modèles existants » que Meta a développés au cours des dernières années.

Les nouveaux outils cherchent à relever les défis dans le domaine de la génération audio en IA par rapport aux modèles conçus pour les images, la vidéo et le texte. La complexité de la modélisation des signaux et des modèles audio à différentes échelles, en particulier pour la musique, a été un défi, a reconnu Meta.

« La musique est sans doute le type d’audio le plus difficile à générer car elle est composée de motifs locaux et à longue portée, d’une suite de notes à une structure musicale globale avec plusieurs instruments. »

Méta

« La musique est sans doute le type d’audio le plus difficile à générer car elle est composée de motifs locaux et à longue portée, d’une suite de notes à une structure musicale globale avec plusieurs instruments », a déclaré la société.

Avec AudioCraft, Meta dit qu’il permet aux musiciens et aux créateurs de s’inspirer, de réfléchir et d’itérer sur des compositions de manière innovante grâce à son interface conviviale.

Meta envisage que MusicGen pourrait potentiellement évoluer vers un nouveau type d’instrument, semblable à l’impact des synthétiseurs lors de leur apparition.

AudioCraft de Meta devrait rivaliser avec MusicLM de Google, un outil qui peut également générer de la musique haute fidélité à partir d’invites de texte et de bourdonnement, qui a été rendu public en mai.

L’industrie de la musique dans le monde