Meta vient de publier un générateur de musique AI qui a été formé sur 20 000 heures de musique sous licence

Stat Of The Week de MBW est une série dans laquelle nous mettons en évidence un point de données qui mérite l’attention de l’industrie mondiale de la musique. Stat Of the Week est soutenu par Cinq Music Group, une maison de disques axée sur la technologie, une société de distribution et de gestion des droits.


Des chercheurs de la société mère de Facebook, Meta, ont développé un générateur de texte en musique basé sur l’IA appelé MusicGen.

Le modèle de langage, décrit par l’équipe de recherche Audiocraft de Meta comme « un modèle simple et contrôlable pour la génération de musique », peut prendre des invites textuelles comme, par exemple, « folk acoustique entraînant » et les transformer en nouveaux clips musicaux de 12 secondes.

Le modèle, sorti en open source ce week-end, peut également utiliser des invites mélodiques pour générer de la nouvelle musique, c’est-à-dire à partir d’un morceau qui existe déjà. Vous pouvez voir une démo ici.

Meta dit avoir utilisé 20 000 heures de musique sous licence pour former MusicGen, qui comprenait 10 000 morceaux de musique sous licence de « haute qualité ».

Tech Crunch rapporte que 390 000 pistes réservées aux instruments de ShutterStock et Pond5 ont également été utilisées.

L’entrée de Meta dans le monde de l’IA texte-musique marque un moment important dans cet espace en évolution rapide, la société devenant le dernier géant de la technologie, après Google, à développer son propre modèle de langage capable de générer de la nouvelle musique à partir d’invites de texte.

Google a dévoilé MusicLM, un outil « d’IA expérimentale » capable de générer de la musique haute fidélité à partir d’invites textuelles et de fredonnements, en janvier, et l’a rendu public le mois dernier.

Google explique qu’au niveau de l’utilisation publique, son outil MusicLM fonctionne en tapant une invite comme « jazz soulful pour un dîner ».

Le modèle MusicLM créera alors deux versions de la chanson demandée pour la personne saisissant l’invite. Vous pouvez ensuite voter pour celui que vous préférez, ce qui, selon Google, « aidera à améliorer le modèle d’IA ». Le modèle de Google a été formé sur cinq millions de clips audio, soit 280 000 heures de musique à 24 kHz.


Le Décodeur rapporte que, « par rapport à d’autres modèles musicaux tels que Riffusion, Mousai, MusicLM et Noise2Music, MusicGen fonctionne mieux sur les mesures objectives et subjectives qui testent à quel point la musique correspond aux paroles et la plausibilité de la composition ».

Vous pouvez voir les comparaisons entre la musique générée par les différents modèles ici.

Selon le chercheur scientifique de Facebook Gabriel Synnaeve, qui a annoncé la publication de la recherche via LinkedIn au cours du week-end, Meta a publié « du code (MIT) et des modèles pré-entraînés (CC-BY non commerciaux) pour la recherche ouverte, la reproductibilité et pour le communauté musicale plus large pour étudier cette technologie ».

Les chercheurs de Meta ont également publié un article décrivant le travail de formation du modèle. Dans le document, ils décrivent les défis éthiques liés au développement de modèles d’IA générative.

Selon l’article, l’équipe de recherche « s’est d’abord assurée que toutes les données sur lesquelles nous nous sommes entraînés étaient couvertes par des accords juridiques avec les titulaires de droits, notamment via un accord avec ShutterStock ».

« Les modèles génératifs peuvent représenter une concurrence déloyale pour les artistes, ce qui est un problème ouvert. »

Livre blanc Musicgen

Le document ajoute : « Un deuxième aspect est le manque potentiel de diversité dans l’ensemble de données que nous avons utilisé, qui contient une plus grande proportion de musique de style occidental.

« Cependant, nous pensons que la simplification que nous opérons dans ce travail, par exemple en utilisant un modèle de langage à une seule étape et un nombre réduit d’étapes auto-régressives, peut aider à élargir les applications à de nouveaux ensembles de données. »

Un autre défi mis en évidence par l’article est que « les modèles génératifs peuvent représenter une concurrence déloyale pour les artistes, ce qui est un problème ouvert ».

Le document ajoute : « La recherche ouverte peut garantir que tous les acteurs ont un accès égal à ces modèles. Grâce au développement de commandes plus avancées, telles que le conditionnement mélodique que nous avons introduit, nous espérons que ces modèles pourront devenir utiles à la fois aux amateurs de musique et aux professionnels.


La nouvelle de la recherche musicale sur l’IA de Meta arrive à un moment d’inquiétude croissante concernant l’utilisation de l’IA générative dans le secteur de la musique, en raison de problèmes liés à la violation du droit d’auteur et de la vaste offre quotidienne de contenu aux DSP.

En avril, des productions musicales générées par l’IA qui imitent la voix d’artistes superstars ont dominé les gros titres après une chanson intitulée Avoir le coeur sur la mainavec des voix générées par l’IA copiant les voix de Drake et The Weeknd, est devenue virale.

La piste, téléchargée par un artiste appelé ghostwriter, a ensuite été supprimée de YouTube, Spotify et d’autres plateformes. Sur YouTube, une confirmation de ce qui a déclenché le retrait de la piste de cette plate-forme est apparue sur la page d’accueil du téléchargement YouTube désormais disparu de ghostwriter.

Il disait: « Cette vidéo n’est plus disponible en raison d’une réclamation pour droit d’auteur par Universal Music Group. »

S’exprimant lors de l’appel sur les résultats du premier trimestre d’Universal Music Group en avril, Sir Lucian GraingePDG et président d’Universal Music Group, a noté que : « Contrairement à ses prédécesseurs, une grande partie des dernières technologies d’IA générative [i.e. ‘fake Drake’] est formé sur du matériel protégé par des droits d’auteur, ce qui viole clairement les droits des artistes et des labels et mettra les plateformes complètement en contradiction avec les partenariats avec nous et nos artistes et ceux qui conduisent au succès.

Dans ses remarques liminaires aux analystes lors de ce même appel, Sir Lucian Grainge a également critiqué la « suroffre de contenu » qui voit actuellement environ 120 000 pistes par jour distribuées aux services de streaming musical.

« Peu de gens se rendent compte que l’IA a déjà été un contributeur majeur à cette offre excédentaire de contenu », a déclaré Grainge. « La plupart de ce contenu d’IA sur les DSP provient de la génération précédente d’IA, une technologie qui n’est pas formée sur la propriété intellectuelle protégée par le droit d’auteur et qui produit une sortie de très mauvaise qualité avec pratiquement aucun attrait pour le consommateur. »


La montée en puissance des plates-formes d’IA qui permettent aux utilisateurs de créer de vastes volumes de pistes en appuyant simplement sur un bouton a également révélé le potentiel d’utilisation de l’IA générative pour la fraude en streaming.

Grâce aux applications musicales IA génératives, de gros volumes de contenu audio peuvent être créés par des fraudeurs et téléchargés sur des DSP dans le but d’accumuler un grand nombre de lectures de ce contenu via des « fermes de streaming » pilotées par des robots.

En avril, Spotify a supprimé un nombre important de pistes – dont beaucoup ont été créées via la plateforme de création musicale AI Boomy – de son service, citant des « cas potentiels de manipulation de flux ». (Il n’y avait aucune suggestion que Boomy lui-même était responsable de la « manipulation de flux » en question).

En janvier, nous avons rendu compte d’une récente étude française montrant que jusqu’à 3% des flux musicaux sur des services comme Spotify sont connu pour être frauduleux.

La semaine dernière, un service de streaming musical né en France Déezer a défini une stratégie pour faire face à la fois à la montée de la musique IA et aux activités de streaming frauduleuses sur sa plate-forme.

L’annonce de Deezer fait suite aux remarques faites à propos de l’IA par Jeronimo Folgueira, PDG de Deezer, aux analystes lors de l’appel aux résultats du premier trimestre de la société en avril, lorsqu’il a déclaré : « Nous voulons offrir à nos clients une expérience de haute qualité et un contenu pertinent, donc évidemment faire en sorte que l’IA inonde notre catalogue n’est pas quelque chose qui nous tient vraiment à cœur, et nous y travaillons.

Lors de ce même appel, cependant, Folgueira a révélé que Deezer avait lui-même utilisé l’IA pour générer du contenu pour son application de bien-être récemment lancée, Zen par Deezerqui propose de la musique et du contenu audio pour faciliter le sommeil, la relaxation et la méditation.


Un certain nombre d’entités du secteur de la musique adoptent également la technologie musicale AI pour diverses applications.

La chanteuse, compositrice et productrice de disques canadienne Grimes, par exemple, a lancé un nouveau projet d’IA en version bêta le mois dernier, invitant les utilisateurs à créer des chansons en utilisant sa voix en échange d’une part de 50 % des redevances d’enregistrement maître.

Lundi 12 juin, le distributeur de musique appartenant à Believe, TuneCore, a annoncé qu’il s’était associé à CreateSafe et Grimes pour permettre aux artistes de TuneCore de distribuer les collaborations créées via Elf.Tech AI de Grimes sur toutes les principales plateformes de streaming.

Le mois dernier, le géant sud-coréen du divertissement HYBE a sorti un nouveau single intitulé Mascarade que HYBE prétendait être la « première piste multilingue produite en coréen, anglais, japonais, chinois, espagnol et vietnamien ».

Selon HYBE, l’artiste derrière le morceau, MIDNATT, a chanté la voix dans ces six langues, et en utilisant l’IA, « les données de prononciation des locuteurs natifs ont été appliquées au morceau pour affiner davantage la prononciation et l’intonation de l’artiste ».

La piste multilingue utilise la technologie développée par Supertone, la fausse société d’intelligence artificielle vocale HYBE acquise l’année dernière dans le cadre d’un accord d’une valeur d’environ 32 millions de dollars, à la suite d’un investissement initial dans la startup en février 2021.


Le répertoire de Cinq Music Group a remporté des prix Grammy, des dizaines de certifications RIAA Or et Platine et de nombreuses positions de n ° 1 sur une variété de palmarès Billboard. Son répertoire comprend des poids lourds tels que Bad Bunny, Janet Jackson, Daddy Yankee, TI, Sean Kingston, Anuel et des centaines d’autres.L’industrie de la musique dans le monde