Google a formé « l’IA expérimentale » pour générer des chansons haute fidélité à partir d’invites textuelles. Il est maintenant accessible au public

En janvier, Google a dévoilé MusicLM, un outil « d’IA expérimentale » capable de générer de la musique haute fidélité à partir d’invites textuelles et de fredonnements.

L’outil est maintenant disponible pour que le public puisse le tester.

Google explique qu’au niveau de l’utilisation publique, l’outil fonctionne en tapant une invite comme « jazz soulful pour un dîner ».

Le modèle MusicLM créera alors deux versions de la chanson demandée pour la personne saisissant l’invite. Vous pouvez ensuite voter pour celui que vous préférez, ce qui, selon Google, « aidera à améliorer le modèle d’IA ».

Le modèle a été formé sur cinq millions de clips audio, soit 280 000 heures de musique à 24 kHz.

Au moment de son dévoilement en janvier, Google a publié un ensemble d’exemples des capacités de « génération audio » de l’outil « à partir de légendes riches », dont vous pouvez écouter les résultats ici.

Google affirme que « que vous soyez musicien professionnel ou débutant, MusicLM est un outil expérimental qui peut vous aider à exprimer votre créativité ».

Hier, la société a publié un « aperçu des coulisses » de MusicLM utilisé par un artiste sonore, un artiste Google Arts & Culture en résidence et un chercheur Google :



Google a également publié un article en janvier décrivant les recherches menées pour développer l’outil.

Selon les chercheurs de Google, « les travaux futurs pourraient se concentrer sur la génération de paroles, ainsi que sur l’amélioration du conditionnement du texte et de la qualité vocale. Un autre aspect est la modélisation de la structure de la chanson de haut niveau comme l’introduction, le couplet et le refrain ».

Le document de recherche, qui suggère que MusicLM, « étend encore l’ensemble d’outils qui aident les humains dans les tâches musicales créatives », a également ajouté qu' »il existe plusieurs risques associés à notre modèle et au cas d’utilisation auquel il s’attaque ».

Selon les chercheurs, parmi ces risques figurent que « les échantillons générés reflètent les biais présents dans les données de formation, ce qui soulève la question de la pertinence de la génération musicale pour les cultures sous-représentées dans les données de formation, tout en soulevant des inquiétudes quant à la culture appropriation ».

Un autre risque mis en évidence par le document était le « détournement potentiel de contenu créatif ».

Les chercheurs ont expliqué : « Conformément aux pratiques responsables de développement de modèles, nous avons mené une étude approfondie de la mémorisation, en adaptant et en étendant une méthodologie utilisée dans le cadre des LLM textuels, en nous concentrant sur l’étape de modélisation sémantique ».

« Nous soulignons fortement la nécessité de travaux futurs supplémentaires pour lutter contre ces risques associés à la génération de musique – nous n’avons pas l’intention de publier des modèles à ce stade. »

Document de recherche Google MusicLM

Ils ont dit qu’ils « ont trouvé que seule une infime fraction d’exemples était mémorisée exactement, alors que pour 1% des exemples, nous pouvions identifier une correspondance approximative ».

Et a ensuite ajouté: « Nous soulignons fortement la nécessité de travaux futurs supplémentaires pour lutter contre ces risques associés à la génération de musique – nous n’avons pas l’intention de publier des modèles à ce stade. »

« Sept ans après le début de notre parcours en tant qu’entreprise axée sur l’IA, nous sommes à un point d’inflexion passionnant. »

Sundar Pichai, Google et Alphabet

La sortie publique surprise de MusicLM par Google cette semaine est arrivée le même jour que le PDG de Google et d’Alphabet, Sundar Pichai, a annoncé une énorme poussée dans l’IA avec une gamme de mises à jour alimentées par l’IA pour divers produits Google.

« Sept ans après le début de notre parcours en tant qu’entreprise axée sur l’IA, nous sommes à un point d’inflexion passionnant », a déclaré Pichai dans son discours d’ouverture lors de l’événement Google I/O 2023 le mercredi 10 mai.

« Nous avons l’opportunité de rendre l’IA encore plus utile pour les gens, pour les entreprises, pour les communautés, pour tout le monde. »

Dans le cadre de la nouvelle poussée d’IA de Google, la société étend son outil d’IA conversationnel et son rival Chat GPT, Bard, dans plus de 180 pays après un lancement initial au Royaume-Uni et aux États-Unis.

Bard a également été récemment déplacé par Google vers son « modèle de langage de pointe » PaLM 2. Google dit qu’il s’agit « d’un grand modèle de langage beaucoup plus performant, qui présente » des compétences avancées en mathématiques et en raisonnement et des capacités de codage “.


La sortie publique de MusicLM arrive à un moment de malaise croissant autour de l’utilisation de l’IA générative dans la musique.

L’une des principales raisons des inquiétudes de l’industrie concernant l’utilisation de l’IA générative, qui est formée sur d’autres musiques, est le risque de violation du droit d’auteur.

Le mois dernier, des productions musicales générées par l’IA qui imitent la voix d’artistes superstars ont dominé les gros titres après une chanson intitulée Avoir le coeur sur la mainavec des voix générées par l’IA copiant les voix de Drake et The Weeknd, est devenue virale.

La piste, téléchargée par un artiste appelé ghostwriter, a ensuite été supprimée de YouTube, Spotify et d’autres plateformes. Sur YouTube, une confirmation de ce qui a déclenché le retrait de la piste de cette plate-forme est apparue sur la page d’accueil du téléchargement YouTube désormais disparu de ghostwriter.

Il disait: « Cette vidéo n’est plus disponible en raison d’une réclamation pour droit d’auteur par Universal Music Group. »

S’exprimant lors de l’appel sur les résultats du premier trimestre d’Universal Music Group le mois dernier, Sir Lucian GraingePDG et président d’Universal Music Group, a noté que : « Contrairement à ses prédécesseurs, une grande partie des dernières technologies d’IA générative [i.e. ‘fake Drake’] est formé sur du matériel protégé par des droits d’auteur, ce qui viole clairement les droits des artistes et des labels et mettra les plateformes complètement en contradiction avec les partenariats avec nous et nos artistes et ceux qui conduisent au succès.

Dans ses remarques liminaires aux analystes lors de ce même appel, Sir Lucian Grainge a également critiqué la « suroffre de contenu » qui voit actuellement environ 100 000 pistes par jour distribuées aux services de streaming musical.

« Peu de gens se rendent compte que l’IA a déjà été un contributeur majeur à cette offre excédentaire de contenu », a déclaré Grainge.

« La plupart de ce contenu d’IA sur les DSP provient de la génération précédente d’IA, une technologie qui n’est pas formée sur la propriété intellectuelle protégée par le droit d’auteur et qui produit une sortie de très mauvaise qualité avec pratiquement aucun attrait pour le consommateur. »

La montée en puissance des plates-formes d’IA qui permettent aux utilisateurs de créer de vastes volumes de pistes en appuyant simplement sur un bouton a également révélé le potentiel d’utilisation de l’IA générative pour la fraude en streaming.

Plus tôt ce mois-ci, l’application de création musicale basée sur l’IA Boomy, dont les utilisateurs ont créé 14,4 millions chansons à ce jour, a déclaré que Spotify avait arrêté sa capacité à télécharger des chansons sur le DSP et que certaines pistes déjà téléchargées avaient été supprimées.

Un porte-parole de Spotify a ensuite confirmé à MBW que ces « certaines versions du catalogue » de Boomy avaient été supprimées car la plateforme de streaming avait détecté la diffusion artificielle de ces pistes. (Il n’y avait aucune suggestion que Boomy lui-même était impliqué dans le streaming artificiel).

Boomy a déclaré samedi 6 mai que « la livraison organisée à Spotify des nouvelles versions des artistes de Boomy a été réactivée », a écrit la société sur son serveur Discord samedi 6 mai.

Alors que Spotify a confirmé qu’il avait rendu certaines pistes indisponibles, il est apparu que c’était probablement le propre partenaire de distribution de Boomy – DashGo, propriété de Downtown – qui avait interrompu les téléchargements vers Spotify.

Seule une petite partie des morceaux de Boomy semblaient avoir été « grisés » afin qu’ils ne puissent pas être lus. Lundi 8 mai, il n’y avait pas de pistes grisées sur les listes de lecture de Boomy sur Spotify.L’industrie de la musique dans le monde