Microsoft développe un générateur de rap IA, DeepRapper – formé sur un grand nombre de chansons « explorées » sur le Web

Il y a une vague de musique IA balayant les grandes technologies.

En janvier, Google a annoncé un modèle de langage appelé MusicLM qui peut générer de la nouvelle musique à partir d’invites de texte, le rendant accessible au public le mois dernier.

Le week-end dernier, la société mère de Facebook, Meta, a publié son propre générateur d’intelligence artificielle texte-musique appelé MusicGen, qui, selon la société, a été formé sur 20 000 heures de musique sous licence, dont 10 000 pistes de « haute qualité » et 390 000 pistes d’instruments uniquement de ShutterStock. et Étang5.

Cependant, Meta et Google ne sont pas les seuls géants du monde de la technologie et de l’informatique à mener des recherches dans le domaine de la musique IA.

Rival Microsoft dirige un vaste projet de recherche dédié à AI Music. Il s’appelle « Muzic », et les travaux de ses chercheurs vont du texte alimenté par l’IA à la génération de musique, à la génération de paroles, à la génération de paroles à la mélodie, à l’écriture de chansons et plus encore.

Selon Microsoft, ‘Musique’ est un « projet sur la musique IA qui permet la compréhension et la génération de la musique grâce à l’apprentissage en profondeur et à l’intelligence artificielle ».

Vous pouvez voir le diagramme de leur page de destination ci-dessous :



Muzic, qui a été créé en 2019, n’est qu’un des projets qui font partie du « groupe d’apprentissage en profondeur et par renforcement » de Microsoft Research Asia (MSR Asia) en Chine.

Microsoft Research Asia est décrit comme « un laboratoire de recherche de classe mondiale » avec des sites à Pékin et à Shanghai. Le géant de la technologie affirme que MSR Asia, qui a été créée en 1998, « mène des recherches fondamentales et appliquées dans des domaines essentiels à la stratégie à long terme de Microsoft et à sa vision informatique future ».

En plus de ses recherches sur l’intelligence artificielle, le « groupe d’apprentissage approfondi et par renforcement » mène des projets sur des modèles de synthèse vocale basés sur des réseaux neuronaux, la traduction automatique neuronale, etc.

Juste pour réitérer, ‘Muzic’ a déjà produit un assez grand nombre de travaux dans le domaine de la musique IA.

Voici quelques-uns de ses projets phares :


1) Deep Rapper

De tous les projets en préparation chez Muzic, celui-ci pourrait faire cracher leur café à quelques ayants droit musicaux.

En 2021, les chercheurs de Muzic ont développé un « générateur de rap » alimenté par l’IA appelé DeepRapper.

L’article décrivant le développement et l’expérimentation du modèle basé sur le texte affirme que, « pour [the researchers’] connaissances, DeepRapper est le premier [AI] système pour générer du rap avec à la fois des rimes et des rythmes ».

Ils ajoutent : « Les évaluations objectives et subjectives démontrent que DeepRapper génère des raps créatifs et de haute qualité. » Ils ont publié le code de DeepRapper sur GitHub, que vous pouvez trouver ici.

Selon le journal : « Les travaux précédents pour la génération rap se concentraient sur les paroles rimées mais ignoraient les rythmes rythmiques, qui sont importants pour la performance rap. Dans cet article, nous développons DeepRapper, un système de génération de rap basé sur Transformer qui peut modéliser à la fois les rimes et les rythmes.


Les chercheurs expliquent que pour construire le système DeepRapper, « puisqu’il n’y a pas d’ensemble de données de rap disponible avec des rythmes rythmiques », ils ont développé ce qu’ils appellent « un pipeline d’exploration de données pour collecter un ensemble de données de rap à grande échelle, qui comprend un grand nombre de chansons de rap avec des rythmes alignés ». paroles et rythmes ».

Deuxièmement, ils ont conçu un soi-disant « modèle de langage autorégressif basé sur des transformateurs » qui « modélise soigneusement » les rimes et les rythmes.

« Pour exploiter un ensemble de données de rap à grande échelle, nous explorons d’abord une grande quantité de chansons de rap avec à la fois des paroles et des audios chantés sur le Web. »

Ils donnent plus de détails plus loin dans l’article sur la façon dont ils ont conçu « un pipeline d’exploration de données [to] collecter un ensemble de données rap à grande échelle pour la modélisation du rythme » (voir schéma ci-dessous).

Ils expliquent: «Pour exploiter un ensemble de données de rap à grande échelle, nous explorons d’abord une grande quantité de chansons de rap avec à la fois des paroles et des audios chantés du Web.

« Pour garantir que les paroles et l’audio peuvent être alignés au niveau de la phrase, ce qui est bénéfique pour notre alignement ultérieur des battements au niveau des mots, nous explorons également l’heure de début et de fin de chaque phrase lyrique correspondant à l’audio. »



Leur exploration de données pour la recherche ne s’est pas arrêtée là. Selon le document de recherche, ils ont également utilisé leur « pipeline d’exploration de données pour collecter deux autres ensembles de données : 1) des chansons non rap avec des rythmes alignés, qui peuvent être plus volumineux que l’ensemble de données rap, car les chansons non rap sont plus générales que les chansons rap ; 2) des paroles pures, qui peuvent être encore plus grandes que des chansons non rap ».

Le modèle DeepRapper a été formé sur les deux ensembles de données ci-dessus au cours de la « phase de pré-formation ». Ils expliquent qu’ils « peaufinent ensuite notre modèle pré-entraîné sur les morceaux de rap aux beats alignés ».

Les chercheurs concluent que « les évaluations objectives et subjectives démontrent que DeepRapper génère des raps de haute qualité avec de bonnes rimes et rythmes ».

Ils ont généré au hasard 5 000 échantillons, dont certains que vous pouvez voir par vous-même, ici.

Ces échantillons ont été générés en mandarin et les chercheurs ont utilisé Google Translate pour fournir les traductions en anglais.

(La toute première parole des extraits présentés ? « Nous avons la peau jaune avec du sang chaud / Que cette chanson arrive dans la nuit de l’insomnie médicale. »)

L’article conclut que « grâce à la conception de DeepRapper, nous pouvons encore construire un autre système de chant rap pour chanter les raps selon les rimes et les rythmes, que nous laissons comme travaux futurs ».


Il est maintenant assez bien connu que les modèles d’IA générative sont entraînés sur de vastes ensembles de données, souvent extraits d’Internet.

C’est un fait qui n’est pas particulièrement apprécié par les titulaires de droits musicaux, en raison du risque de violation par ces modèles d’IA de musique protégée par le droit d’auteur. Ce qui est intéressant ici, c’est l’explication franche de l’équipe Microsoft sur la façon dont les données de DeepRapper sont obtenues, bien qu’à des fins de recherche.

Fait intéressant, les recherches de Microsoft sur les rimes et le rap semblent être un effort mondial.

En plus du modèle DeepRapper détaillé ci-dessus, développé par l’équipe Muzic en Chine, Microsoft détient également un brevet américain, qui semble être un outil entièrement distinct de DeepRapper, pour un « Voice Synthesized Participatory Rhyming Chat Bot ».

Cette technologie « rap-bot » a été inventée par un autre groupe de chercheurs de Microsoft basé aux États-Unis. Le brevet a été accordé en avril 2021.

Le dossier, obtenu par MBW, énumère un tas d’utilisations différentes pour le chatbot, par exemple, qu’il « peut soutenir des batailles de rap » et « participer au processus de création musicale de manière sociale ».

Vous pouvez lire le brevet dans son intégralité, ici.


2) Synthèse vocale chantée

Quelques autres modèles qui méritent d’être soulignés sur lesquels les chercheurs de Microsoft en Asie ont travaillé tournent autour de la synthèse de la voix chantée, alias la technologie d’imitation de la voix humaine alimentée par Ai.

Nous avons écrit sur ce sujet à quelques reprises récemment sur MBW. HYBE, par exemple, a acquis l’année dernière une fausse société d’IA vocale appelée Supertone dans le cadre d’un accord d’une valeur d’environ 32 millions de dollars, à la suite d’un investissement initial dans la startup en février 2021.

Supertone a attiré l’attention des médias mondiaux en janvier 2021 avec sa technologie dite Singing Voice Synthesis (SVS). La technologie de la société a récemment été utilisée sur une piste multilingue publiée par l’artiste virtuel HYBE MIDNATT.

Pendant ce temps, en novembre, Tencent Music Entertainment (TME) a ​​déclaré avoir créé et publié plus de 1 000 titres contenant des voix créées par la technologie AI qui imitent la voix humaine et l’une de ces pistes a déjà dépassé les 100 millions de flux.

Dans le domaine plus large du mimétisme vocal alimenté par l’IA, nous avons également rendu compte du faux morceau controversé de Drake appelé Avoir le coeur sur la mainavec des voix d’IA synthétisées par l’IA copiant les voix de Drake et The Weeknd.

L’équipe de recherche de Muzic a rédigé trois articles sur la synthèse vocale chantée.

« Les résultats démontrent qu’avec les données de chant purement extraites du Web, DeepSinger peut synthétiser des voix de chant de haute qualité en termes de précision de hauteur et de naturel de la voix. »

L’un des modèles qu’ils ont conçus est intitulé ‘Chanteur profond: Synthèse vocale chantée avec des données extraites du Web ». Le document d’accompagnement du modèle détaille « un système de synthèse vocale de chant (SVS) multi-chanteur multilingue, qui est construit à partir de rien à l’aide de données d’entraînement au chant extraites de sites Web de musique ».

Selon l’article, « le pipeline de DeepSinger se compose de plusieurs étapes, y compris l’exploration des données, la séparation du chant et de l’accompagnement, l’alignement des paroles sur le chant, la filtration des données et la modélisation du chant ».

L’étape d’exploration de données, selon l’article, comprenait « l’exploration de données » de « chansons populaires des meilleurs chanteurs en plusieurs langues à partir d’un site Web de musique ».

Ils expliquent en outre que « nous construisons le modèle d’alignement paroles-chant basé sur la reconnaissance automatique de la parole pour extraire la durée de chaque phonème dans les paroles en partant du niveau de la phrase à grain grossier jusqu’au niveau du phonème à grain fin ».

Selon les chercheurs, leur outil DeepSinger « présente plusieurs avantages par rapport aux systèmes SVS précédents », notamment que, « au meilleur de [their] connaissance, c’est le premier système SVS qui extrait directement les données d’entraînement des sites Web de musique »et« sans aucune donnée de chant de haute qualité enregistrée par l’homme.

Les chercheurs écrivent dans l’article qu’ils ont évalué DeepSinger sur un « ensemble de données de chant miné composé d’environ 92 heures de données provenant de 89 chanteurs dans trois langues (chinois, cantonais et anglais) ».

Ils poursuivent : « Les résultats démontrent qu’avec les données de chant purement extraites du Web, DeepSinger peut synthétiser des voix de chant de haute qualité en termes de précision de hauteur et de naturel de la voix. »

Vous pouvez entendre des échantillons générés par le modèle, ici.


3) MuseCoCo

Le plus récent de ces projets, dont les détails viennent tout juste d’être publiés le 31 mai, est un générateur de musique texte-symbolique alimenté par l’IA.

MuseCoCo‘, qui signifie ‘Music Composition Copilot’ génère une « musique symbolique » (par exemple, au format MIDI, mais pas audio) à partir d’invites de texte (voir ci-dessous).

Les chercheurs disent qu’ils ont utilisé la plate-forme de notation MuseScore pour exporter des fichiers mp3 de ce à quoi ressemble la musique à titre de référence.

Ils ont publié ici un tas d’échantillons démontrant les résultats audio après avoir saisi des invites de texte de différentes longueurs et complexités dans l’outil de composition, ainsi que des comparaisons avec d’autres modèles de langage.

Muzic de Microsoft affirme que le modèle « permet aux musiciens de générer de la musique directement à partir de descriptions textuelles données, offrant une amélioration significative de l’efficacité par rapport à la création de musique entièrement à partir de zéro ».



Un article, qui est toujours en cours d’examen, a également été rendu public parallèlement aux résultats de la recherche.

Selon les chercheurs, leur approche de la génération de texte en musique « décompose la tâche en deux étapes », dont la première est la « compréhension du texte en attribut » et la seconde est « l’étape de génération d’attribut en musique ». .

Dans l’étape de « compréhension du texte à l’attribut », le texte est « synthétisé et affiné » par ChatGPT.

Le document affirme que « grâce à la conception en deux étapes, MuseCoco peut prendre en charge plusieurs façons de contrôler » les résultats.

Il explique : « Par exemple, les musiciens ayant une solide connaissance de la musique peuvent entrer directement des valeurs d’attributs dans la deuxième étape pour générer des compositions, tandis que les utilisateurs sans formation musicale peuvent s’appuyer sur le modèle de la première étape pour convertir leurs descriptions textuelles intuitives en attributs professionnels. .

« Ainsi », selon Muzic, « MuseCoco permet une expérience utilisateur plus inclusive et adaptable que les systèmes qui génèrent directement de la musique à partir de descriptions textuelles. »

Le document décrit également sur quoi le mode a été formé. N’oubliez pas que le modèle MusicGen AI de Meta, qui peut générer des clips audio de 12 secondes à partir d’une invite de texte, a été formé sur 20 000 heures de musique sous licence.

Selon les chercheurs de Muzic, « Pour former l’étape de génération d’attribut à la musique et évaluer notre méthode proposée », ils ont collecté un assortiment d’ensembles de données MIDI à partir de « sources en ligne ».

Ils ont dit qu’ils « avaient fait le filtrage de données nécessaire pour supprimer les échantillons dupliqués et de mauvaise qualité », et qu’il leur restait 947 659 échantillons MIDI.

L’un de ces ensembles de données est répertorié sous le nom d’ensemble de données MetaMIDI (MMD), décrit comme « une collection à grande échelle de 436 631 fichiers et métadonnées MIDI ».

Le MMD « contient des métadonnées d’artiste et de titre pour 221 504 fichiers MIDI, et des métadonnées de genre pour 143 868 fichiers MIDI, collectées via [a] processus de grattage Web ».L’industrie de la musique dans le monde