ByteDance, la société mère de TikTok, a verrouillé les brevets sur l'IA musicale aux États-Unis – alors que ses chercheurs développent un modèle entraîné sur 257 000 heures de chansons

MBW Explains est une série de fonctionnalités analytiques dans lesquelles nous explorons le contexte derrière les principaux points de discussion de l’industrie musicale – et suggérons ce qui pourrait se passer ensuite. Seulement Abonnés MBW+ avoir un accès illimité à ces articles. MBW Explains est soutenu par JKBX, une plate-forme technologique qui offre aux consommateurs l'accès aux redevances musicales en tant que classe d'actifs.


MBW a largement couvert le travail de TikTok et de sa société mère ByteDance dans le domaine de la création musicale par l'IA et de l'apprentissage automatique au cours des dernières années.

En août 2022, MBW a annoncé que TikTok et sa société mère ByteDance embauchaient plusieurs spécialistes hautement qualifiés en apprentissage automatique et en création musicale IA aux États-Unis et en Chine. (Ils le sont toujours.)

Cette première vague d’embauche a fait suite à l’acquisition en juillet 2019 de Jukedeck, une startup britannique d’AI Music spécialisée dans la création de musique libre de droits.

ByteDance a également lancé une application de création musicale basée sur l'apprentissage automatique appelée Mawf au cours des deux dernières années, ainsi que Ondulation – une application de création musicale basée sur l'IA qui peut transformer une mélodie fredonnée en chanson.

Plus récemment, TIC Tac a testé une fonctionnalité AI Song qui utilise un grand modèle de langage pour alimenter la génération de paroles.

Maintenant, MBW a découvert deux documents de recherche récents qui indiquent que les ambitions de ByteDance dans le domaine de la musique créée par l'IA vont bien plus loin que ce que nous avons vu jusqu'à présent.

Séparément, nous avons également repéré deux dépôts de brevet aux États-Unis confirmant que ByteDance a désormais obtenu la protection IP pour les futurs projets liés à la musique par l'IA.

StemGen : Un modèle de génération musicale qui écoute

Deux articles de recherche distincts de ByteDance Intelligence vocale, audio et musicale (SAMI) team – tous deux publiés ces derniers mois – mettent en valeur le travail approfondi de l'entreprise dans le domaine de la génération musicale.

Soit dit en passant, SAMI semble devenir une priorité mondiale chez ByteDance/TikTok : la division recrute actuellement pour plusieurs postes – y compris un responsable des opérations de produits IA à San Jose qui, selon les spécifications du poste, sera responsable de « la mise en œuvre des technologies d’IA audio et musicale dans TikTok ».

La division recrute également pour un Chercheur scientifique principal, Modèle de fondation, Intelligence musicale à San Jose, qui devra « mener des recherches et des développements de pointe en matière d'apprentissage automatique dans la compréhension et la génération de musique », puis « transférer des technologies avancées vers les produits ByteDance ».

En décembre 2023, un document de recherche a été soumis par SAMI intitulé StemGen : Un modèle de génération musicale qui écoute c'est-à-dire un générateur de tiges.

Selon la description du projet sur sa page de démonstration, StemGen est un « modèle de génération musicale de bout en bout, formé pour écouter le contexte musical et y répondre de manière appropriée ».

Le document de recherche explique que StemGen a été formé sur l'ensemble de données Slakh, qui se compose de 145 des heures d'audio musical synthétique séparées en tiges.

StemGen a également été formé sur ce que les chercheurs de ByteDance considèrent comme un ensemble de données interne de 500 heures de musique sous licence.



Selon le résumé du document de recherche, « La génération de bout en bout d’audio musical à l’aide de techniques d’apprentissage profond a récemment connu une explosion d’activité ».

Il ajoute : « Cependant, la plupart des modèles se concentrent sur la génération de musique entièrement mixée en réponse à des informations de conditionnement abstraites. Dans ce travail, nous présentons un paradigme alternatif pour produire des modèles de génération musicale capables d’écouter et de répondre au contexte musical.

« Nous décrivons comment un tel modèle peut être construit à l'aide d'une architecture de modèle non autorégressive basée sur un transformateur et présentons un certain nombre de nouvelles améliorations architecturales et d'échantillonnage. »

ByteDance les chercheurs affirment que « le modèle résultant atteint la qualité audio des modèles textuels de pointe, tout en présentant une forte cohérence musicale avec son contexte ».


« Génération efficace de musique neuronale »

Dans un document de recherche distinct, soumis pour examen en mai 2023, l'étude de ByeDance SAMI l'équipe décrit son travail sur ce qu'elle appelle « Génération efficace de musique neuronale ».

Dans l'article que vous pouvez lire ici, les chercheurs de ByteDance présentent un modèle appelé Mélodie (M pour musique ; L pour LM ; D pour diffusion), décrit comme « un modèle de diffusion guidé par LM qui génère des audios musicaux de qualité de pointe« .




Les chercheurs écrivent : « Nos résultats expérimentaux suggèrent la supériorité de Mélodie [versus other music generators such as Google’s MusicLM]non seulement pour ses avantages pratiques en termes de vitesse d'échantillonnage et de génération infiniment continue, mais aussi pour sa musicalité, sa qualité audio et sa corrélation de texte de pointe ».

Selon le document de recherche, Mélodie a été formé sur 257 000 heures de données musicales, qui, selon les chercheurs, ont été filtrées pour se concentrer sur la musique non vocale.

Le modèle prend en charge les invites musicales et textuelles pour la génération de musique.

Vous pouvez entendre des exemples de musique générée par le Mélodie modèlez-vous ici.

Brevet 1 : 'une méthode mise en œuvre par ordinateur pour générer un morceau de musique »

En plus des travaux de ByteDance sur des documents de recherche liés à l'IA musicale, la société a également bloqué des brevets dans ce domaine au cours des derniers mois.

Le plus récent des brevets liés à la musique de ByteDance accordés aux États-Unis concerne une invention axée sur un « Méthode de génération de données musicales ».

Selon le document, que vous pouvez consulter par vous-même ici, l'invention de ByteDance concerne « une méthode mise en œuvre par ordinateur pour générer un morceau de musique ».

Ce brevet semble se concentrer sur la génération de la structure réelle des différentes parties d'un morceau de musique. Comme les lecteurs de MBW le savent, la structure des chansons dans l’écriture contemporaine est un facteur clé qui peut influencer le fait qu’une chanson devienne un succès ou non.

« La structure est un aspect clé de la musique composée par des humains qui joue un rôle crucial en donnant à un morceau de musique un sentiment de cohérence et d’intentionnalité globale. »

Dépôt de brevet ByteDance

ByteDance explique que « les modes de réalisation divulgués » dans la demande de brevet « fournissent un moyen d'introduire une structure à long terme dans la musique générée par machine ».

Le dossier continue : « La structure est un aspect clé de la musique composée par des humains qui joue un rôle crucial en donnant à un morceau de musique un sentiment de cohérence et d’intentionnalité globale.

« La structure apparaît dans un morceau de musique comme un ensemble de modèles musicaux, de variations de ces modèles, de répétitions littérales ou motivantes et de transformations de sections musicales survenues plus tôt dans le même morceau. »



Les procédés détaillés dans le cadre des revendications de l'invention comprennent un générateur de structure basé sur l'apprentissage automatique (ML) et un générateur de mélodie basé sur l'apprentissage automatique (ML).

Il est intéressant de noter que ce brevet semble avoir déjà été attribué à Jukedeck au Royaume-Uni, la société d'IA née au Royaume-Uni acquise par ByteDance en 2019.

Parmi les inventeurs du brevet figurent le fondateur du Jukedeck, Ed Newton Rex, et l'ancien chercheur du Jukedeck, Gabriele Medeot, aujourd'hui chercheur principal en apprentissage automatique chez TikTok.

ByteDance a déposé une demande de brevet aux États-Unis en février 2019 et il a été accordé le 30 janvier de cette année.


Brevet 2 : « Serveur de production musicale automatisé modulaire »

ByteDance possède également un brevet aux États-Unis pour un 'Serveur de production musicale automatisé modulairequi semble avoir été développé et précédemment attribué à Jukedeck.

Selon le dossier : « La production musicale automatisée basée sur l’intelligence artificielle (IA) est une technologie émergente au potentiel important. Des recherches ont été menées sur la formation de systèmes d'IA, tels que les réseaux de neurones, pour composer de la musique originale basée sur un nombre limité de paramètres d'entrée.

« Bien qu'il s'agisse d'un domaine de recherche passionnant, de nombreuses approches développées jusqu'à présent souffrent de problèmes de flexibilité et de qualité de la production musicale, ce qui limite leur utilité dans un contexte pratique. »



Il ajoute : « L’un des objectifs de cette divulgation est de fournir une système de production musicale automatisé avec une interface améliorée qui permet une interaction flexible et sophistiquée avec le système. Cela ouvre de nouveaux cas d’utilisation passionnants dans lesquels le système peut être utilisé comme un outil créatif pour les musiciens, les producteurs et autres, d’une manière qui répond à leurs besoins et préférences individuels.

Ce système de production musicale automatisé est décrit par ByteDance dans le dossier comme le « système Jukedeck » qui « utilise[s] L’IA pour composer et/ou produire de la musique originale ».

La demande de brevet de ByteDance aux États-Unis a été accordée en mars 2023. Selon Google Patents, ByteDance détient également des brevets actifs pour cette invention au Japon et en Chine.

« Cette technologie est basée sur une théorie musicale avancée et combine des réseaux neuronaux de manière innovante pour composer et produire une musique unique de qualité professionnelle en quelques secondes. »

Dépôt de brevet ByteDance

Selon le dossier, que vous pouvez lire dans son intégralité ici, « Le système Jukedeck intègre un compositeur de musique full-stack basé sur le cloud qui répond aux complexités historiquement associées à l'IA et à la musique ».

Il ajoute : « Cette technologie est basée sur une théorie musicale avancée et combine des réseaux de neurones de manière inédite pour composer et produire une musique unique de qualité professionnelle en quelques secondes. »


La nouvelle du travail manifestement approfondi de ByteDance dans le domaine de la musique IA arrive au milieu Groupe de musique Universal retombées publiques avec son application phare, TIC Tac.

Le 1er mars, Éditions universelles de musique Un catalogue d'environ 4 millions de chansons n'est plus autorisé à être utilisé sur TikTok, rejoignant ainsi le portefeuille d'UMG d'environ 3 millions d'enregistrements, dont la licence sur TikTok a expiré (jusqu'à présent sans renouvellement) le 1er février.

Dans une déclaration adressée aux auteurs-compositeurs d'UMPG le 29 février, la société a porté une grande partie de son attention sur le rôle Audio généré par l'IA joue sur TikTok.

UMPG a affirmé que, jusqu'à présent, TIC Tac n'a fourni à Universal aucune garantie que la plateforme n'entraînerait pas ses modèles d'IA sur les chansons de la société de musique.

En outre, UMPG a soulevé le spectre de TIC Tac utiliser potentiellement la musique IA pour réduire la part de marché (et donc le potentiel de revenus) de la musique protégée par le droit d’auteur/sous licence sur la plate-forme.


MBW a discuté du potentiel hypothétique de TIC Tac et d’autres services pour remplir leurs catalogues de musique créée par l’IA – diluant la part de marché des titulaires de droits traditionnels – pendant un certain temps.

En février de l'année dernière, nous avons publié un « MBW réagit » article demandant si TikTok pourrait réaliser un « braquage » sur l’industrie musicale à cet égard, suite à son investissement agressif dans la technologie d’IA générative.

Le « braquage » auquel nous faisions référence : utiliser la musique sous licence comme pierre angulaire de l’essor de TIC Tac à plus d'un milliard d'utilisateurs dans le monde, avant d'utiliser des chansons propriétaires créées par l'IA pour évincer la musique appartenant aux titulaires de droits musicaux traditionnels sur la plate-forme.

On a écrit: « Alors que la musique joue un rôle clé dans l'essor de TikTok, si le contenu des grands labels disparaît de la plateforme – et que le vide soit comblé avec succès par des créations indépendantes et basées sur l'IA – TIC Tac On pourrait dire qu'il a réussi l'un des plus gros braquages ​​de l'histoire du monde de la musique. Un appât et un interrupteur pour un milliard d’utilisateurs.


JKBX (prononcé « Jukebox ») libère la valeur partagée des choses que les gens aiment en offrant aux consommateurs l'accès à la musique en tant que classe d'actifs – il les appelle actions de redevances. En bref : JKBX vous permet d'investir dans la musique de la même manière que vous investissez dans des actions et autres titres.