ByTedance a construit une bête de musique AI… avec un peu d'aide des Beatles et Michael Jackson

Tiktok Compagnie mère à valeur de 300 milliards de dollars, ByTedance, est l'un des développeurs d'IA les plus fréquentés du monde. Il prévoit de dépenser des milliards de dollars sur des puces d'IA cette année, tandis que Sa technologie donne à l'Openai de Sam Altman une course pour son argent.

ByTedance Duobao AI Chatbot est actuellement l'assistant AI le plus populaire en Chineavec 78,6 millions Utilisateurs actifs mensuels en janvier.

Ce En fait la deuxième application d'IA la plus utilisée au monde derrière Openai Chatte (avec 349,4 millions Maus). Le Doubao-1.5-Pro ​​récemment publié est censé correspondre aux performances du GPT-4O d'OpenAI à une fraction du coût.

Comme le note la recherche contre-point dans cette ventilation de Duobao Positionnement et fonctionnalité, «Tout comme son rival international Chatgpt, la pierre angulaire de l'attrait de Doubao est son multimodalité, offrant des capacités avancées de texte, d'image et de sondage».

Il peut également générer de la musique.

En septembre, Bytedance a ajouté Une fonction de génération de musique AI sur l'application Duobao, qui apparemment « prend en charge plus de dix types de styles de musique et vous permet d'écrire des paroles et de composer de la musique en un seul clic ».

Ce n'est pas la fin de ByTedance Fascination pour construire des technologies de musique de musique.



Le 18 septembre, Bytedance Équipe de Duobao a annoncé le grand lancement d'une suite de Modèles de musique AI doublé MUSIQUE DE GRAINE.

Musculationont-ils affirmé, «permettrait aux gens d'explorer plus de possibilités dans la création de la musique».



Établi en 2023, le Équipe ByTedance Doubao (Seed) est «dédié à la construction de modèles de fondation AI de pointe de l'industrie».

Selon l'annonce officielle de lancement de Musculation En septembre, le produit de la musique AI «prend en charge la conversion de la notation, la génération contrôlable, l'édition de musique et de paroles et le clonage vocal à faible seuil».

Il prétend également qu '«il combine intelligemment les forces des modèles de langage et des modèles de diffusion et les intègre dans le flux de travail de composition musicale, ce qui le rend adapté à différents scénarios de création de musique pour les débutants et les professionnels».

Le fonctionnaire Musculation Le site Web contient un certain nombre de clips audio qui montrent ce qu'il peut faire.

Vous pouvez entendre une partie de cela, ci-dessous:


https://www.youtube.com/watch?v=8jwqvykome4


Plus important, cependant, est comment Musculation a été construit.

Heureusement, le Équipe de Duobao a publié un rapport technologique qui explique le fonctionnement interne de leur Musculation projet.

Mbw a lu la couverture pour couvrir.



Dans l'introduction de ByTedance Document de recherche, que vous pouvez lire en totalité ici, les chercheurs de l'entreprise déclarent que «ML'USIC est profondément ancré dans la culture humaine »et que« tout au long de l'histoire humaine, La musique vocale a accompagné des moments clés de la vie et de la société: Des appels d'amour aux récoltes saisonnières ».

«Notre objectif est de tirer parti des technologies de modélisation génératrices modernes, non pas de remplacer la créativité humaine, mais de réduire les obstacles à la création de la musique.»

Document de recherche par la byedance pour la musique de semence

L'intro continue: «Aujourd'hui, la musique vocale reste au cœur de la culture mondiale. Cependant, la création de la musique vocale est un processus complexe et à plusieurs étages impliquant la pré-production, l'écriture, l'enregistrement, l'édition, le mixage et la maîtrise, Le rendre difficile pour la plupart des gens. « 

«Notre objectif est de tirer parti des technologies modernes de modélisation générative, non pour remplacer la créativité humaine, mais pour réduire les barrières à la création de la musique. En offrant des outils de création et d'édition interactifs, nous visons à permettre aux novices et aux professionnels de s'engager à différentes étapes du processus de production musicale. »


Comment fonctionne la musique de semence

Les chercheurs de ByTedance expliquent que le «cadre unifié» derrière Seed Music «est construit sur trois représentations fondamentales: jetons audio, jetons symboliques et latéraux de voccoder », auquel chacun correspond à «Un pipeline de génération».



Le jeton audio-Les pipeline basés, comme illustré dans le graphique ci-dessous, fonctionne comme ceci: «(1) Les intrants d'entrée convertissent les entrées de contrôle multimodales, telles que la description de style musical, les paroles, l'audio de référence ou les scores musicales, en une séquence d'intégration de préfixe. (2) Le LM auto-régressif génère une séquence de jetons audio. (3) Le modèle de transformateur de diffusion génère des latents de vocodeur continus. (4) Le vocodeur acoustique produit l'audio stéréo de haute qualité 44.1 kHz. »



Contrairement au pipeline basé sur le jeton audio, le jeton symbolique-La générateur basé, que vous pouvez voir dans le graphique ci-dessous, est «conçu pour prédire les jetons symboliques pour une meilleure interprétabilité», que l'état des chercheurs est «crucial pour aborder les flux de travail des musiciens dans la musique de semences».



Selon le document de recherche, «des représentations symboliques, telles que Midi, abc notation et Musicxmlsont discrets et peuvent être facilement tokenisés dans un format compatible avec LMS ».

Les chercheurs de ByTedance ajoutent dans l'article: «Contrairement aux jetons audio, les représentations symboliques sont interprétables, Permettre aux créateurs de les lire et de les modifier directement. Cependant, leur manque de détails acoustiques signifie que le système doit s'appuyer fortement sur la capacité du rendu à générer des caractéristiques acoustiques nuancées pour la performance musicale. La formation d'un tel rendu nécessite ensembles de données à grande échelle de transcriptions audio et symboliques appariéesqui sont particulièrement rares pour la musique vocale. »


La question évidente…

À présent, vous demandez probablement où Le Beatles et Michael Jackson La musique entre dans tout cela.

Nous sommes presque là. Premièrement, nous devons parler de Mir.

Selon le Musculation Document de recherche, «pour extraire les fonctionnalités symboliques de l'audio pour la formation du système ci-dessus», l'équipe derrière la technologie a utilisé divers «internes Récupération des informations musicales (MIR) Modèles ».

Selon cette explication très claire sur Dataloop, Mir «Est une sous-catégorie de modèles d'IA qui se concentre sur l'extraction d'informations significatives à partir de données musicales, telles que les signaux audio, les paroles et les métadonnées».

Aka: c'est un grattoir à métadonnées. Collez une chanson dans les mâchoires d'un modèle MIR, et il analysera, prédire et présentera des données qui pourraient inclure Pitch, Beats-Per-Minute (BPM), paroles, accords et plus encore.

Récupération des informations musicales La recherche a d'abord gagné en popularité sur sa capacité à aider à la classification numérique des genres, des humeurs, des tempos, etc. – des principaux éléments constitutifs pour les systèmes de recommandation utilisés par les services de streaming musical.

Maintenant, cependant, diriger plates-formes de musique généative AI sont apparemment Utilisation de Mir Research pour améliorer la sortie de leur produit.


Pouvez-vous voir où cela va? Oui bien sûr.

ByTedance L'équipe de recherche a réussi à construire son propre interne Mir Des modèles, qui ont été utilisés par le Bytedance Équipe pour «extraire les fonctionnalités symboliques de l'audio» pour construire des parties de son système de musique de semences. Ces modèles MIR incluent:


AI, ça va? Ça va, ai?

En plongeant plus profondément dans la recherche publiée par Bytedance pour son analyse structurelle axée Modèle MIRnous trouvons un document de recherche intitulé:

«Pour prendre un refrain, un verset, une intro ou autre chose: analyser une chanson avec des fonctions structurelles».

Il a été publié en 2022. Vous pouvez le lire ici.

Selon l'article: «Les algorithmes d'analyse de la structure musicale conventionnels visent à diviser une chanson en segments et à les regrouper avec des étiquettes abstraites (par exemple,« A »,« B »et« C »).

«Cependant, l'identification explicite de la fonction de chaque segment (par exemple, «verset» ou «chœur») est rarement tenté, mais a de nombreuses applications ».

Dans ce document de recherche, ils «introduisent un cadre d'apprentissage en profondeur multi-tâches pour modéliser ces étiquettes sémantiques structurelles directement à partir de l'audio en estimant «Verseness», «Chorus», » et ainsi de suite, en fonction du temps ».

Pour mener cette recherche, l'équipe Bytedance a utilisé quatre «ensembles de données publiques», dont un appelé le 'Isophonique ensemble de données, ce qui, note, «contient 277 des chansons de Les Beatles, Carole Roi, Michael Jacksonet Reine. « 



La source du Ensemble de données isophoniques utilisé par les chercheurs de ByTedance semble être Isophonics.netdécrit comme la maison des logiciels et des ressources de données du Center for Digital Music (C4DM) à Queen Mary, Université de Londres.

Le site Web isophonique note que son «accord, début et segmentation annotations ont été utilisés par de nombreux chercheurs dans le Mir communauté. »

Le site Web explique que «les annotations publiées ici entrent en quatre catégories: accords, clés, segmentations structurelles et battements / bars».

En 2022, les chercheurs de Bytedance ont publié une présentation vidéo de leur, Pour prendre un chœur, un verset, une intro ou autre chose: analyser une chanson avec des fonctions structurelles Document de la Conférence internationale sur l'acoustique, la parole et le traitement du signal (ICASSP).

Vous pouvez voir cette présentation ci-dessous.


https://www.youtube.com/watch?v=WDP5R7FG8TO


La légende de la vidéo décrit un «nouveau système / méthode qui segmente une chanson en sections telles que Chorus, Verse, Intro, outro, Bridge, etc.».

Il démontre ses résultats liés aux chansons de Les Beatles, Michael Jackson, Avril Lavigne et d'autres artistes:





Nous devons être prudents ici sur toute suggestion que La technologie de génération de musique de l'IA de ByTedance peut avoir été «formé» en utilisant des chansons d'artistes populaires comme le Beatles ou Michael Jackson.

Pourtant, comme vous pouvez le voir, un ensemble de données contenant des annotations de ces chansons a clairement été utilisé dans le cadre d'un Bytedance Projet de recherche dans ce domaine.

Toute analyse ou référence aux chansons populaires et à leurs annotations dans la recherche menée ou financée par un entreprise technologique de plusieurs milliards de dollars soulèvera sûrement un certain nombre de questions pour l'industrie musicale – en particulier celles employées pour protéger ses droits d'auteur.

«Nous croyons fermement que les technologies de l'IA devraient soutenir, et non perturber les moyens de subsistance des musiciens et des artistes. L'IA devrait servir d'outil pour l'expression artistique, car le véritable art découle toujours de l'intention humaine. »

ByTedance Chercheurs de semence


Il y a une section dédiée à l'éthique et à la sécurité au bas de Bytedance Musculation document de recherche.

Selon ByTedance chercheurs, ils «croient fermement que les technologies de l'IA devrait soutenir, pas perturber, les moyens de subsistance des musiciens et des artistes«.

Ils ajoutent: «L'IA devrait servir d'outil pour l'expression artistique, car le véritable art découle toujours de l'intention humaine. Notre objectif est de présenter cette technologie comme Une occasion de faire avancer l'industrie musicale En abaissant les barrières à l'entrée, en offrant des outils d'édition plus intelligents et plus rapides, en générant de nouveaux sons passionnants et en ouvrant de nouvelles possibilités pour l'exploration artistique. »

Le Bytedance Les chercheurs décrivent également des problèmes éthiques en particulier: «Nous reconnaissons que les outils d'IA sont intrinsèquement sujets aux biais, et notre objectif est de fournir un outil qui reste neutre et profite à tous. Pour y parvenir, nous visons à offrir un large éventail d'éléments de contrôle qui aident à minimiser les biais préexistants.

«En revenant choix artistiques pour les utilisateursnous pensons que nous pouvons promouvoir l'égalité, préserver la créativité et améliorer la valeur de leur travail. Avec ces priorités à l'esprit, nous espérons que nos percées dans les jetons de feuille de plomb mettent en évidence notre engagement à autonomiser les musiciens et à favoriser la créativité humaine à travers l'IA. »


En termes de sécurité / «profonde», les chercheurs expliquent que «dans le cas de la musique vocale, nous reconnaissons comment le voix chanteuse évoque l'une des expressions les plus fortes de l'identité individuelle ».

Ils ajoutent: «Pour se protéger contre l'utilisation abusive de cette technologie dans l'identité des autres, nous adoptons un processus similaire aux mesures de sécurité présentées dans Semences-tts. Cela implique une méthode de vérification en plusieurs étapes pour le contenu et la voix parlées afin de garantir que l'inscription des jetons audio ne contient que la voix des utilisateurs autorisés.

«Nous mettons également en œuvre un schéma de marquage d'eau à plusieurs niveaux et des contrôles de duplication à travers le processus génératif. Les systèmes modernes pour la génération de musique peuvent recueillir fondamentalement la culture et la relation entre la création artistique et la consommation.

«Nous sommes convaincus qu'avec un fort consensus entre les parties prenantes, ces technologies et révolutionneront le flux de travail de la création de musique et profiteront aux novices de musique, aux professionnels et aux auditeurs.»