Le nouveau modèle d'IA générative de Meta peut prendre des accords ou des rythmes et les transformer en chansons

Meta Platforms, propriétaire de Facebook et d'Instagram, fait partie des concurrents de plus en plus nombreux dans le domaine de la génération musicale IA, et mardi 18 juin, la division de recherche en IA de la société a dévoilé sa dernière avancée dans cet effort.

L'équipe FAIR (Fundamental AI Research) de Meta a donné au monde son premier aperçu de JASCOun outil qui peut prendre des accords ou des rythmes et les transformer en pistes musicales complètes.

Meta affirme que cette fonctionnalité donnera aux créateurs plus de contrôle sur la sortie des outils musicaux d'IA.

JASCO – qui signifie « Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation » – est comparable en qualité à d'autres outils d'IA, « tout en permettant des contrôles nettement meilleurs et plus polyvalents sur la musique générée », a déclaré Meta FAIR dans un article de blog.

Pour mettre en valeur les capacités de JASCO, Meta a publié une page de clips musicaux, dans lesquels de simples mélodies du domaine public sont transformées en morceaux musicaux.

Par exemple, une mélodie de Maurice Ravel Boléro est transformée en « une chanson pop entraînante des années 80 » et une « chanson folk avec accordéon et guitare acoustique ». de Tchaïkovski Le lac des cygnes devient un « morceau traditionnel chinois avec guzheng, percussions et flûte de bambou » et un « morceau R&B avec basse profonde, batterie électronique et trompette principale ».

« Alors que l’innovation dans le domaine continue d’évoluer à un rythme rapide, nous pensons que la collaboration avec la communauté mondiale de l’IA est plus importante que jamais. »

Méta

Meta a mis une grande partie de ses recherches sur l’IA à la disposition du public. Avec JASCO, la société a publié un document de recherche décrivant le travail et, plus tard ce mois-ci, elle prévoit de publier le code d'inférence sous licence MIT et le modèle JASCO pré-entraîné sous licence Creative Commons. Cela signifie que d'autres développeurs d'IA pourront utiliser le modèle pour créer leurs propres outils d'IA.

« Alors que l’innovation dans le domaine continue d’évoluer à un rythme rapide, nous pensons que la collaboration avec la communauté mondiale de l’IA est plus importante que jamais », a déclaré Meta FAIR.

La dernière innovation arrive un an après la sortie de Meta MusiqueGenun générateur texte-audio capable de créer des pistes de 12 secondes à partir de simples invites textuelles.

Cet outil a été formé sur 20 000 heures de musique sous licence Meta dans le but de former l’IA, ainsi que sur 390 000 pistes instrumentales uniquement de Shutterstock et Pond5.

MusicGen est également capable d'utiliser des mélodies comme entrée, ce qui, selon certains, en a fait le premier outil d'IA musicale capable de transformer une mélodie en une chanson entièrement développée.

JASCO de Meta fait suite à plusieurs innovations dans le domaine de la musique IA qui ont été révélées ces derniers jours.

Le même jour où Meta dévoilait JASCO, Googlele laboratoire d'IA de, Esprit profond, a révélé un nouvel outil vidéo-audio (V2A) capable de créer des bandes sonores pour la vidéo. Les utilisateurs peuvent saisir des invites textuelles pour indiquer à l'outil le type de son qu'ils souhaitent pour la vidéo – ou l'outil peut simplement créer lui-même des sons, en fonction de ce que montre la vidéo.

DeepMind a décrit cela comme un élément crucial pour pouvoir créer du contenu vidéo exclusivement à l'aide d'outils d'IA. La plupart des générateurs vidéo IA créent uniquement des vidéos silencieuses.

La semaine dernière, IA de stabilitéla société à l'origine du populaire générateur d'art IA Diffusion stablelibéré Audio stable ouvertun modèle gratuit et open source permettant de créer des clips audio d'une durée maximale de 47 secondes.

L'outil – qui n'est pas destiné à la création de chansons, mais plutôt à la création de sons pouvant être utilisés dans des chansons ou pour d'autres applications – permet aux utilisateurs d'affiner le produit avec leurs propres données audio personnalisées.

Par exemple, un batteur peut entraîner le modèle sur ses propres enregistrements de batterie pour générer des rythmes nouveaux et uniques dans son propre style.

Ces types d’outils d’IA contrastent avec les plateformes musicales d’IA telles que Audio et Sunoqui créent des pistes entières à partir de rien de plus que des invites textuelles.

Ces outils sont généralement formés sur de grandes quantités de données et sont devenus une source de préoccupation pour l'industrie musicale, car ils soupçonnent qu'ils ont été formés sur de la musique protégée par le droit d'auteur sans autorisation.