Spotify développe un outil de clonage vocal basé sur l'IA qui peut traduire des podcasts en plusieurs langues

Spotify teste un nouvel outil de traduction vocale basé sur l’IA pour ses podcasts.

Décrit par la société dans un communiqué de presse lundi 25 septembre comme « révolutionnaire », le nouvel outil d’IA peut traduire les podcasts dans des langues supplémentaires, le tout avec la propre voix du podcasteur.

Dans le cadre du projet pilote, Spotify a travaillé avec les podcasteurs Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons et Steven Bartlett pour générer des traductions vocales basées sur l’IA dans d’autres langues, notamment l’espagnol, le français et l’allemand, pour un certain nombre de personnes. épisodes du catalogue et sorties des futurs épisodes.

Spotify cherche également à inclure d’autres émissions, telles que l’eff gagné de Dax Shepard avec DRS, The Rewatchables et le nouveau podcast original de Trevor Noah, qui sera lancé plus tard cette année.

Selon Spotify, en utilisant cette technologie, elle peut « correspondre au style de l’enceinte d’origine, créant ainsi une expérience d’écoute plus authentique, plus personnelle et plus naturelle que le doublage traditionnel ».

Découvrez le nouvel outil en action dans la vidéo ci-dessous.

La société affirme que son outil nouvellement développé exploite « les dernières innovations » en matière d’IA. L’une de ces innovations est la nouvelle technologie de génération vocale d’OpenAI, le créateur du chatbot IA ChatGPT.

Coïncidant avec le lancement du nouvel outil de Spotify, Open AI a révélé sur son propre site Web qu’il déployait « de nouvelles capacités vocales et d’image dans ChatGPT ».

Dans cette annonce, OpenAI affirme que « ChatGPT peut désormais voir, entendre et parler » et explique que sa « nouvelle capacité vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir uniquement de texte et d’un message vocal. quelques secondes d’un exemple de discours ».

OpenAI affirme avoir collaboré avec des comédiens professionnels pour créer chacune des voix et qu’il utilise également Whisper, son système de reconnaissance vocale open source, pour transcrire vos paroles en texte.

Les nouveaux épisodes pilotes traduits vocalement de Spotify seront disponibles dans le monde entier pour les utilisateurs Premium et Free et Spotify annonce qu’il commencera par publier un premier ensemble d’épisodes traduits en espagnol, le français et l’allemand étant déployés dans les jours et semaines à venir.

« Nous pensons qu’une approche réfléchie de l’IA peut aider à établir des liens plus profonds entre les auditeurs et les créateurs, un élément clé de la mission de Spotify visant à libérer le potentiel de la créativité humaine. »

Ziad Sultan, Spotify

« En faisant correspondre la voix du créateur, Voice Translation donne aux auditeurs du monde entier le pouvoir de découvrir et de s’inspirer de nouveaux podcasteurs d’une manière plus authentique que jamais », déclare Ziad Sultan, vice-président de la personnalisation.

« Nous pensons qu’une approche réfléchie de l’IA peut aider à établir des liens plus profonds entre les auditeurs et les créateurs, un élément clé de la mission de Spotify visant à libérer le potentiel de la créativité humaine. »

La plateforme affirme également que son annonce de lundi « n’est qu’un début » et que « tout cela fait partie de l’engagement de Spotify à continuer de donner aux créateurs les moyens d’apporter leur narration à davantage d’auditeurs à travers le monde ».

Le nouvel outil d’IA de Spotify marque la dernière avancée de l’entreprise dans le monde de l’audio basé sur l’intelligence artificielle.

En mai, la société a lancé une fonctionnalité d’IA « DJ » qui propose une liste de lecture de musique organisée ainsi que des commentaires sur les morceaux et les artistes qu’elle pense que vous aimerez.

Ce commentaire est raconté « d’une voix incroyablement réaliste » en utilisant ce qu’on appelle « plateforme vocale AI dynamique » issue de sa récente acquisition de la start-up vocale AI basée à Londres, Sonantic.

Lancés en décembre 2018 par Zeena Qureshi et John Flynn, les fondateurs de Sonantic ont une formation en orthophonie et en production sonore hollywoodienne.

L’année dernière, Sonantic a créé un modèle de voix IA personnalisé pour l’acteur Val Kilmer, qui a été utilisé dans le dernier film Top Gun, Top Gun : Maverick.

Alors que Spotify teste son nouvel outil de traduction IA pour les podcasts, une question que de nombreux acteurs du secteur de la musique se poseront aujourd’hui est la suivante : quand verrons-nous une technologie similaire testée à cette échelle pour les artistes ?

En d’autres termes, quand une artiste superstar comme Taylor Swift pourra-t-elle sortir un nouveau morceau en plusieurs langues, avec sa propre voix, le jour de sa sortie ?

Nous avons eu un aperçu de la manière dont la technologie vocale de l’IA peut être utilisée à cette fin plus tôt cette année lorsque le géant du divertissement basé en Corée du Sud, HYBE, a sorti un nouveau single intitulé Mascarade d’un artiste appelé MIDNATT.

HYBE a affirmé que le morceau était « le tout premier morceau multilingue produit en coréen, anglais, japonais, chinois, espagnol et vietnamien ».

La piste multilingue utilise la technologie de Supertone, la société d’IA de fausse voix qu’elle a acquise l’année dernière dans le cadre d’un accord d’une valeur d’environ 32 millions de dollars, suite à un investissement initial dans la startup en février 2021.Entreprise de musique dans le monde

Spotify développe un outil de clonage vocal basé sur l’IA qui peut traduire des podcasts en plusieurs langues