Le doublage est un marché lucratif, Verified Market Research prédisant que les services de doublage de films pourraient à eux seuls générer 3,6 milliards de dollars par an d’ici 2027. Mais c’est aussi un processus laborieux et coûteux. En moyenne, cela peut prendre une heure d’enregistrement en studio pour cinq minutes de narration ; une calculatrice fixe le prix à 75 $ la minute, même pour une simple vidéo.

La promesse de l’IA dans ce domaine, en particulier le traitement du langage naturel, accélère la tâche en créant des doublages à consonance humaine dans plusieurs langues. Une startup britannique qui poursuit cela, Papercup, affirme que sa technologie est utilisée par les géants des médias Sky News, Discovery et Business Insider et a été utilisée pour traduire 30 saisons de l’émission emblématique de Bob Ross, Jla joie de peindre.

Le PDG Jesse Shemen estime que plus de 300 millions de personnes ont regardé des vidéos traduites par Papercup au cours des 12 derniers mois.

« Il existe un décalage important entre la demande de localisation et de traduction et la capacité à répondre à la demande », a déclaré Shemen. « Montre aime [Netflix’s] ‘Squid Game’ valident la thèse selon laquelle les gens regarderont un contenu créé n’importe où, dans n’importe quelle langue, s’il est divertissant et intéressant. C’est pourquoi le secteur est si prêt pour la croissance.

À savoir, Papercup a annoncé aujourd’hui avoir levé 20 millions de dollars lors d’un cycle de financement de série A dirigé par Octopus Ventures avec la participation de Local Globe, Sands Capital, Sky et Guardian Media Ventures, Entrepreneur First et BDMI. Cela porte le total de la société basée à Londres à environ 30,5 millions de dollars, dont la plupart seront consacrés à la recherche sur les voix expressives générées par l’IA et à l’extension du support de Papercup pour les langues étrangères, a déclaré Shemen à TechCrunch par e-mail.

Fondée en 2017 par Shemen et Jiameng Gao, Papercup propose une solution de doublage basée sur l’IA qui identifie les voix humaines dans un film ou une émission cible et génère des doublages dans une nouvelle langue. Les producteurs de contenu vidéo téléchargent leurs vidéos, spécifient une langue, attendent que les équipes de locuteurs natifs de Papercup vérifient la qualité de l’audio et reçoivent une traduction avec une voix off synthétique.

Shemen affirme que la plate-forme de Papercup peut générer des doublages à une échelle et à un rythme qui ne peuvent être égalés par des méthodes manuelles. Au-delà des traductions personnalisées qu’elle réalise pour ses clients, Papercup propose un catalogue de voix aux tonalités et émotions « réalistes ». Beaucoup d’entre eux ont été utilisés dans les communications internes, les annonces d’entreprise et le matériel pédagogique en plus des films et de la télévision, selon Shemen.

« Notre approche « humain dans la boucle » signifie que les traducteurs humains assurent le contrôle de la qualité et garantissent l’exactitude, mais doivent être beaucoup moins pratiques que s’ils fournissaient l’intégralité de la traduction, ce qui signifie qu’ils peuvent travailler plus rapidement et sur plus de traductions », a déclaré Shemen. . « Les gens ont regardé plus de contenu vidéo pendant la pandémie, ce qui a considérablement augmenté les demandes pour nos services. »

Le marché des « médias synthétiques » générés par l’IA est en pleine croissance. Des entreprises axées sur la vidéo et la voix, notamment Synthesia, Respeecher, Resemble AI et Deepdub, ont lancé des outils de doublage IA pour les émissions et les films. Au-delà des startups, Nvidia a développé une technologie qui modifie la vidéo d’une manière qui prend les expressions faciales d’un acteur et les associe à un nouveau langage.

Mais il peut y avoir des inconvénients. Comme Le Washington Post Steven Zeitchik souligne que le contenu doublé par l’IA sans attention aux détails pourrait perdre sa « saveur locale ». Les expressions dans une langue peuvent ne pas signifier la même chose dans une autre. De plus, les doublages d’IA posent des questions éthiques, comme s’il faut recréer la voix d’une personne décédée.

Les ramifications des voix générées par les performances des acteurs en activité sont également troubles. Le Wall Street Journal rapporte que plus d’une entreprise a tenté de reproduire la voix de Morgan Freeman dans des démos privées, et les studios ajoutent de plus en plus de dispositions dans les contrats qui cherchent à utiliser des voix synthétiques à la place des interprètes « si nécessaire » – par exemple pour modifier les lignes de dialogue pendant la post-production.

Shemen positionne Papercup comme une plate-forme largement neutre, bien qu’elle surveille l’utilisation de sa plate-forme pour les abus potentiels (comme la création de deepfakes). Des travaux sont en cours sur la traduction en temps réel de contenus tels que les actualités et les événements sportifs, a révélé Shemen, ainsi que sur la capacité de contrôler et d’affiner plus granulairement l’expressivité de ses voix générées par l’IA.

« La valeur de [dubbing] est clair : les gens retiennent 41 % des informations lorsqu’ils regardent une courte vidéo qui n’est pas dans leur langue ; lorsqu’ils sont sous-titrés, ils en retiennent 50 % et lorsqu’ils sont doublés via Papercup, ils en retiennent 70 %. C’est une augmentation de 40% sur le sous-titrage seul », a déclaré Shemen. « Avec un doublage IA multilingue vraiment émotif, Papercup s’attaque à toutes les formes de contenu, rendant la vidéo et l’audio plus accessibles et agréables pour tous. »

Papercup emploie actuellement 38 personnes à Londres et un réseau de traducteurs sur trois continents. L’entreprise s’attend à ce que ce chiffre double d’ici la fin de l’année.