La finale utilise la synthèse vocale par IA parce qu’elle peut produire des répliques « en quelques heures seulement plutôt qu’en plusieurs mois », ce qui déconcerte les acteurs vocaux.

0
184

« Pourquoi les personnes qui travaillent sur les voix d’IA agissent-elles comme si embaucher des acteurs vocaux était une sorte de rituel obscur ».

A (podcast by Embark Studios) – les créateurs du prochain FPS (The Finals) – a laissé entendre que le jeu utiliserait des voix d’IA dans un avenir proche. L’explication, cependant, a laissé certains acteurs vocaux perplexes, au mieux.

Carl Strandberg et Andreas Almström, concepteurs audio de The Finals, ont été interrogés : « Qui a fait les voix off ? Elles ont l’air vraiment authentiques » (spoilers : ce n’est pas une opinion que tout le monde partage). Ils ont répondu : « Nous utilisons l’IA à quelques exceptions près, donc toutes les voix des candidats, comme les aboiements et les voix off des commentateurs, sont des voix de synthèse vocale. Les voix off diverses – grognements, bruits de douleur, saut d’objets – sont par ailleurs réalisées en interne.

« La raison pour laquelle nous avons choisi cette voie est que la synthèse vocale est enfin extrêmement puissante. Elle nous permet d’aller assez loin en termes de qualité et d’être extrêmement réactifs aux nouvelles idées… si un concepteur de jeu a une nouvelle idée pour un mode de jeu, nous pouvons avoir une voix off qui la représente en quelques heures seulement, au lieu de plusieurs mois. « 

Cette explication, cependant, ne correspond pas vraiment à l’expérience des acteurs vocaux qui travaillent réellement dans les jeux. L’un d’entre eux est Gianni Matragrano, que vous reconnaîtrez peut-être comme Gabriel dans Ultrakill, bien qu’il ait travaillé pour une grande variété de jeux, dont Genshin Impact, Gloomwood et Evil West.

Matragrano a écrit sur un (Twitter thread) : « Nous sommes constamment en train de produire des sessions de commandes urgentes, en l’espace d’un jour ou deux… Quand vous en avez besoin de plus, vous pouvez réserver une autre session. En fait, nous rendons les choses très faciles ». Il poursuit en révélant qu’il avait des doutes en jouant à la version bêta, mais qu’il attendait une confirmation : « J’avais des soupçons, mais je ne voulais rien dire au cas où j’aurais eu tort, ou peut-être qu’il ne s’agissait que d’un espace réservé. Mais maintenant que la bêta est ouverte avec [150 000] joueurs simultanés, il est clair que c’est leur vision. « 

La vidéo ci-dessus est un exemple posté par Matragrano lui-même, et… oui, ce n’est pas terrible. J’entends trop la vallée de l’étrange pour croire à cette technologie « extrêmement puissante » dont Strandberg et Almström se vantaient. Ils ont toutefois ajouté une mise en garde : « Si cela sonne un peu faux, cela se marie quand même assez bien avec la fantaisie des jeux virtuels, d’un point de vue esthétique ». À vous de voir si ces lignes vocales vous immergent…

Zane Schacht,un autre acteur vocal, a écrit : « Pourquoi les gens qui s’occupent des voix d’IA agissent-ils comme si engager des acteurs vocaux était une sorte de rituel obscur … J’ai réalisé des jeux entiers en audio en une session de deux heures. Ce n’est pas profond. »

MeanwhilePax Helgesen, qui est à la fois concepteur sonore senior et acteur vocal lui-même, a commenté : « J’aimerais à nouveau encourager les développeurs à reconsidérer l’utilisation de la voix dans leurs jeux comme un simple « atout » dans le processus de développement agile. Il ajoute que, oui, l’IA peut jouer un rôle important dans le développement d’un jeu, mais « un acteur qui pourrait utiliser les outils de son métier et ses expériences pour collaborer et créer quelque chose de plus grand que ce que les développeurs ont imaginé. »

Je suis enclin à être d’accord sur ce point. Dans un sens, le jeu d’acteur et la conception sonore sont deux disciplines très différentes. C’est un peu comme lorsque les « artistes de l’IA » se font descendre sur la place publique lorsqu’ils partagent les résultats de leurs invites, car ceux qui ont un meilleur œil peuvent voir le manque de composition et d’intention à un kilomètre de distance.

On peut demander à un algorithme de produire quelque chose, c’est vrai, mais l’art implique des dizaines de choix intentionnels qu’une machine ne peut pas, pour l’instant, reproduire. Le jeu d’acteur est similaire. Une partie de moi se demande si Strandberg et Almström n’en savent pas assez sur l’AV pour comprendre comment leurs lignes générées par ElevenLabs sont dérangeantes pour les joueurs qui ne se soucient pas des délais de développement.

Ce qui est d’autant plus bizarre, c’est qu’il existe déjà des utilisations intéressantes et réfléchies de cette technologie dans les jeux. Il y a peu, il a été révélé que le doublage polonais de Cyberpunk 2077 a utilisé l’IA pour fournir de nouvelles répliques pour le pack d’extension du jeu, Phantom Liberty, après le décès de l’acteur vocal d’un certain personnage.CD Projekta fait preuve de la diligence nécessaire. CD Projekta fait preuve de diligence. Il a engagé un acteur vocal pour fournir les nouvelles lignes (à modifier avecRespeecher), il a obtenu le consentement des membres survivants de la famille de l’acteur, et il l’a fait pour préserver la performance originale, sans IA.

Lorsqu’il s’agit de The Finals, j’ai du mal à voir l’intention créative. Bien sûr, l’IA peut être capable de fournir des délais plus rapides – même s’ils ne sont pas aussi lents que les développeurs le laissent entendre – mais le résultat est dépourvu de personnalité. Un jeu de tir multijoueur n’a pas besoin de fournir une narration profonde, bien sûr, mais vous écoutez ces aboiements pendant des heures. J’ai l’impression que cette façon de parler, guindée et maladroite, va vite devenir ennuyeuse.

J’ai contacté Embark Studios pour un commentaire et on m’a répondu par e-mail que le studio utilise un mélange de « voix enregistrées et d’audio généré par des outils TTS [text to speech] dans nos jeux, en fonction du contexte », citant les conversations entre les personnages comme l’un des domaines où il est important d’avoir de vraies personnes qui parlent entre elles. « Les outils de synthèse vocale nous permettent d’avoir des voix sur mesure là où nous ne pourrions pas en avoir autrement, par exemple en raison de la rapidité de la mise en œuvre. « 

« Dans les cas où nous utilisons les TTS dans les finales, ils sont toujours basés sur de vraies voix. » Il convient de préciser quela plupartdes programmes d’IA vocale sont basés sur des voix réelles, de la même manière que l’art de l’IA est basé sur l’art réel – c’est ainsi que fonctionne la technologie. « Dans la bêta ouverte, ils sont basés sur un mélange d’acteurs professionnels et de voix temporaires d’employés d’Embark. Faire des jeux sans acteurs n’est pas un objectif final pour Embark et la technologie TTS a introduit de nouvelles façons de travailler ensemble. « 

Embark studios n’a pas commenté la question « mois vs. semaines », bien que l’implication semble se rapprocher de ce que l’interview mentionnée ci-dessus met en avant : TTS fait partie de la vision de The Finals. Le jeu utilisera probablement un mélange de voix et d’IA même une fois qu’il sera sorti de la version bêta, à moins que l’opinion publique ne fasse changer d’avis Embark Studios.