«¿Por qué cojones los locutores de IA actúan como si contratar actores de doblaje fuera una especie de ritual arcano?».
A (podcast de Embark Studios)-creadores del próximo FPS (The Finals)-ha insinuado que el juego utilizará líneas de voz de IA en un futuro próximo. La explicación, sin embargo, ha dejado a algunos actores de doblaje confusos, en el mejor de los casos.
Carl Strandberg y Andreas Almström, diseñadores de audio de The Finals, fueron preguntados: «¿Quién hizo las voces en off? Suenan realmente auténticas» (spoilers: no es una opinión que todo el mundo comparta). Respondieron: «Usamos IA con algunas excepciones, así que todas las voces de los concursantes, como los ladridos y los comentaristas en off, son texto-voz de IA». Por lo demás, las voces en off -gruñidos, ruidos de dolor, saltos sobre objetos- se hacen internamente.
«La razón por la que optamos por esta vía es que la conversión de texto a voz con IA es, por fin, extremadamente potente. Nos lleva lo suficientemente lejos en términos de calidad y nos permite ser extremadamente reactivos a las nuevas ideas… si a un diseñador de juegos se le ocurre una nueva idea para un modo de juego, podemos tener una voz en off que la represente en cuestión de horas, en lugar de meses».
Esa explicación, sin embargo, no encaja con la experiencia de los actores de doblaje que trabajan en los juegos. Uno de ellos es Gianni Matragrano, al que quizá reconozcas como Gabriel de Ultrakill, aunque ha trabajado en una gran variedad de juegos, como Genshin Impact, Gloomwood y Evil West.
Matragrano escribió en un (Hilo de Twitter): «Estamos constantemente golpeando a cabo sesiones de pedidos urgentes para como, dentro de un día o dos … Cuando necesite más, puede reservar otra sesión. Lo hacemos muy fácil». Continúa revelando que tenía sus dudas cuando jugó a la beta, pero que estaba esperando la confirmación: «Tenía mis sospechas, pero no quería decir nada por si me equivocaba, o por si al menos se trataba de un marcador de posición. Pero ahora, en una gran beta abierta con [150.000] jugadores simultáneos, sin duda se trata de su visión».
¿Supongo que The Finals contará con voces de IA? pic.twitter.com/PIAbR43ZrT
– Gianni Matragrano (@GetGianni) 28 de octubre de 2023
El vídeo de arriba es un ejemplo publicado por el propio Matragrano, y… sí, no es tan bueno. Oigo demasiado valle misterioso como para creerme esa tecnología «extremadamente potente» de la que alardeaban Strandberg y Almström. Pero añaden una advertencia: «Aunque suene un poco raro, estéticamente encaja muy bien con la fantasía del espectáculo virtual». Depende de ti si estas líneas de voz te sumergen.
Zane Schacht,otro actor de doblaje, escribió: «¿Por qué cojones la gente de la voz AI actúa como si contratar actores de doblaje fuera una especie de ritual arcano … He acabado con juegos enteros de audio en una sesión de dos horas. No es profundo.»
Estoy de acuerdo. En cierto sentido, la interpretación y el diseño de sonido son dos disciplinas muy diferentes. Es parecido a cómo los «artistas de la IA» son derribados en la plaza pública cuando comparten los resultados de sus prompts, ya que los que tienen mejor ojo pueden ver la falta de composición e intención a la legua.
Puedes pedirle a un algoritmo que produzca algo, cierto, pero el arte implica docenas de elecciones intencionadas que una máquina no puede, de momento, replicar. Actuar es parecido. Una parte de mí se pregunta si Strandberg y Almström no saben lo suficiente sobre VA como para entender que sus líneas generadas por ElevenLabs resultan chocantes para los jugadores a los que no les importan los plazos de desarrollo.
Lo que hace que esto sea aún más extraño es que ya existen usos interesantes y bien pensados de esta tecnología en los juegos. Hace poco, se supo que el doblaje de Cyberpunk 2077 utilizó IA para proporcionar nuevas líneas para el pack de expansión del juego, Phantom Liberty, después de que el actor de doblaje de cierto personaje muriera.CD Projekthizo su debida diligencia. Contrató a un actor de doblaje para las nuevas líneas (que se modificarían conRespeecher), obtuvo el consentimiento de los familiares supervivientes del actor, y lo hizo para preservar la interpretación original, sin IA.
Me he puesto en contacto con Embark Studios y me han dicho por correo electrónico que el estudio utiliza una mezcla de «audio de voz grabada y audio generado mediante herramientas TTS [texto a voz] en nuestros juegos, dependiendo del contexto». «El TTS nos permite adaptar [la actuación de voz] a situaciones en las que de otro modo no podríamos, por ejemplo, debido a la velocidad de implementación».
«En los casos en que usamos TTS en The Finals, siempre se basa en voces reales». Aquí hay que decir que la mayoría de los programas de voz de IA se basan en voces reales, del mismo modo que el arte de IA se basa en el arte real: así es como funciona la tecnología. «En la beta abierta, se basa en una mezcla de actores de doblaje profesionales y voces temporales de empleados de Embark. Hacer juegos sin actores no es un objetivo final para Embark y la tecnología TTS nos ha presentado nuevas formas de trabajar juntos».
Embark studios no se pronunció sobre la cuestión de «meses frente a semanas», aunque la insinuación parece acercarse a lo que plantea la entrevista mencionada: TTS forma parte de la visión de The Finals. Es probable que el juego utilice una mezcla de voz e inteligencia artificial incluso cuando salga de la beta, a menos que la opinión pública haga cambiar de opinión a Embark Studios.