O The Finals utiliza a IA para conversão de texto em voz porque consegue produzir as falas “numa questão de horas e não de meses”, o que deixa os actores de voz perplexos

0
166

“Por que raio é que os locutores de IA agem como se contratar locutores fosse uma espécie de ritual arcano.”

A (podcast by Embark Studios)-criadores do próximo FPS (The Finals)-dou a entender que o jogo vai utilizar linhas de voz de IA num futuro próximo. No entanto, a explicação deixou alguns actores de voz confusos, na melhor das hipóteses.

Carl Strandberg e Andreas Almström, designers de áudio de The Finals, foram questionados: “Quem fez as locuções? Parecem muito autênticas” (spoilers: esta não é uma opinião partilhada por todos). Eles responderam: “Usamos IA com algumas excepções, por isso todas as vozes dos concorrentes, como os latidos e os comentadores, são texto para voz com IA”. A locução diversa – grunhidos, ruídos de dor, saltos sobre objectos – é feita internamente.

“A razão pela qual optámos por esta via é que a conversão de texto em voz por IA é, finalmente, extremamente poderosa. Leva-nos suficientemente longe em termos de qualidade e permite-nos ser extremamente reactivos a novas ideias… se um designer de jogos tiver uma nova ideia para um modo de jogo, podemos ter uma locução que a represente numa questão de horas, em vez de meses. “

Esta explicação, no entanto, não coincide com a experiência dos actores de voz que trabalham em jogos. Um desses actores é Gianni Matragrano, que talvez reconheças como Gabriel do Ultrakill, embora tenha trabalhado numa grande variedade de jogos, incluindo Genshin Impact, Gloomwood e Evil West.

Matragrano escreveu num (Twitter thread): “Estamos constantemente a fazer sessões de encomendas urgentes, tipo, num dia ou dois… Quando precisar de mais, pode marcar outra sessão. Na verdade, tornamos tudo muito fácil”. O jogador revela ainda que tinha as suas dúvidas quando jogou a versão beta, mas que estava à espera de confirmação: “Tinha as minhas suspeitas, mas não queria dizer nada para o caso de estar enganado, ou de ser apenas um espaço reservado. Mas agora, numa grande Open Beta com [150.000] jogadores em simultâneo, esta é definitivamente a visão deles. “

O vídeo acima é um exemplo publicado pelo próprio Matragrano e… sim, não é assim tão bom. Estou a ouvir demasiados “uncanny valley” para acreditar na tecnologia “extremamente poderosa” de que Strandberg e Almström se estavam a gabar. Eles acrescentaram a ressalva: “Se soa um pouco estranho, ainda assim combina bem com a fantasia do show de jogos virtual, esteticamente”. Cabe-vos a vós decidir se estas linhas de voz vos deixam imersos.
Zane Schacht, outro ator de vozes, escreveu: “Porque raio é que as pessoas que trabalham com vozes de IA agem como se contratar actores de vozes fosse uma espécie de ritual arcano? Não é profundo.”

Pax Helgesen, que é simultaneamente designer de som sénior e ator de voz, comentou: “Gostaria de voltar a encorajar os programadores a reconsiderar a utilização da voz nos seus jogos como um simples “recurso” na linha de desenvolvimento ágil”. E prossegue dizendo que, sim, a IA pode ter um papel importante no desenvolvimento de um jogo, mas “um ator que possa utilizar as ferramentas do seu ofício e experiências para colaborar e fazer algo maior do que o que os programadores imaginaram.”

Estou inclinado a concordar. De certa forma, a representação e o design de som são duas disciplinas muito diferentes. É semelhante à forma como os “AI Artists” são abatidos na praça pública quando partilham os resultados das suas propostas, uma vez que aqueles com melhor olho conseguem ver a falta de composição e intenção a uma milha de distância.

Pode-se pedir a um algoritmo para produzir algo, é verdade, mas a arte envolve dezenas de escolhas intencionais que uma máquina não pode, de momento, replicar. Atuar é semelhante. Parte de mim interroga-se se Strandberg e Almström não sabem o suficiente sobre VA para compreender como as suas falas geradas pelos ElevenLabs são chocantes para os jogadores que não se preocupam com os tempos de desenvolvimento.
Entrei em contacto com a Embark Studios para comentar o assunto e fui informado por e-mail de que o estúdio utiliza uma mistura de “áudio de voz gravada e áudio gerado através de ferramentas TTS [texto para voz] nos nossos jogos, dependendo do contexto”, citando as conversas entre personagens como uma das situações em que é importante ter pessoas reais a falar umas com as outras. “O TTS permite-nos ter [voice acting] personalizada onde de outra forma não o conseguiríamos, por exemplo, devido à velocidade de implementação. “

“Nos casos em que usamos TTS nas finais, é sempre baseado em vozes reais.” Um ponto a salientar aqui é quea maioriaos programas de voz de IA são baseados em vozes reais, da mesma forma que a arte de IA é baseada em arte real – é assim que a tecnologia funciona. “Na Open Beta, baseia-se numa mistura de actores de voz profissionais e vozes temporárias de funcionários da Embark. Fazer jogos sem actores não é um objetivo final para a Embark e a tecnologia TTS introduziu novas formas de trabalharmos em conjunto. “

Os estúdios Embark não comentaram a questão “meses vs. semanas”, embora a implicação pareça estar próxima do que a entrevista acima mencionada apresenta: O TTS faz parte da visão do The Finals. O jogo irá provavelmente usar uma mistura de voz e IA, mesmo depois de sair da fase beta – a menos que a opinião pública convença a Embark Studios do contrário.