“Waarom doen AI-stemmen alsof het inhuren van stemacteurs een soort geheim ritueel is.”
A (podcast by Embark Studios)-makers van de aankomende FPS (The Finals)-heeft laten doorschemeren dat de game in de nabije toekomst gebruik zal maken van AI-stemmen. De uitleg heeft sommige stemacteurs echter in verwarring gebracht.
Carl Strandberg en Andreas Almström, audio-ontwerpers voor The Finals, werd gevraagd: “Wie heeft de voice-overs gedaan? Ze klinken echt authentiek” (spoilers: dat is niet een mening die iedereen deelt). Ze antwoordden: “We gebruiken AI op een paar uitzonderingen na, dus alle stemmen van de deelnemers, zoals het geblaf en de commentaarstemmen, zijn AI-tekst-naar-spraak.” Andere voice-overs – grommen, pijngeluiden, over voorwerpen springen – worden verder intern gedaan.
De reden dat we deze weg zijn ingeslagen is dat AI tekst-naar-spraak uiteindelijk extreem krachtig is. Het brengt ons ver genoeg in termen van kwaliteit en stelt ons in staat om extreem snel te reageren op nieuwe ideeën … als een gamedesigner met een nieuw idee komt voor een spelmodus, kunnen we een voice-over hebben die dat idee vertegenwoordigt in slechts enkele uren, in plaats van maanden.”
Die uitleg strookt echter niet echt met de ervaring van stemacteurs die daadwerkelijk in games werken. Eén zo’n acteur is Gianni Matragrano, die je misschien herkent als Gabriel uit Ultrakill, maar hij heeft ook werk geleverd voor een groot aantal games, waaronder Genshin Impact, Gloomwood en Evil West.Matragrano schreef op een (Twitter thread): “We knallen constant spoedbestelsessies uit voor bijvoorbeeld binnen een dag of twee … Als je meer nodig hebt, kun je nog een sessie boeken. We maken het je eigenlijk heel gemakkelijk.” Hij onthult verder dat hij zijn twijfels had toen hij de bèta speelde, maar wachtte op bevestiging: “Ik had mijn vermoedens, maar ik wilde niets zeggen voor het geval ik het mis had, of misschien was het op zijn minst slechts placeholder. Maar nu bij een grote Open Beta met [150.000] gelijktijdige spelers, is dit zeker hun visie.”
Dus ik denk dat The Finals met AI-stemmen gaat…? pic.twitter.com/PIAbR43ZrT
– Gianni Matragrano (@GetGianni) 28 oktober 2023
Bovenstaande video is een voorbeeld gepost door Matragrano zelf, en… ja, het is niet zo geweldig. Ik hoor teveel uncanny valley om in die “extreem krachtige” technologie van Strandberg en Almström te geloven. Ze voegden wel het voorbehoud toe: “Als het een beetje vreemd klinkt, past het esthetisch gezien nog steeds goed bij de fantasie van de virtuele spelshow.” Het is aan jou of deze stemlijnen je onderdompelen.
Zane Schacht, een andere stemacteur, schreef: “Waarom doen AI-stemmers verdomme alsof het inhuren van stemacteurs een soort geheim ritueel is … Ik heb hele spellen aan audio gemaakt in een sessie van twee uur. Het is niet diep.”
Pax Helgesen, die zowel senior geluidsontwerper als stemacteur is, gaf als commentaar: “Ik wil ontwikkelaars nogmaals aanmoedigen om het gebruik van voice in hun games te heroverwegen als simpelweg een ‘asset’ in de pijplijn van agile ontwikkeling.” Hij zegt verder dat AI inderdaad een belangrijke rol kan spelen in de ontwikkeling van een game, maar “Een acteur die de tools van zijn vak en zijn ervaringen kan gebruiken om samen te werken en iets groters te maken dan wat de ontwikkelaars zich hadden voorgesteld.”
Ik ben geneigd het hier mee eens te zijn. In zekere zin zijn acteren en sound design twee heel verschillende disciplines. Het is vergelijkbaar met hoe ‘AI Artists’ op het publieke plein worden neergesabeld als ze de resultaten van hun prompts delen, omdat degenen met een beter oog het gebrek aan compositie en intentie op een kilometer afstand kunnen zien.
Je kunt een algoritme vragen om iets te produceren, dat is waar, maar kunst bestaat uit tientallen doelgerichte keuzes die een machine op dit moment niet kan namaken. Acteren is vergelijkbaar. Een deel van mij vraagt zich af of Strandberg en Almström gewoon niet genoeg weten over VA om te begrijpen hoe hun door ElevenLabs gegenereerde tekst schokkend is voor spelers die zich niets aantrekken van de doorlooptijden van de ontwikkeling.
Wat dit des te bizarder maakt, is dat er al interessante, doordachte toepassingen van deze technologie in games zijn. Een tijdje geleden werd onthuld dat de polish dub van Cyberpunk 2077 AI gebruikte om nieuwe tekst te geven voor het uitbreidingspakket van de game, Phantom Liberty, nadat de stemacteur voor een bepaald personage was overleden.CD Projektheeft de nodige zorgvuldigheid betracht. Het huurde een stemacteur in om de nieuwe tekst te leveren (die moest worden aangepast metRespeecher), het kreeg toestemming van de overlevende familieleden van de acteur en het deed dit om de originele, niet-AI prestaties te behouden.
Ik heb Embark Studios om commentaar gevraagd en via een e-mail kreeg ik te horen dat de studio een mix gebruikt van “opgenomen stemgeluid en geluid gegenereerd via TTS [tekst naar spraak] tools in onze games, afhankelijk van de context”, waarbij gesprekken tussen personages worden genoemd als een van de situaties waarin het belangrijk is om echte mensen met elkaar te laten praten. “TTS stelt ons in staat om op maat gemaakte [voice acting] te gebruiken waar we dat anders niet zouden doen, bijvoorbeeld vanwege de snelheid van implementatie.”
“In de gevallen waarin we TTS gebruiken in The Finals, is het altijd gebaseerd op echte stemmen.” Een punt om te maken, hier, is datmeestAI-spraakprogramma’s zijn gebaseerd op echte stemmen, op dezelfde manier als AI-kunst is gebaseerd op echte kunst-zo werkt de technologie. “In de Open Beta is het gebaseerd op een mix van professionele stemacteurs en tijdelijke stemmen van Embark-medewerkers. Games maken zonder acteurs is geen einddoel voor Embark en de TTS-technologie heeft nieuwe manieren voor ons geïntroduceerd om samen te werken.”
De Embark studio’s hebben geen commentaar gegeven op de vraag ‘maanden vs. weken’, hoewel de implicatie dicht in de buurt lijkt te komen van wat het eerder genoemde interview naar voren brengt: TTS maakt deel uit van de visie van The Finals. Het spel zal waarschijnlijk gebruikmaken van een combinatie van voicework en AI, zelfs als het eenmaal uit de bètafase is, tenzij de publieke opinie Embark Studios op andere gedachten brengt.