The Finals usa l’AI text-to-speech perché può produrre battute “in poche ore invece che in mesi”, sconcertando i doppiatori veri e propri

0
152

“Perché diavolo i doppiatori dell’IA si comportano come se assumere dei doppiatori fosse una specie di rito arcano?”.

A (podcast di Embark Studios)- creatori del prossimo FPS (The Finals)- ha lasciato intendere che il gioco utilizzerà linee vocali AI per il prossimo futuro. La spiegazione, tuttavia, ha lasciato alcuni doppiatori confusi, nel migliore dei casi.

Carl Strandberg e Andreas Almström, progettisti audio di The Finals, si sono sentiti chiedere: “Chi ha fatto i doppiaggi? Sembrano davvero autentici” (spoiler: non è un’opinione condivisa da tutti). Hanno risposto: “Usiamo l’IA con poche eccezioni, quindi tutte le voci dei concorrenti, come i latrati e i commentatori fuori campo, sono text-to-speech dell’IA”. Le varie voci fuori campo – grugniti, rumori di dolore, salti sopra gli oggetti – sono altrimenti realizzate internamente.

“Il motivo per cui abbiamo scelto questa strada è che l’AI text-to-speech è finalmente estremamente potente. Ci porta abbastanza lontano in termini di qualità e ci permette di essere estremamente reattivi alle nuove idee… se un game designer propone una nuova idea per una modalità di gioco, possiamo avere una voce fuori campo che la rappresenti in poche ore, invece che in mesi”

Questa spiegazione, tuttavia, non ha trovato riscontro nell’esperienza dei doppiatori che lavorano effettivamente nei giochi. Uno di questi è Gianni Matragrano, che forse conoscerete come Gabriel di Ultrakill, ma che ha lavorato per una vasta gamma di giochi, tra cui Genshin Impact, Gloomwood e Evil West.

Matragrano ha scritto su un (Twitter thread): “Facciamo continuamente sessioni di ordini urgenti per un giorno o due… Quando ne hai bisogno di più, puoi prenotare un’altra sessione. In realtà lo rendiamo molto semplice”. Ha poi rivelato di aver avuto dei dubbi quando ha giocato alla beta, ma di essere in attesa di una conferma: “Avevo dei sospetti, ma non volevo dire nulla nel caso in cui mi fossi sbagliato, o magari si trattava solo di placeholder. Ma ora, in una grande Open Beta con [150.000] giocatori contemporanei, questa è sicuramente la loro visione. “

Il video qui sopra è un esempio postato dallo stesso Matragrano e… sì, non è un granché. Sento troppa “uncanny valley” per credere alla tecnologia “estremamente potente” di cui si vantavano Strandberg e Almström. Hanno però aggiunto l’avvertenza: “Se suona un po’ strano, si fonde comunque bene con la fantasia del gioco virtuale, dal punto di vista estetico”. Sta a voi decidere se queste linee vocali vi coinvolgeranno o meno.

Zane Schacht,un altro doppiatore, ha scritto: “Perché cazzo i doppiatori dell’IA si comportano come se assumere dei doppiatori fosse una specie di rito arcano… Ho buttato giù l’audio di interi giochi in una sessione di due ore. Non è profondo.”

Pax Helgesen, che è sia senior sound designer che doppiatore, ha commentato: “Vorrei incoraggiare ancora una volta gli sviluppatori a riconsiderare l’uso della voce nei loro giochi come una semplice “risorsa” nella pipeline dello sviluppo agile”. Continua dicendo che, sì, l’intelligenza artificiale può avere un ruolo importante nello sviluppo di un gioco, ma “un attore che potrebbe usare gli strumenti del proprio mestiere e le proprie esperienze per collaborare e creare qualcosa di più grande di quello che gli sviluppatori hanno immaginato.”

Sono propenso ad essere d’accordo. In un certo senso, la recitazione e il sound design sono due discipline molto diverse. È simile al modo in cui gli “artisti dell’intelligenza artificiale” vengono criticati sulla pubblica piazza quando condividono i risultati dei loro suggerimenti, poiché chi ha un occhio più attento può vedere la mancanza di composizione e di intenzione a un miglio di distanza.

Si può chiedere a un algoritmo di produrre qualcosa, è vero, ma l’arte comporta decine di scelte mirate che una macchina non può, al momento, replicare. La recitazione è simile. Una parte di me si chiede se Strandberg e Almström non ne sappiano abbastanza di VA per capire come le loro battute generate da ElevenLabs siano stridenti per i giocatori che non si preoccupano dei tempi di sviluppo.

Ciò che rende tutto questo ancora più bizzarro è che ci sono già usi interessanti e ponderati di questa tecnologia nei giochi. Poco tempo fa, è stato rivelato che il doppiaggio polacco di Cyberpunk 2077 ha utilizzato l’intelligenza artificiale per fornire nuove battute per il pacchetto di espansione del gioco, Phantom Liberty, dopo la morte del doppiatore di un certo personaggio.CD Projektha fatto la sua parte. Ha ingaggiato un doppiatore per fornire le nuove battute (da modificare conRespeecher), ha ottenuto il consenso dei familiari superstiti dell’attore e lo ha fatto per preservare la performance originale, non basata sull’intelligenza artificiale.

Quando si tratta di The Finals, faccio fatica a vedere l’intento creativo. Certo, l’IA potrebbe essere in grado di fornire tempi più rapidi – anche se non sono così lenti come gli sviluppatori li fanno sembrare – ma il risultato è privo di personalità. Uno sparatutto multigiocatore non deve fornire una narrazione profonda, certo, ma si ascoltano questi latrati per ore e ore. Ho l’impressione che la pronuncia stentata e goffa diventi rapidamente fastidiosa.

Ho contattato Embark Studios per un commento e mi è stato detto via e-mail che lo studio utilizza un mix di “audio vocale registrato e audio generato tramite strumenti TTS [text to speech] nei nostri giochi, a seconda del contesto”, citando le conversazioni tra i personaggi come uno dei casi in cui è importante far parlare tra loro persone reali. “Il TTS ci permette di avere un [doppiaggio] su misura laddove altrimenti non sarebbe possibile, ad esempio per la velocità di implementazione. “

“Nei casi in cui usiamo il TTS nelle finali, è sempre basato su voci reali”. Un punto da sottolineare è chela maggior partedei programmi vocali AI sono basati su voci reali, così come l’arte AI è basata su arte reale: è così che funziona la tecnologia. “Nell’Open Beta, il programma si basa su un mix di doppiatori professionisti e voci temporanee dei dipendenti di Embark. Creare giochi senza attori non è un obiettivo finale per Embark e la tecnologia TTS ha introdotto nuovi modi per lavorare insieme. “

Gli studi Embark non hanno commentato la questione “mesi o settimane”, anche se l’implicazione sembra essere vicina a quanto riportato nell’intervista sopra citata: Il TTS fa parte della visione di The Finals. Il gioco probabilmente utilizzerà un misto di voce e intelligenza artificiale anche una volta uscito dalla beta, a meno che l’opinione pubblica non convinca diversamente Embark Studios.