Finále používá převod textu na řeč pomocí umělé inteligence, protože dokáže vytvořit repliky „během několika hodin a ne měsíců“, což mate skutečné hlasové herce.

0
172

„Proč se sakra lidi od umělé inteligence chovají, jako by najímání hlasových herců byl nějaký tajemný rituál.“

A (podcast by Embark Studios) – tvůrci připravované FPS (The Finals) – naznačili, že hra bude v dohledné době využívat hlasové linky umělé inteligence. Toto vysvětlení však v některých hlasových hercích zanechalo přinejlepším zmatek.

Carl Strandberg a Andreas Almström, zvukoví designéři hry The Finals, byli dotázáni: „Kdo namluvil hlasy? Znějí opravdu autenticky“ (spoilery: tento názor nesdílí všichni). Odpověděli: „Až na několik výjimek používáme umělou inteligenci, takže všechny hlasy soutěžících, jako jsou štěky a hlasy komentátorů, jsou převodem textu na řeč pomocí umělé inteligence.“ Různé voiceovery – chrčení, zvuky bolesti, skákání přes předměty – jsou jinak vytvořeny vlastními silami.

„Důvodem, proč jsme se vydali touto cestou, je to, že umělá inteligence při převodu textu na řeč je konečně extrémně výkonná. Dostává nás dostatečně daleko, pokud jde o kvalitu, a umožňuje nám extrémně reagovat na nové nápady… pokud herní designér přijde s novým nápadem na herní režim, můžeme mít hlasový projev, který ho reprezentuje, během několika hodin, místo měsíců. „

Toto vysvětlení se však příliš neshoduje se zkušenostmi hlasových herců, kteří ve hrách skutečně pracují. Jedním z takových herců je Gianni Matragrano – kterého můžete znát jako Gabriela ze hry Ultrakill, ačkoli poskytl práci pro celou řadu her včetně Genshin Impact, Gloomwood a Evil West.

Matragrano napsal na (Twitter vlákno): „Když potřebujete víc, můžete si objednat další sezení. Vlastně to děláme velmi jednoduše.“ Dále prozrazuje, že při hraní bety měl pochybnosti, ale čekal na potvrzení: „Měl jsem podezření, ale nechtěl jsem nic říkat pro případ, že bych se mýlil, nebo že by to byl alespoň jen placeholder. Ale teď při velké otevřené betě se [150 000] současně hrajícími hráči je to určitě jen jejich vize.“

Výše uvedené video je ukázka, kterou zveřejnil sám Matragrano, a… ano, není to tak skvělé. Slyším příliš mnoho uncanny valley na to, abych uvěřil té „extrémně výkonné“ technologii, kterou se Strandberg a Almström chlubili. Dodali však výhradu: „Pokud to zní trochu nepatřičně, pořád to tak nějak esteticky dobře splývá s fantazií virtuální gameshow.“ A taky že jo. Záleží jen na vás, zda vás tyto hlasové linky pohltí.

Zane Schacht,další hlasový herec, napsal: „Proč se kurva lidé od umělé inteligence chovají, jako by najímání hlasových herců byl nějaký tajuplný rituál… Za dvě hodiny jsem vyťukal zvuk celé hry. Není to hluboké.“

MezitímPax Helgesen, který je zároveň vedoucím zvukovým designérem a sám je hlasovým hercem, poznamenal: „Rád bych znovu vyzval vývojáře, aby znovu zvážili používání hlasu ve svých hrách jako pouhého „aktiva“ v rámci agilního vývoje.“ Dále však říká, že ano, umělá inteligence může při vývoji hry plnit důležitou roli, ale „herec, který by mohl využít nástroje svého řemesla a zkušenosti ke spolupráci a vytvořit něco většího, než si vývojáři představovali.“

V tomto případě se přikláním k souhlasu. Herectví a zvukový design jsou v jistém smyslu dvě velmi odlišné disciplíny. Je to podobné, jako když jsou „umělci umělé inteligence“ na náměstí sestřelováni při sdílení výsledků svých podnětů, protože ti s lepším okem vidí nedostatek kompozice a záměru na míle daleko.

Můžete požádat algoritmus, aby něco vytvořil, to je pravda, ale umění zahrnuje desítky účelných rozhodnutí, která stroj v tuto chvíli nedokáže zopakovat. S herectvím je to podobné. Částečně si říkám, jestli Strandberg a Almström prostě nevědí o VA dost na to, aby pochopili, jak jejich hlášky generované ElevenLabs drásají hráče, kteří se nestarají o dobu vývoje.

O to bizarnější je, že ve hrách už existují zajímavá a promyšlená využití této technologie. Před časem vyšlo najevo, že polský dabing hry Cyberpunk 2077 použil umělou inteligenci k zajištění nových replik pro rozšiřující balíček hry Phantom Liberty poté, co zemřel hlasový herec jisté postavy.CD Projektsi dal záležet. Najala si herce, který měl nové repliky namluvit (a upravit je pomocíRespeecheru), získala souhlas pozůstalých členů hercovy rodiny a učinila tak proto, aby zachovala původní výkon bez použití AI.

Když jde o Finále, mám problém vidět tvůrčí záměr. Jistě, umělá inteligence by mohla zajistit rychlejší obraty – i když nejsou tak pomalé, jak se vývojáři tváří -, ale výsledek postrádá osobitost. Multiplayerová střílečka nemusí poskytovat hluboký příběh, to jistě, ale tyhle štěky posloucháte celé hodiny. Mám pocit, že to strnulé, trapné podání začne být rychle otravné.

Otázal jsem se na Embark Studios s žádostí o komentář a prostřednictvím e-mailu mi bylo sděleno, že studio v našich hrách používá kombinaci „nahraného hlasového zvuku a zvuku generovaného pomocí nástrojů TTS [převod textu na řeč] v závislosti na kontextu“, přičemž jako jeden z případů, kdy je důležité, aby spolu mluvili skuteční lidé, uvedlo rozhovory mezi postavami. „TTS nám umožňuje mít přizpůsobené [hlasové hraní] tam, kde bychom to jinak nedokázali, např. kvůli rychlosti implementace.“

„V případech, kdy ve finále používáme TTS, je vždy založeno na skutečných hlasech.“ Zde je třeba zdůraznit, že většinahlasových programů s umělou inteligencí je založena na skutečných hlasech, stejně jako je umělecká inteligence založena na skutečném umění – tak funguje technika. „V otevřené betaverzi jsou založeny na kombinaci profesionálních hlasových herců a dočasných hlasů zaměstnanců společnosti Embark. Vytváření her bez herců není pro společnost Embark konečným cílem a technologie TTS nám představila nové způsoby spolupráce.“

Studia Embark se k otázce „měsíce vs. týdny“ nevyjádřila, ačkoli se zdá, že implikace se blíží tomu, co předkládá výše zmíněný rozhovor: TTS je součástí vize The Finals. Hra bude pravděpodobně využívat kombinaci hlasové práce a umělé inteligence i po ukončení betaverze – pokud veřejné mínění nezmění názor studia Embark jinak.