„Финалите“ използва AI за преобразуване на текст в реч, защото може да създава реплики „само за няколко часа, а не за месеци“, което озадачава истинските гласови актьори

0
278

„Защо, по дяволите, озвучителите с изкуствен интелект се държат така, сякаш наемането на озвучители е някакъв таен ритуал.“

A (podcast by Embark Studios) – създателите на предстоящата FPS (The Finals) – намекнаха, че в обозримо бъдеще играта ще използва AI озвучителни линии. Обяснението обаче накара някои озвучители да се почувстват в най-добрия случай объркани.

Карл Страндберг и Андреас Алмстрьом, аудиодизайнери на The Finals, бяха попитани: „Кой озвучи гласовете? Те звучат наистина автентично“ (спойлери: това мнение не се споделя от всички). Те отговориха: „Използваме изкуствен интелект с няколко изключения, така че всички гласове на участниците, като лайковете и гласовете на коментаторите, са текст в реч с изкуствен интелект.“ Различните озвучителни елементи – ръмжене, болка, прескачане на предмети – иначе се правят самостоятелно.

„Причината, поради която избрахме този път, е, че изкуственият озвучител на текст най-накрая е изключително мощен. Той ни позволява да стигнем достатъчно далеч по отношение на качеството и да реагираме изключително бързо на нови идеи… ако някой дизайнер на игри предложи нова идея за режим на игра, можем да имаме глас зад кадър, който да я представя само за няколко часа, вместо за месеци. „

Това обяснение обаче не съвпада с опита на озвучителите, които действително работят в игри. Един такъв актьор е Джани Матраграно – когото може да разпознаете като Габриел от Ultrakill, въпреки че е работил за най-различни игри, включително Genshin Impact, Gloomwood и Evil West.

Матраграно написа в (Twitter thread): „Когато имате нужда от повече, можете да си поръчате още една сесия. Всъщност го правим много лесно.“ По-нататък той разкрива, че е имал съмнения, когато е играл бета версията, но е чакал потвърждение: „Имах своите подозрения, но не исках да казвам нищо, в случай че греша или може би това е поне само плацдарм. Но сега, при голямата отворена бета с [150 000] едновременно играещи играчи, това определено е само тяхно виждане.“

По-горепосоченият видеоклип е пример, публикуван от самия Матраграно, и… да, не е толкова добър. Чувам твърде много uncanny valley, за да повярвам в тази „изключително мощна“ технология, с която се хвалеха Страндберг и Алмстрьом. Те все пак добавиха уговорката: „Ако звучи малко нелепо, то все пак естетически се съчетава някак добре с фантазията на виртуалното шоу-игра“. От вас зависи дали тези гласови линии ще ви потопят.

Зейн Шахт,друг озвучаващ актьор, пише: „Защо, по дяволите, озвучителите на изкуствен интелект се държат така, сякаш наемането на озвучители е някакъв таен ритуал… За два часа съм изкарвал аудио на цели игри. Това не е дълбоко.“

МеждувременноPax Helgesen, който е едновременно старши звуков дизайнер и озвучаващ актьор, коментира: „Бих искал отново да насърча разработчиците да преосмислят използването на глас в игрите си като просто „актив“ в процеса на гъвкава разработка.“ По-нататък той казва, че, да, изкуственият интелект може да изпълнява важна роля в разработването на дадена игра, но „актьор, който би могъл да използва инструментите на своя занаят и опит, за да си сътрудничи и да направи нещо по-голямо от това, което разработчиците са си представяли.“

Тук съм склонен да се съглася. В известен смисъл актьорското майсторство и звуковият дизайн са две много различни дисциплини. Подобно е на това, как „артистите на изкуствения интелект“ биват отстрелвани на обществения площад, когато споделят резултатите от своите подсказки, тъй като тези с по-добро око могат да видят липсата на композиция и намерение от километър.

Можете да поискате от алгоритъм да създаде нещо, вярно, но изкуството включва десетки целенасочени избори, които машината в момента не може да възпроизведе. Актьорството е подобно. Част от мен се чуди дали Страндберг и Алмстрьом просто не знаят достатъчно за VA, за да разберат как техните генерирани от ElevenLabs реплики са стряскащи за играчите, които не се интересуват от сроковете за разработка.

Като още по-странно е, че вече има интересни и обмислени приложения на тази технология в игрите. Преди време стана ясно, че полският дублаж на Cyberpunk 2077 е използвал изкуствен интелект, за да осигури нови реплики за разширителния пакет на играта – Phantom Liberty, след като актьорът, озвучаващ определен герой, е починал.CD Projektе направила своята проверка. Наела е актьор, който да предостави новите реплики (които да бъдат променени сRespeecher), получила е съгласието на оцелелите членове на семейството на актьора и е направила това, за да запази оригиналното изпълнение без AI.

Когато става въпрос за „Финалите“, ми е трудно да видя творческия замисъл. Разбира се, ИИ може да е в състояние да осигури по-бързи обороти – дори и да не са толкова бавни, колкото ги изкарват разработчиците, – но резултатът е лишен от индивидуалност. Разбира се, един мултиплейърски shoot-’em-up не трябва да предоставя дълбок разказ, но вие слушате тези лайкове часове наред. Имам чувството, че скованото, неловко представяне ще стане досадно, бързо.

Потърсих Embark Studios за коментар и чрез имейл ми беше отговорено, че студиото използва комбинация от „записано гласово аудио и аудио, генерирано чрез TTS [text to speech] инструменти в нашите игри, в зависимост от контекста“, като посочва разговорите между героите като един от случаите, в които е важно да се накарат истински хора да говорят помежду си. „TTS ни позволява да имаме адаптирано [озвучаване] там, където иначе не бихме могли, например поради скоростта на изпълнение.“

„В случаите, когато използваме TTS във финалите, той винаги се основава на истински гласове.“ Тук трябва да се отбележи, че повечетогласови програми с изкуствен интелект се базират на истински гласове, по същия начин, по който изкуството с изкуствен интелект се базира на истинско изкуство – така работи технологията. „В отворената бета версия тя се основава на комбинация от професионални гласови актьори и временни гласове от служители на Embark. Създаването на игри без актьори не е крайна цел за Embark и технологията TTS въведе нови начини за съвместна работа.“

Студиото на Embark не коментира въпроса за „месеците срещу седмиците“, въпреки че намекът изглежда близък до това, което се изтъква в гореспоменатото интервю: TTS е част от визията на The Finals. Играта вероятно ще използва смесица от озвучаване и изкуствен интелект дори след като излезе от бета версията – освен ако общественото мнение не повлияе на Embark Studios по друг начин.