«Какого хрена люди, занимающиеся озвучиванием с помощью ИИ, ведут себя так, будто наем актеров озвучивания — это какой-то заумный ритуал».
А (podcast by Embark Studios) — создатели грядущей FPS (The Finals) — намекнули, что в игре в обозримом будущем будут использоваться голосовые линии AI. Однако это объяснение оставило некоторых актеров озвучивания в лучшем случае в замешательстве.
Карла Страндберга и Андреаса Альмстрема, аудиодизайнеров The Finals, спросили: «Кто делал озвучку? Они звучат очень аутентично» (спойлеры: это мнение разделяют не все). Они ответили следующее: «Мы используем искусственный интеллект, за некоторыми исключениями, поэтому все голоса участников, такие как лай и голос комментаторов за кадром — это искусственный текст в речь». Различные голосовые эффекты — хрюканье, звуки боли, перепрыгивание через предметы — в остальном выполнены собственными силами.
«Причина, по которой мы пошли по этому пути, заключается в том, что искусственный интеллект «текст в речь» наконец-то стал чрезвычайно мощным. Он позволяет нам продвинуться достаточно далеко в плане качества и очень быстро реагировать на новые идеи… Если гейм-дизайнеру приходит в голову новая идея для игрового режима, мы можем получить закадровый голос, представляющий ее, всего за несколько часов, а не месяцев. «
Однако это объяснение не совсем согласуется с опытом актеров озвучивания, которые действительно работают в играх. Одним из таких актеров является Джанни Матраграно, которого вы можете узнать по роли Габриэля из Ultrakill, однако он работал в самых разных играх, включая Genshin Impact, Gloomwood и Evil West.
Матраграно написал на (Twitter thread): «Мы постоянно выполняем срочные заказы, например, в течение дня или двух… Если вам нужно больше, вы можете заказать еще одну сессию. На самом деле мы делаем это очень просто». Далее он рассказал, что у него были сомнения во время игры в бета-версию, но он ждал подтверждения: «У меня были подозрения, но я не хотел ничего говорить на случай, если я ошибаюсь, или, может быть, это был хотя бы просто placeholder. Но сейчас, когда уже есть большая открытая бета с [150 000] одновременных игроков, это определенно их видение.»
Полагаю, в The Finals будут использоваться голоса ИИ…? pic.twitter.com/PIAbR43ZrT
— Gianni Matragrano (@GetGianni) October 28, 2023
Приведенный выше видеоролик — это пример, размещенный самим Матраграно, и… да, он не так уж и хорош. Я слышу слишком много «долины сверхъестественного», чтобы поверить в «чрезвычайно мощную» технологию, которой хвастались Страндберг и Альмстрем. Правда, они добавили оговорку: «Если это и звучит немного не так, то все равно эстетически хорошо сочетается с фантазией виртуального игрового шоу». Решайте сами, погружают ли вас эти голоса.
Зейн Шахт, другой актер озвучивания, написал: «Какого хрена люди, занимающиеся озвучиванием ИИ, ведут себя так, будто наем актеров озвучивания — это какой-то заумный ритуал… Я за два часа озвучивал целые игры. Это не глубоко.»
В то же времяПакс Хельгесен, который сам является и старшим звукорежиссером, и актером озвучивания, сказал: «Я хотел бы еще раз призвать разработчиков пересмотреть отношение к использованию голоса в своих играх как к простому «активу» в конвейере гибкой разработки». Он также отметил, что, да, ИИ может сыграть важную роль в разработке игры, но «актер, который мог бы использовать инструменты своего ремесла и опыт для совместной работы и создания чего-то большего, чем представляли себе разработчики.»
Здесь я склонен согласиться. В каком-то смысле актерское мастерство и звуковой дизайн — это две совершенно разные дисциплины. Это похоже на то, как «художники искусственного интеллекта» получают отпор на публике, когда делятся результатами своих подсказок, поскольку те, у кого глаз наметанный, видят отсутствие композиции и замысла за версту.
Можно попросить алгоритм создать что-то, это верно, но искусство включает в себя десятки целенаправленных выборов, которые машина в данный момент не может воспроизвести. С актерской игрой дело обстоит примерно так же. Отчасти мне кажется, что Страндберг и Альмстрем просто недостаточно разбираются в VA, чтобы понять, как их реплики, сгенерированные ElevenLabs, раздражают игроков, которых не волнуют сроки разработки
Тем более странно, что в играх уже есть интересные, продуманные варианты использования этой технологии. Некоторое время назад стало известно, что в польском дубляже Cyberpunk 2077 для озвучивания нового пакета расширения Phantom Liberty после смерти актера, озвучивавшего одного из персонажей, был использован искусственный интеллект.CD Projektпроявила должную осмотрительность. Она наняла актера для озвучивания новых реплик (которые должны были быть изменены с помощьюRespeecher), заручилась согласием оставшихся в живых членов семьи актера и сделала это так, чтобы сохранить оригинальное исполнение без использования искусственного интеллекта.
Когда речь заходит о «Финале», я с трудом вижу творческий замысел. Конечно, искусственный интеллект может обеспечить более быстрые обороты — даже если они не такие уж медленные, как их выставляют разработчики, — но результат лишен индивидуальности. Конечно, многопользовательская стрелялка не обязательно должна содержать глубокий сюжет, но вы слушаете эти лаи часами напролет. Мне кажется, что неловкая, неуклюжая речь быстро надоест.
Я обратился за комментарием в Embark Studios, и мне ответили, что в зависимости от контекста студия использует в своих играх сочетание «записанных голосовых звуков и звуков, созданных с помощью инструментов TTS [text to speech]», назвав разговоры между персонажами одним из тех случаев, когда важно, чтобы реальные люди разговаривали друг с другом. «TTS позволяет нам использовать индивидуальную озвучку там, где иначе мы не смогли бы этого сделать, например, из-за скорости реализации».
«В тех случаях, когда мы используем TTS в «Финале», они всегда основаны на реальных голосах». Здесь следует отметить, чтобольшинствоголосовых программ AI основаны на реальных голосах, точно так же, как искусство AI основано на реальном искусстве — так работает технология. «В открытом бета-тестировании она основана на сочетании голосов профессиональных актеров и временных голосов сотрудников Embark. Создание игр без актеров не является для Embark конечной целью, и технология TTS открывает новые возможности для совместной работы.»
Студия Embark не стала комментировать вопрос «месяцы против недель», хотя его суть, похоже, близка к той, что изложена в упомянутом интервью: TTS является частью концепции The Finals. В игре, скорее всего, будет использоваться смесь озвучки и искусственного интеллекта даже после выхода бета-версии — если общественное мнение не заставит Embark Studios поступить иначе.