总决赛使用人工智能文本转语音技术,因为它 “只需几个小时而不是几个月 “就能生成台词,这让真正的配音演员感到困惑

0
155

“Why the f**k do AI voice people act like hiring voice actors is some kind of arcane ritual.”

A (podcast by Embark Studios)–即将推出的 FPS (The Finals)的创造者–暗示游戏将在可预见的未来使用 AI 声线。然而,这一解释最多只能让一些配音演员感到困惑。

《总决赛》的音频设计师卡尔-斯特兰德伯格(Carl Strandberg)和安德烈亚斯-阿尔姆斯特伦(Andreas Almström)被问到:”谁来配音?”配音是谁配的?他们的声音听起来真的很真实”(剧透:这并不是每个人都同意的观点)。他们回答说 “我们使用的是人工智能,只有少数例外,因此所有选手的声音,如吠声和配音评论员的声音,都是人工智能的文本到语音”。其他杂项配音–叫声、疼痛声、翻越物体声–则由公司内部完成。

“我们之所以选择这条路线,是因为人工智能文本到语音技术终于变得异常强大。它让我们在质量方面走得足够远,也让我们能够对新创意做出极大反应……如果游戏设计师对游戏模式提出了新创意,我们只需几个小时就能完成配音,而不是几个月。

然而,这种解释与实际从事游戏配音工作的配音演员的经验并不相符。吉亚尼-马特拉格拉诺(Gianni Matragrano)就是这样一位演员,你可能会认出他是《超杀》中的加布里埃尔,不过他也曾为包括《源氏冲击》、《阴郁森林》和《邪恶西游》在内的多款游戏配音。

马特拉格拉诺在(微博话题)上写道: “我们经常在一两天内完成急单……当你需要更多的时候,你可以再预订一次。实际上,我们做得很简单。他接着透露,他在玩测试版时曾有过怀疑,但一直在等待确认: “我有过怀疑,但我不想说出来,以防我错了,或者也许至少只是占位符。但现在,在拥有 [150,000] 名同时在线玩家的大型开放测试中,这肯定只是他们的设想。


上面的视频是马特拉格拉诺自己发布的一个例子,……是的,没那么好。我听到了太多 “不可思议谷 “的声音,对 Strandberg 和 Almström 吹嘘的 “极其强大 “的技术并不买账。他们还补充了一点:”如果听起来有点怪,但从美学角度来看,它还是与虚拟游戏秀的幻想相得益彰”。至于这些声线能否让你沉浸其中,就要看你自己了。

另一位配音演员扎恩-沙赫特(Zane Schacht)写道:”为什么人工智能配音人员表现得好像雇佣配音演员是某种神秘的仪式……我在两个小时的会议中就完成了整个游戏的音频。这并不深奥。”

同时,身兼资深音效设计师和配音演员的帕克斯-赫尔格森(Pax Helgesen)评论道: “我想再次鼓励开发人员重新考虑在游戏中使用语音的问题,将其仅仅视为敏捷开发管道中的一项 “资产”。他接着说,是的,人工智能可以在游戏开发中发挥重要作用,但 “一个演员可以利用他们的手艺和经验工具进行合作,做出比开发人员想象的更伟大的东西”。

我倾向于同意这一点。从某种意义上说,表演和声音设计是两个截然不同的学科。这就好比 “人工智能艺术家 “在公共场合分享他们的提示结果时会遭到抨击一样,因为那些眼力较好的人在一英里之外就能看出缺乏构图和意图。

你可以让算法来制作一些东西,确实如此,但艺术涉及到几十种有目的的选择,而这些选择是机器目前无法复制的。表演也是如此。我不禁要问,斯特兰堡和阿尔姆斯特伦是否对虚拟现实了解不够,无法理解他们由 ElevenLabs 生成的台词对那些不在乎开发周转时间的玩家来说是多么刺耳。

更让人感到奇怪的是,这种技术已经在游戏中得到了有趣而周到的应用。不久前,有人透露,《赛博朋克 2077》的抛光配音在某个角色的配音演员去世后,使用人工智能为游戏扩展包《幻影自由》提供了新的台词。它聘请了一位配音演员来提供新的台词(用 Respeecher 进行修改),并征得了该配音演员遗属的同意,这样做是为了保留非人工智能的原始表演。
说到《总决赛》,我很难理解其中的创意意图。当然,人工智能也许能提供更快的周转时间–即使它们并不像开发人员所说的那么慢,但结果却毫无个性可言。当然,多人射击游戏并不需要提供深刻的叙事,但你却要连续几个小时听着这些叫声。我觉得这种呆板笨拙的表达方式很快就会让人讨厌

我联系了 Embark Studios 征求意见,他们通过一封电子邮件告诉我,该工作室在游戏中混合使用 “录制的语音音频和通过 TTS(文本到语音)工具生成的音频,具体取决于上下文。”TTS可以让我们在其他情况下实现量身定制的[配音],例如,由于实施速度的原因。”

“TTS可以让我们在其他情况下实现量身定制的[配音]。

“我们在总决赛中使用 TTS 的情况下,都是基于真实的声音”。这里需要说明的一点是,大多数 AI 语音程序都是基于真实声音的,就像 AI 艺术是基于真实艺术一样–这就是技术的工作原理。”在开放测试版中,它是基于专业配音演员和 Embark 员工临时配音的混合体。制作没有演员的游戏并不是 Embark 的终极目标,TTS 技术为我们的合作引入了新的方式。

Embark工作室没有就 “数月与数周 “的问题发表评论,但其含义似乎与上述采访中的说法相近: TTS 是《总决赛》愿景的一部分。即使在测试版发布之后,游戏也可能会混合使用语音和人工智能–除非公众舆论对 Embark 工作室产生了其他影响。