ファイナルズ、AI音声合成を採用 「数カ月ではなく数時間で」セリフが作れるため、実際の声優を困惑させる

0
204

“なぜAI音声担当者は声優を雇うのが難解な儀式であるかのように振舞うのか”

A(ポッドキャスト by Embark Studios)-近日公開予定のFPS(The Finals)のクリエイター-は、ゲームが当分の間AIボイスラインを使用することをほのめかしている。しかし、この説明は一部の声優に戸惑いを与えている。

Carl Strandberg氏とAndreas Almström氏は、『The Finals』のオーディオデザイナーである: 「ナレーションは誰が担当したのですか?と質問された(ネタバレ:これは誰もが共有する意見ではない)。彼らはこう答えた: 「私たちは一部の例外を除いてAIを使用しているので、吠え声やナレーションコメンテーターのような出場者の声はすべてAIの音声合成です。その他のナレーション、うなり声、痛みの音、物体を飛び越える音などは自社で行っています」


「私たちがこのルートを選んだ理由は、AIの音声合成がついに非常に強力になったからです。ゲームデザイナーがゲームモードの新しいアイデアを思いついたら、数ヶ月かかるところを、ほんの数時間でそれを表現するナレーションを作ることができるのです」

しかし、その説明は、実際にゲームに携わっている声優の経験とは一致していない。そのような俳優の一人がジャンニ・マトラグラーノである。彼は『ウルトラキル』のガブリエル役でお馴染みかもしれないが、『幻影異聞録』、『Gloomwood』、『Evil West』など様々なゲームに作品を提供している。

MatragranoはTwitterのスレッドにこう書いている: 「私たちは常に、1日か2日以内のような急ぎのオーダーセッションをこなしています……さらに必要なときは、別のセッションを予約することができます。私たちはそれをとても簡単にしています」。彼はさらに、ベータ版をプレイしたときに疑念を抱いたが、確認を待っていたと明かした: 「疑ってはいたのですが、万が一間違っていたらと思うと何も言いたくなかったし、少なくとも単なるプレースホルダーだったのかもしれません。しかし今、[15万人]の同時プレイヤーを抱える大規模なオープンベータでは、これは間違いなく彼らのビジョンに他なりません」

上の動画はマトラグラーノ自身が投稿した例だが、…うん、そんなに素晴らしいものではない。StrandbergとAlmströmが自慢していた “非常にパワフル “な技術を信じるには、あまりにも不気味の谷が多すぎる。彼らは、”多少音がおかしくても、バーチャル・ゲームショウのファンタジーと美学的にうまく調和している “という注意書きを付け加えた。これらのボイスラインがあなたを没頭させるかどうかは、あなた次第である。

ゼイン・シャハト(別の声優)はこう書いている: “なぜAIボイス担当者は声優を雇うのが難解な儀式であるかのように振る舞うんだ……私は2時間のセッションでゲーム全体の音声をたたき出したことがある。深くはない」

一方、シニアサウンドデザイナーであり、自身も声優であるPax Helgesen氏は次のようにコメントしています: 「アジャイル開発のパイプラインにおける単なる “アセット “として、ゲームにおけるボイスの使用を再考することを開発者に再度勧めたい。彼は、AIはゲーム開発において重要な役割を果たすことができるが、「自分の技術や経験のツールを使って協力し、開発者が想像したものよりも大きなものを作ることができる俳優が必要だ」と述べている。

ここは同意したい。ある意味、演技とサウンドデザインは全く異なる分野です。それは、「AIアーティスト」がプロンプトの結果を共有するときに、公共の場で撃墜されるのと似ています。

アルゴリズムに何かを作り出すよう頼むことはできる、確かに。しかし芸術には、機械が現時点では再現できない、何十もの目的を持った選択が含まれる。演技も似たようなものだ。StrandbergとAlmströmはVAについて十分に理解していないだけで、ElevenLabsが生成したセリフが、開発の納期を気にしないプレイヤーにとっていかに耳障りなものであるかを理解していないのでは、と思う部分もある


これがさらに奇妙なのは、この技術がすでにゲームにおいて興味深く、思慮深い使われ方をしていることだ。少し前に、『サイバーパンク2077』の吹き替え版では、あるキャラクターの声優が亡くなった後、ゲームの拡張パック『ファントム・リバティ』のためにAIを使って新しいセリフを提供していたことが明らかになった。新しいセリフを提供するために声優を雇い(Respeecherで変更される)、その声優の残された家族の同意を得、AIではないオリジナルの演技を保存するためにそうしました。

ファイナルに関しては、創造的な意図を見出すのに苦労している。確かに、AIはより素早い展開を提供できるかもしれない(開発陣が言うほど遅くはないにしても)だが、その結果、個性がなくなっている。マルチプレイヤーのシューティングゲームに深い物語を提供する必要はないのは確かだが、何時間もこの吠え声を聞き続けることになる。そのチグハグでぎこちない喋り方は、すぐにイラついてしまう。

エンバークスタジオにコメントを求めたところ、同スタジオでは「録音した音声とTTS(音声合成)ツールで生成した音声を、文脈に応じてゲーム内で使い分けている」とメールで回答があった。「TTSのおかげで、実装のスピードの問題など、他の方法ではできないようなカスタマイズされた(声優の)演技が可能になります」


“決勝でTTSを使用する場合、それは常に本物の声に基づいています。” ここでのポイントは、AI音声プログラムは、AIアートが本物のアートに基づいているのと同じように、本物の声に基づいているということです。「オープンベータでは、プロの声優とEmbark社員の臨時ボイスをミックスしたものをベースにしています。俳優なしでゲームを作ることは、Embarkにとって最終目標ではありません。TTSテクノロジーは、私たちが一緒に働くための新しい方法を導入しました。

エンバークスタジオは、「数ヶ月対数週間」という質問についてコメントしませんでしたが、前述のインタビューに近い意味合いがあるようです: TTSはThe Finalsのビジョンの一部です。世論がエンバーク・スタジオを動かさない限り、ベータ版終了後もゲームはボイスワークとAIの混合を使用する可能性が高い。