おそらく史上最高のビデオゲームの古典は、発売から40年近く経つが、今も最新の研究に役立っている。スーパーマリオがAIと出会う

0
6

新しい標準ではないが、それでもワクワクする。マリオがAIのベンチマークとして。

AIモデルのベンチマークは、数学や論理テスト、複雑なデータ分析など、退屈なものになりがちです。しかし、カリフォルニア大学サンディエゴ校の研究者は、新しいアプローチを採用しました。TechSpotのレポートによると、彼らはAIにスーパーマリオブラザーズプレイさせたのです。

好奇心をそそる実験のように聞こえますか? そうかもしれません。 しかし、純粋な演算能力よりもタイミングが重要な場合があることは確かです。

実験:AIコントローラーとしてのGamingAgent

カリフォルニア大学サンディエゴ校のHao AI Labの研究者は、Pythonコードを介してAIモデルが配管工マリオを制御することを可能にするGamingAgentフレームワーク(GitHub)を開発しました。

NES版スーパーマリオブラザーズのエミュレート版が基礎として使用された。AIには、この敵を飛び越える といった簡単な指示や、オリエンテーション用のスクリーンショットが与えられた。

目的は、モデルがどれほどうまく行動を計画し、リアルタイムで適応できるかを調べることにあった。

Claude 3.7が圧倒的な強さを見せる – GPT-4oは苦戦

結果はあなたを驚かせるかもしれません: AnthropicのClaude 3.7が最高のパフォーマンスを見せました。正確なジャンプを習得し、相手を巧みにかわし、全体的に自信を持って行動しました。

その前のモデルであるClaude 3.5も、それほど印象的ではないものの、良いパフォーマンスを見せました。

それに対して、OpenAIとGoogleのGemini 1.5 ProからリリースされたGPT-4oは、全く異なる結果となりました。 実際、強力な論理的思考能力で知られるこれらのモデルは、苦戦を強いられました。

彼らはしばしば基本的なゲームの仕組みを理解できず、制御不能にギャップに飛び込んだり、相手にぶつかったりしました。

タイミングが論理に勝る

テストの結果、反射神経の速さが複雑な論理よりも重要であることが分かりました。少なくともマリオをプレイしているときは。

一部のAIモデルは状況を考慮して思考しようとしますが、このアプローチは長い遅延につながります。

結局のところ、スーパーマリオブラザーズではほんの数ミリ秒の違いが、ジャンプの成功と失敗を分けることになります。

研究者たちは、思考モデルであるGPT-4oが、行動を起こすまでに計算にあまりにも長い時間を費やし、その結果、空虚へと飛び込んでしまうのではないかと疑っています。

レトロゲームをAIのベンチマークとして?

もちろん、そのようなテストがどれほど意味があるかという疑問は残ります。ビデオゲームのキャラクター、マリオに勝つAIモデルが、自動的に現実世界の複雑なタスクに適しているわけではありません。しかし、この実験は興味深い洞察を提供しています。決定的なのはコンピューティング能力だけでなく、高速で直感的な意思決定でもあるということです。