5万時間の後:人工知能は人類の問題を解決しなければならないが、ポケモンレッドでは失敗した。

0
195

ポケットモンスターが登場するゲームボーイのゲームで、大衆文化にこれほどの郷愁を呼び起こしたものはほとんどない。しかし、ポケモンに人工知能を使うとどうなるのか?

そして(希望に満ちた)技術は、自動運転車から工場でのロボット、あるいは単にスマートフォンや家庭用コンピュータに至るまで、生活の様々な分野で利用されています


しかし、人工知能はゲームボーイの名作「ポケットモンスター赤」のゲームでも輝くことができるのだろうか?

プログラミングの知識があり、小さなモンスターが大好きな一人のYouTuberが、その疑問を検証してみた。
この実験の背後にある人工知能は、ソフトウェア開発者でありYouTuberであるピーター・ウィデンが率いるポケモンレッドを5万時間以上プレイした。

どうやってポケモン赤のAIをトレーニングするの?ピーター・ウィデン)にとって、AIを人間のプレイヤーのように振る舞うように訓練することは課題の1つでした。YouTuberによると、AIの振る舞いは人間のプレーヤー

に近づいている。
各アクションの後、AIは次のアクションを決定する前に、スクリーン上で何が起こっているかをチェックしなければならない。AIをできるだけ早く訓練するため、ウィデン氏は40のテストセッションを並行して行った。

 src=

The AI in kamikaze mode:No less remarkable is the initial behaviour of the AI in combat. 最初は、勝利の可能性を無視して、あらゆる戦いに突進した。このため、YouTuberはWhiddenは、現在(2023.11.10)までに430万人以上の視聴者を記録したYouTube動画の大成功を喜んでいる。彼は言った:

「多くの人が(ビデオに)興味を持ってくれているのを見ると、とても嬉しくなります。

“。

AIは何の役に立ちましたか

しかし、AIはただバカなことをするだけではなかった。そしてあるとき、同じレースコースを使った。初見では意味がわからなかったことが、賢いことがわかったのだ。なぜなら、AIは異常事態を利用したからだ。最初に遭遇したポケモンは、すぐに一投で捕まえる。

YouTuberのポケモン体験を改善できるか?

ウィデン氏は動画の中で、自分でもそのような体験を実現するためのヒントをいくつか提示している。
その例として、彼はPPO(Proximal Policy Optimisation)法を用いた。このサイト(OpenAI)によると、この学習アルゴリズムは「現在のアプローチに匹敵するか、それ以上の」パフォーマンスを提供する。さらに、PPOは実装も微調整も簡単なはずだ。

YouTuberの経験をどう思いますか?さらに:対応するビデオを面白いと思いましたか?ポケモン赤を見て懐かしさを感じましたか?それとも、ピカチュウ&コーの話が出ただけで鼻を高くしてデジモンに悪態をつきますか?コメントで感想をお聞かせください