50,000 小时后:人工智能本应解决人类问题,却因《神奇宝贝红色》而失败

0
167

在流行文化中,很少有东西能像口袋怪兽的游戏机一样让人怀念。但如果把人工智能植入神奇宝贝,会发生什么呢?

此外,该技术(有望)应用于生活中的许多领域,从汽车自动驾驶、工厂机器人到智能手机和家用电脑。

但人工智能是否也能出色地玩经典 GameBoy 游戏《口袋妖怪红色》?

A (YouTuber)with a knack for programming and a soft spot for the little monsters took on this question – with astonishing results.

这位YouTuber的神奇宝贝实验是如何进行的?

实验背后的人工智能在软件开发者和YouTuber Peter Whedon的带领下,总共玩了超过(50,000小时)神奇宝贝红色。
对于(彼得-韦登)挑战之一是如何训练人工智能,使其表现得像人类玩家一样。据这位 YouTuber 称,人工智能的行为与人类球员非常相似


每次行动之后,人工智能都要查看屏幕上发生了什么,然后再决定下一步行动–就像一个人拿着口袋游戏机在眼前玩《口袋妖怪红色》一样。为了尽快训练人工智能,韦登同时进行了 40 次测试。

(Joaquin Corbalan/Adobe Stock; Peter Whidden))” src=”https://www.global-esports.news/wp-content/uploads/2023/11/For-his-experiment.jpg” width=”1920″ height=”1080″ /☻

奖励系统技巧:如何教人工智能玩《口袋妖怪红色》游戏?YouTuber 选择的解决方案是:他创建了一个奖励系统,让算法以赢得游戏为目标。每当人工智能在游戏中发现新的东西,它就会得到一个奖励点

这里所说的 “新 “是以屏幕上不同像素的数量来衡量的。不过,这种方法也有缺点,即人工智能控制的角色是在观看水动画,而不是在成功完成游戏的意义上继续玩游戏。

此外,还创建了额外的奖励点,例如捕获神奇宝贝、在竞技场获胜或在训练师战斗中获胜。

Hidden把他的实验编成了33分钟的YouTube视频。

人工智能在访问神奇宝贝中心时储存了一些神奇宝贝。这导致了团队整体水平的下降。由于这次糟糕的经历,人工智能从此避开了神奇宝贝中心。由此带来的弊端是:从这时起,团队不再治疗


Hidden 在他的 YouTube 视频中讲述了实验过程:

“它(人工智能)不像人类那样有情感,但奖励价值极高的事件会对它的行为产生持久影响[……]在这种情况下,它只需要失去一次神奇宝贝。这让人工智能对整个神奇宝贝中心产生了负面联想,导致它在以后的游戏中完全避开该中心。”

所以韦登不得不进一步调整他的奖励系统。

顺便说一句:神奇宝贝最近已经跃上了大银幕,下面的电影预告片就证明了这一点。

神风特攻队模式下的人工智能:人工智能最初的战斗表现同样引人注目。一开始,它不顾胜算,匆忙投入每一场战斗。这就是为什么 Youtuber 引入了输掉战斗的惩罚措施。
威登面临的最大挑战是逐步学习游戏中理想行为的算法。在这种情况下,由于不像文本或语音人工智能那样有大量的数据集,他必须分小块学习实现游戏目标的行为算法。

(TechCrunch)韦登对他的 YouTube 视频取得巨大成功感到高兴,到目前为止(2023 年 11 月 10 日),该视频的观看人数已超过 430 万。他说:

“看到这么多人参与(视频),我感到非常高兴。”

What”?

人工智能做得好的地方

但人工智能并不只是制造问题,有时它甚至非常聪明。然后,在某些时候,它一遍又一遍地使用相同的路线。起初看似毫无意义的事情,后来却变得非常聪明。人工智能利用了一个错误。这意味着,它遇到的第一只神奇宝贝一扔就被抓住了。

你能改进 YouTuber 的神奇宝贝实验吗?Additionally, Whedon offers a few tips in his video on how to try conducting such an experiment yourself.

例如,他使用了所谓的近端策略优化(PPO)。在(OpenAI)据说这种学习算法可以提供 “与当前方法相当或更好的性能”。据说 PPO 还易于实现和调整。

你怎么看这位 YouTuber 的实验?还有:你觉得附带的视频有趣吗?你是否一看到《口袋妖怪红色》就会怀旧,或者一提到《皮卡丘》就会对《数码宝贝》发誓并怀疑自己的鼻子。请在下面的评论中告诉我们你的想法