虽然不是新的标准,但仍然令人兴奋:马里奥成为人工智能的标杆。
人工智能模型的基准测试通常枯燥乏味:数学、逻辑测试、复杂数据分析。但据TechSpot报道,加州大学圣地亚哥分校的研究人员采用了一种新方法——让他们的AI玩《超级马里奥兄弟》。;
听起来像是一个有趣的实验?也许吧。但毫无疑问,它表明有时时机比纯粹的计算能力更重要。
实验:将GamingAgent作为人工智能控制器
加州大学圣地亚哥分校郝人工智能实验室的研究人员开发了GamingAgent框架(GitHub),该框架允许人工智能模型通过Python代码控制水管工马里奥。
以NES上的《超级马里奥兄弟》模拟版为基础。向人工智能下达了简单的指令,例如跳过这个敌人
,以及用于定位的屏幕截图。
目的是了解模型计划行动并实时调整的能力。
Claude-3.7在《神奇宝贝红》中进行了测试,那么《超级马里奥》等更实时性的游戏呢?
我们将AI游戏代理投入了《超级马里奥》的实时游戏中,发现Claude-3.7在简单的启发式算法中表现优于其他模型。
Claude-3.5 也很强大,但能力稍逊……pic.twitter.com/bqZVblwqX3
— Hao AI Lab (@haoailab) 2025 年 2 月 28 日
Claude 3.7 占据主导地位——GPT-4o 步履蹒跚
结果可能会让你大吃一惊:Anthropic 的 Claude 3.7 表现最佳。它能够精准跳跃,巧妙躲避对手,整体表现自信。
它的前身Claude 3.5表现也不错,虽然没有那么出色。
相比之下,OpenAI的GPT-4o和谷歌的Gemini 1.5 Pro的表现则大相径庭。这些模型以强大的逻辑思维能力而闻名,但它们的表现却令人失望。
它们经常在基本的游戏机制上失败,经常不受控制地跳入空隙或被对手击中。
时机比逻辑更重要
测试表明,快速反应比复杂的逻辑更重要——至少在玩马里奥时是这样。
虽然有些人工智能模型试图对情况进行思考,但这种做法会导致长时间的延迟。
毕竟,在《超级马里奥兄弟》中,仅仅几毫秒的时间就能决定跳跃成功还是失败。
研究人员怀疑,像GPT-4o这样的思维
模型在行动前计算时间过长,因此跳到了虚空。
复古游戏作为人工智能基准?
当然,问题仍然是这样的测试有多大意义。击败电子游戏角色马里奥的人工智能模型并不一定适合现实世界中的复杂任务。然而,实验提供了令人兴奋的见解:决定性的因素不仅是计算能力,还包括快速、直观的决策。