Не новый стандарт, но тем не менее захватывающий: Марио как эталон для ИИ
Оценки для моделей ИИ часто бывают сухими: математика, логические тесты, сложный анализ данных. Но исследователи из Калифорнийского университета в Сан-Диего применили новый подход — они простоSuper Mario Brosдали своему ИИ поиграть, каксообщает TechSpot.
Звучит как любопытный эксперимент? Возможно. Но он, безусловно, показывает, что время иногда важнее чистой вычислительной мощности.
Эксперимент: GamingAgent как контроллер ИИ
Исследователи из Hao AI Lab при Калифорнийском университете Сан-Диего разработали фреймворк GamingAgent (GitHub), который позволяет моделям ИИ управлять водопроводчиком Марио с помощью кода на Python.
В качестве основы использовалась эмулированная версия Super Mario Bros. на NES. ИИ давались простые инструкции, такие какПерепрыгни через этого противника
и скриншоты для ориентации.
Цель состояла в том, чтобы выяснить, насколько хорошо модели могут планировать свои действия и адаптировать их в реальном времени.
Claude-3.7 был протестирован на Pokémon Red, но как насчет более реальных игр, таких как Super Mario ?
Мы запустили игровых агентов ИИ в игры LIVE Super Mario и обнаружили, что Claude-3.7 превзошел другие модели с простой эвристикой.
Claude-3.5 тоже силен, но менее способен… pic.twitter.com/bqZVblwqX3
— Hao AI Lab (@haoailab) February 28, 2025
Клод 3,7 доминирует — GPT-4o спотыкается
Результаты могут вас удивить: Claude 3.7 от Anthropic показал лучшие результаты. Он освоил точные прыжки, умело уклонялся от соперников и в целом выступал уверенно
Даже его предшественникClaude 3.5показал хорошие результаты, хотя и не столь впечатляющие
СGPT-4o от OpenAI и Gemini 1.5 Pro от Googleс другой стороны, все выглядело совсем иначе. Модели, которые вообще-то известны своими сильными способностями к логическому мышлению, боролись с
Они часто не справлялись с базовой игровой механикой и часто бесконтрольно прыгали в щели или попадали под удары противников
Тайминг побеждает логику
Тест показал, что быстрые рефлексы важнее сложной логики — по крайней мере, при игре в Марио.
Некоторые модели ИИ пытаются обдумать ситуацию,этот подход приводит к длительным задержкам.
В конце концов, всего несколько миллисекунд в Super Mario Bros. могут сделать разницу между успешным прыжком и неудачной попыткой.
Исследователи подозревают, чтодумающие
модели, такие как GPT-4o, слишком долго вычисляютперед тем, как действовать, и поэтому прыгают в пустоту.
Ретроигры как эталон ИИ?
Конечно, остается вопрос, насколько значимы такие тесты. Модель ИИ, которая побеждает персонажа видеоигры Марио, автоматически не подходит для решения сложных задач в реальном мире. Тем не менее эксперимент позволяет сделать интересный вывод: решающее значение имеет не только вычислительная мощность, но и быстрые, интуитивные решения.