General

Возможно, величайшей классической видеоигре уже почти 40 лет, и теперь она помогает современным исследованиям: Super Mario встречается с искусственным интеллектом.

От

7 марта, 2025

Не новый стандарт, но тем не менее захватывающий: Марио как эталон для ИИ

Оценки для моделей ИИ часто бывают сухими: математика, логические тесты, сложный анализ данных. Но исследователи из Калифорнийского университета в Сан-Диего применили новый подход — они простоSuper Mario Brosдали своему ИИ поиграть, каксообщает TechSpot.

Звучит как любопытный эксперимент? Возможно. Но он, безусловно, показывает, что время иногда важнее чистой вычислительной мощности.

Эксперимент: GamingAgent как контроллер ИИ

Исследователи из Hao AI Lab при Калифорнийском университете Сан-Диего разработали фреймворк GamingAgent (GitHub), который позволяет моделям ИИ управлять водопроводчиком Марио с помощью кода на Python.

В качестве основы использовалась эмулированная версия Super Mario Bros. на NES. ИИ давались простые инструкции, такие какПерепрыгни через этого противникаи скриншоты для ориентации.

Цель состояла в том, чтобы выяснить, насколько хорошо модели могут планировать свои действия и адаптировать их в реальном времени.

Claude-3.7 был протестирован на Pokémon Red, но как насчет более реальных игр, таких как Super Mario ?

Мы запустили игровых агентов ИИ в игры LIVE Super Mario и обнаружили, что Claude-3.7 превзошел другие модели с простой эвристикой.

Claude-3.5 тоже силен, но менее способен… pic.twitter.com/bqZVblwqX3

— Hao AI Lab (@haoailab) February 28, 2025

Клод 3,7 доминирует — GPT-4o спотыкается

Результаты могут вас удивить: Claude 3.7 от Anthropic показал лучшие результаты. Он освоил точные прыжки, умело уклонялся от соперников и в целом выступал уверенно

Даже его предшественникClaude 3.5показал хорошие результаты, хотя и не столь впечатляющие

СGPT-4o от OpenAI и Gemini 1.5 Pro от Googleс другой стороны, все выглядело совсем иначе. Модели, которые вообще-то известны своими сильными способностями к логическому мышлению, боролись с

Они часто не справлялись с базовой игровой механикой и часто бесконтрольно прыгали в щели или попадали под удары противников

Тайминг побеждает логику

Тест показал, что быстрые рефлексы важнее сложной логики — по крайней мере, при игре в Марио.

Некоторые модели ИИ пытаются обдумать ситуацию,этот подход приводит к длительным задержкам.

В конце концов, всего несколько миллисекунд в Super Mario Bros. могут сделать разницу между успешным прыжком и неудачной попыткой.

Исследователи подозревают, чтодумающиемодели, такие как GPT-4o, слишком долго вычисляютперед тем, как действовать, и поэтому прыгают в пустоту.

Ретроигры как эталон ИИ?

Конечно, остается вопрос, насколько значимы такие тесты. Модель ИИ, которая побеждает персонажа видеоигры Марио, автоматически не подходит для решения сложных задач в реальном мире. Тем не менее эксперимент позволяет сделать интересный вывод: решающее значение имеет не только вычислительная мощность, но и быстрые, интуитивные решения.

Эксперимент: GamingAgent как контроллер ИИ

Клод 3,7 доминирует — GPT-4o спотыкается

Тайминг побеждает логику

Ретроигры как эталон ИИ?

ОСТАВЬТЕ ОТВЕТ Отменить ответ