General

Le plus grand classique du jeu vidéo a presque 40 ans et aide désormais la recherche moderne : Super Mario rencontre l’IA.

Par

mars 7, 2025

Pas de nouveau standard, mais tout de même passionnant : Mario comme référence pour les IA.

Les benchmarks pour les modèles d’IA sont souvent arides : Mathématiques, tests de logique, analyses de données complexes. Mais des chercheurs de l’UC San Diego ont choisi une nouvelle approche – et ont simplement fait jouer leurs IA àSuper Mario Broscommele rapporte TechSpot.

Ça ressemble à une curieuse expérience ? Peut-être. Mais elle montre bien que le timing est parfois plus important que la puissance de calcul pure.

L’expérience : GamingAgent comme contrôleur d’IA

Les chercheurs du Hao AI Lab de l’Université de Californie San Diego ont développé le framework GamingAgent (GitHub), qui permet à des modèles d’IA de contrôler le plombier Mario par du code Python.

La base était une version émulée de Super Mario Bros. sur NES. Les IA ont reçu des instructions simples commeSauter par-dessus cet ennemiainsi que des captures d’écran pour s’orienter.

L’objectif était de déterminer la capacité des modèles à planifier et à adapter leurs actions en temps réel.

Claude-3.7 a été testé sur Pokémon Red, mais qu’en est-il des autres jeux en temps réel comme Super Mario ?

Nous avons plongé des agents de jeu AI dans des jeux Super Mario en LIVE et avons constaté que Claude-3.7 surperformait les autres modèles avec de simples heuristiques.

Claude-3.5 est aussi fort, mais moins capable de… pic.twitter.com/bqZVblwqX3

– Hao AI Lab (@haoailab) February 28, 2025

Claude 3.7 domine – GPT-4o trébuche

Les résultats pourraient vous surprendre : Claude 3.7 d’Anthropic a été le plus performant. Il a maîtrisé des sauts précis, évité habilement les adversaires et a agi de manière souveraine dans l’ensemble.

Même son prédécesseurClaude 3.5s’en est bien sorti, même si ce n’était pas aussi impressionnant.

En revanche, il en a été tout autrement pourGPT-4o d’OpenAI et Gemini 1.5 Prode Google. Les modèles, qui sont en fait connus pour leur forte capacité de raisonnement logique, ont eu du mal à

Ils ont souvent échoué dans les mécaniques de jeu de base et ont souvent sauté dans les brèches de manière incontrôlée ou ont été touchés par des adversaires.

Le timing l’emporte sur la logique

Le test a montré que les réflexes rapides sont plus importants que la logique complexe – du moins en jouant à Mario.

Alors que certains modèles d’IA essaient de réfléchir à des situations, cette approche a entraîné de longs délais.

Dans Super Mario Bros., quelques millisecondes peuvent faire la différence entre un saut réussi et une tentative ratée.

Les chercheurs supposent que pensantles modèles comme GPT-4o calculent trop longtemps avant d’agir et sautent donc dans le vide.

Les jeux rétro comme benchmark de l’IA?

La question reste bien sûr de savoir quelle est la pertinence de tels tests. Un modèle d’IA qui vient à bout du personnage de jeu vidéo Mario n’est pas automatiquement adapté à des tâches complexes dans le monde réel. Néanmoins, l’expérience livre une conclusion passionnante : ce n’est pas seulement la puissance de calcul qui fait la différence, mais aussi les décisions rapides et intuitives.

L’expérience : GamingAgent comme contrôleur d’IA

Claude 3.7 domine – GPT-4o trébuche

Le timing l’emporte sur la logique

Les jeux rétro comme benchmark de l’IA?

LAISSER UN COMMENTAIRE Annuler la réponse