Klinkt als een merkwaardig experiment? Misschien. Maar het laat wel zien dat timing soms belangrijker is dan pure rekenkracht.
Het experiment: GamingAgent als AI-controller
Onderzoekers van het Hao AI Lab aan de Universiteit van Californië San Diego hebben het GamingAgent framework ontwikkeld (GitHub), waarmee AI-modellen Plumber Mario kunnen besturen met behulp van Python-code.
Een geëmuleerde versie van Super Mario Bros. op de NES diende als basis. De AI’s kregen eenvoudige instructies zoalsJump over this opponent
en schermafbeeldingen ter oriëntatie.
Het doel was om uit te vinden hoe goed de modellen hun acties kunnen plannen en in realtime kunnen aanpassen.
Claude-3.7 werd getest op Pokémon Red, maar hoe zit het met meer realtime games zoals Super Mario ?
We gooiden AI-spelagenten in LIVE Super Mario-spellen en ontdekten dat Claude-3.7 beter presteerde dan andere modellen met eenvoudige heuristieken.
Claude-3.5 is ook sterk, maar minder goed in… pic.twitter.com/bqZVblwqX3
– Hao AI Lab (@haoailab) 28 februari 2025
Claude 3.7 domineert – GPT-4o struikelt
De resultaten zouden je kunnen verrassen: Claude 3.7 van Anthropic heeft de beste prestaties laten zien. Hij beheerste precieze sprongen, ontweek tegenstanders behendig en presteerde over het algemeen zelfverzekerd
Even zijn voorgangerClaude 3.5presteerde goed, zij het niet zo indrukwekkend.
MetGPT-4o van OpenAI en Google’s Gemini 1.5 Prozag het er daarentegen heel anders uit. De modellen, die eigenlijk bekend staan om hun sterke logische redeneervermogen, worstelden met
Ze faalden vaak in basale spelmechanismen en sprongen vaak ongecontroleerd in gaten of werden geraakt door tegenstanders.
Timing verslaat logica
De test toondedat snelle reflexen belangrijker zijn dan complexe logica – in ieder geval bij het spelen van Mario.
Terwijl sommige AI-modellen proberen situaties te doordenken,heeft deze aanpak geleid tot grote vertragingen.
Een paar milliseconden in Super Mario Bros. kunnen immers het verschil maken tussen een geslaagde sprong en een mislukte poging.
De onderzoekers vermoeden datdenkende
modellen zoals GPT-4o er te lang over doen omte berekenen voordat ze in actie komen en daardoor in het luchtledige springen.
De vraag blijft natuurlijk hoe zinvol zulke tests zijn. Een AI-model dat videogamepersonage Mario verslaat, is niet automatisch geschikt voor complexe taken in de echte wereld. Toch biedt het experiment een spannend inzicht: niet alleen rekenkracht is doorslaggevend, maar ook snelle, intuïtieve beslissingen.