General

Waarschijnlijk de grootste videogame-klassieker aller tijden is bijna 40 jaar oud en helpt nu modern onderzoek: Super Mario ontmoet AI

Door

maart 7, 2025

Geen nieuwe standaard, maar toch spannend: Mario als benchmark voor AI’s

Benchmarks voor AI-modellen zijn vaak droog: Wiskunde, logicatoetsen, complexe gegevensanalyses. Maar onderzoekers van UC San Diego hebben voor een nieuwe benadering gekozen – en hebben simpelwegSuper Mario Broshun AI’s laten spelen, zoalsTechSpot meldt.

Klinkt als een merkwaardig experiment? Misschien. Maar het laat wel zien dat timing soms belangrijker is dan pure rekenkracht.

Het experiment: GamingAgent als AI-controller

Onderzoekers van het Hao AI Lab aan de Universiteit van Californië San Diego hebben het GamingAgent framework ontwikkeld (GitHub), waarmee AI-modellen Plumber Mario kunnen besturen met behulp van Python-code.

Een geëmuleerde versie van Super Mario Bros. op de NES diende als basis. De AI’s kregen eenvoudige instructies zoalsJump over this opponenten schermafbeeldingen ter oriëntatie.

Het doel was om uit te vinden hoe goed de modellen hun acties kunnen plannen en in realtime kunnen aanpassen.

Claude-3.7 werd getest op Pokémon Red, maar hoe zit het met meer realtime games zoals Super Mario ?

We gooiden AI-spelagenten in LIVE Super Mario-spellen en ontdekten dat Claude-3.7 beter presteerde dan andere modellen met eenvoudige heuristieken.

Claude-3.5 is ook sterk, maar minder goed in… pic.twitter.com/bqZVblwqX3

– Hao AI Lab (@haoailab) 28 februari 2025

Claude 3.7 domineert – GPT-4o struikelt

De resultaten zouden je kunnen verrassen: Claude 3.7 van Anthropic heeft de beste prestaties laten zien. Hij beheerste precieze sprongen, ontweek tegenstanders behendig en presteerde over het algemeen zelfverzekerd

Even zijn voorgangerClaude 3.5presteerde goed, zij het niet zo indrukwekkend.

MetGPT-4o van OpenAI en Google’s Gemini 1.5 Prozag het er daarentegen heel anders uit. De modellen, die eigenlijk bekend staan om hun sterke logische redeneervermogen, worstelden met

Ze faalden vaak in basale spelmechanismen en sprongen vaak ongecontroleerd in gaten of werden geraakt door tegenstanders.

Timing verslaat logica

De test toondedat snelle reflexen belangrijker zijn dan complexe logica – in ieder geval bij het spelen van Mario.

Terwijl sommige AI-modellen proberen situaties te doordenken,heeft deze aanpak geleid tot grote vertragingen.

Een paar milliseconden in Super Mario Bros. kunnen immers het verschil maken tussen een geslaagde sprong en een mislukte poging.

De onderzoekers vermoeden datdenkendemodellen zoals GPT-4o er te lang over doen omte berekenen voordat ze in actie komen en daardoor in het luchtledige springen.

De vraag blijft natuurlijk hoe zinvol zulke tests zijn. Een AI-model dat videogamepersonage Mario verslaat, is niet automatisch geschikt voor complexe taken in de echte wereld. Toch biedt het experiment een spannend inzicht: niet alleen rekenkracht is doorslaggevend, maar ook snelle, intuïtieve beslissingen.

Het experiment: GamingAgent als AI-controller

Claude 3.7 domineert – GPT-4o struikelt

Timing verslaat logica

LAAT EEN REACTIE ACHTER Annuleer reactie