Není to nový standard, ale přesto je to vzrušující: Mario jako měřítko pro umělou inteligenci
Benchmarky pro modely AI jsou často suché: Matematika, logické testy, komplexní analýzy dat. Výzkumníci z Kalifornské univerzity v San Diegu však zvolili nový přístup – a jednodušeSuper Mario Brosnechali své umělé inteligence hrát, jak uvádíTechSpot.
Zní to jako zajímavý experiment? Možná. Ale rozhodně ukazuje, že načasování je někdy důležitější než čistý výpočetní výkon.
Experiment: GamingAgent jako ovladač umělé inteligence
Výzkumníci z Hao AI Lab na Kalifornské univerzitě v San Diegu vyvinuli framework GamingAgent (GitHub), který umožňuje modelům AI ovládat instalatéra Maria pomocí kódu v jazyce Python.
Jako základ posloužila emulovaná verze hry Super Mario Bros. na NES. Umělé inteligence dostaly jednoduché pokyny, jako napříkladPřeskoč tohoto protivníka
a snímky obrazovky pro orientaci.
Cílem bylo zjistit, jak dobře dokáží modely plánovat své akce a přizpůsobovat je v reálném čase.
Claude-3.7 byl testován na Pokémon Red, ale co další hry v reálném čase, jako je Super Mario ?
Vrhli jsme herní agenty s umělou inteligencí do LIVE her Super Mario a zjistili jsme, že Claude-3.7 překonává ostatní modely s jednoduchou heuristikou.
Claude-3.5 je také silný, ale méně schopný… pic.twitter.com/bqZVblwqX3
– Hao AI Lab (@haoailab) 28. února 2025
Claude 3.7 dominuje – GPT-4o klopýtá
Výsledky vás možná překvapí: Claude 3.7 od Anthropicu vykázal nejlepší výkon. Zvládl přesné skoky, obratně se vyhýbal soupeřům a celkově si počínal sebevědomě
I jeho předchůdceClaude 3.5si vedl dobře, i když ne tak působivě.
Naopak sGPT-4o od OpenAI a Gemini 1.5 Prood společnosti Google to vypadalo úplně jinak. Modely, které jsou skutečně známé svou silnou schopností logického uvažování, se potýkaly s
Často selhávaly v základních herních mechanismech a často nekontrolovaně skákaly do mezer nebo byly zasaženy soupeři.
Timing poráží logiku
Test ukázal, že rychlé reflexy jsou důležitější než složitá logika – alespoň při hře Mario.
Zatímco některé modely umělé inteligence se snaží situace promýšlet, tento přístup vede k dlouhým prodlevám.
Vždyť jen několik milisekund může ve hře Super Mario Bros. znamenat rozdíl mezi úspěšným skokem a neúspěšným pokusem.
Výzkumníci mají podezření, žemyšlení
modelům, jako je GPT-4o, trvá příliš dlouho, než vypočítajípřed svým činem, a proto skočí do prázdna.
Retro hry jako měřítko umělé inteligence?
Zůstává samozřejmě otázkou, nakolik jsou takové testy smysluplné. Model umělé inteligence, který porazí postavu z videohry Mario, není automaticky vhodný pro řešení složitých úloh v reálném světě. Přesto tento experiment přináší zajímavý poznatek: rozhodující není jen výpočetní výkon, ale také rychlé a intuitivní rozhodování.