General

Pravděpodobně největší videoherní klasika je stará téměř 40 let a nyní pomáhá modernímu výzkumu: Super Mario se setkává s umělou inteligencí.

7 března, 2025

Není to nový standard, ale přesto je to vzrušující: Mario jako měřítko pro umělou inteligenci

Benchmarky pro modely AI jsou často suché: Matematika, logické testy, komplexní analýzy dat. Výzkumníci z Kalifornské univerzity v San Diegu však zvolili nový přístup – a jednodušeSuper Mario Brosnechali své umělé inteligence hrát, jak uvádíTechSpot.

Zní to jako zajímavý experiment? Možná. Ale rozhodně ukazuje, že načasování je někdy důležitější než čistý výpočetní výkon.

Experiment: GamingAgent jako ovladač umělé inteligence

Výzkumníci z Hao AI Lab na Kalifornské univerzitě v San Diegu vyvinuli framework GamingAgent (GitHub), který umožňuje modelům AI ovládat instalatéra Maria pomocí kódu v jazyce Python.

Jako základ posloužila emulovaná verze hry Super Mario Bros. na NES. Umělé inteligence dostaly jednoduché pokyny, jako napříkladPřeskoč tohoto protivníkaa snímky obrazovky pro orientaci.

Cílem bylo zjistit, jak dobře dokáží modely plánovat své akce a přizpůsobovat je v reálném čase.

Claude-3.7 byl testován na Pokémon Red, ale co další hry v reálném čase, jako je Super Mario ?

Vrhli jsme herní agenty s umělou inteligencí do LIVE her Super Mario a zjistili jsme, že Claude-3.7 překonává ostatní modely s jednoduchou heuristikou.

Claude-3.5 je také silný, ale méně schopný… pic.twitter.com/bqZVblwqX3

– Hao AI Lab (@haoailab) 28. února 2025

Claude 3.7 dominuje – GPT-4o klopýtá

Výsledky vás možná překvapí: Claude 3.7 od Anthropicu vykázal nejlepší výkon. Zvládl přesné skoky, obratně se vyhýbal soupeřům a celkově si počínal sebevědomě

I jeho předchůdceClaude 3.5si vedl dobře, i když ne tak působivě.

Naopak sGPT-4o od OpenAI a Gemini 1.5 Prood společnosti Google to vypadalo úplně jinak. Modely, které jsou skutečně známé svou silnou schopností logického uvažování, se potýkaly s

Často selhávaly v základních herních mechanismech a často nekontrolovaně skákaly do mezer nebo byly zasaženy soupeři.

Timing poráží logiku

Test ukázal, že rychlé reflexy jsou důležitější než složitá logika – alespoň při hře Mario.

Zatímco některé modely umělé inteligence se snaží situace promýšlet, tento přístup vede k dlouhým prodlevám.

Vždyť jen několik milisekund může ve hře Super Mario Bros. znamenat rozdíl mezi úspěšným skokem a neúspěšným pokusem.

Výzkumníci mají podezření, žemyšlenímodelům, jako je GPT-4o, trvá příliš dlouho, než vypočítajípřed svým činem, a proto skočí do prázdna.

Retro hry jako měřítko umělé inteligence?

Zůstává samozřejmě otázkou, nakolik jsou takové testy smysluplné. Model umělé inteligence, který porazí postavu z videohry Mario, není automaticky vhodný pro řešení složitých úloh v reálném světě. Přesto tento experiment přináší zajímavý poznatek: rozhodující není jen výpočetní výkon, ale také rychlé a intuitivní rozhodování.

Experiment: GamingAgent jako ovladač umělé inteligence

Claude 3.7 dominuje – GPT-4o klopýtá

Timing poráží logiku

Retro hry jako měřítko umělé inteligence?

LEAVE A REPLY Cancel reply