Non un nuovo standard, ma comunque emozionante: Mario come punto di riferimento per le IA
I benchmark per i modelli di IA sono spesso aridi: Matematica, test di logica, analisi di dati complessi. Ma i ricercatori della UC San Diego hanno adottato un nuovo approccio: hanno semplicementeSuper Mario Broslasciato giocare le loro IA, comeriporta TechSpot.
Sembra un esperimento curioso? Forse. Ma di certo dimostra che il tempismo a volte è più importante della pura potenza di calcolo.
L’esperimento: GamingAgent come controller AI
I ricercatori dell’Hao AI Lab dell’Università della California San Diego hanno sviluppato il framework GamingAgent (GitHub), che consente ai modelli AI di controllare l’idraulico Mario utilizzando il codice Python.
Una versione emulata di Super Mario Bros. su NES è servita come base. Le IA ricevevano semplici istruzioni comeSaltare questo avversario
e schermate per orientarsi.
L’obiettivo era scoprire quanto i modelli fossero in grado di pianificare le loro azioni e di adattarle in tempo reale.
Claude-3.7 è stato testato su Pokémon Rosso, ma che dire di giochi più in tempo reale come Super Mario ?
Abbiamo lanciato gli agenti di gioco AI in giochi LIVE di Super Mario e abbiamo scoperto che Claude-3.7 ha superato altri modelli con semplici euristiche.
Anche Claude-3.5 è forte, ma meno capace di… pic.twitter.com/bqZVblwqX3
– Hao AI Lab (@haoailab) February 28, 2025
Claude 3.7 domina – GPT-4o inciampa
I risultati potrebbero sorprendervi: Claude 3.7 di Anthropic ha mostrato le migliori prestazioni. Ha eseguito salti precisi, ha eluso abilmente gli avversari e si è comportato complessivamente in modo sicuro
Anche il suo predecessoreClaude 3.5si è comportato bene, anche se non in modo così impressionante.
ConGPT-4o di OpenAI e Gemini 1.5 Prodi Google, invece, le cose sembravano molto diverse. I modelli, che sono noti per la loro forte capacità di ragionamento logico, hanno fatto fatica
Frequentavano le meccaniche di gioco di base e spesso saltavano in modo incontrollato negli spazi vuoti o venivano colpiti dagli avversari.
Il tempismo batte la logica
Il test ha dimostratoche i riflessi rapidi sono più importanti della logica complessa, almeno quando si gioca a Mario.
Mentre alcuni modelli di IA cercano di ragionare sulle situazioni,questo approccio ha portato a lunghi ritardi.
Dopo tutto, pochi millisecondi in Super Mario Bros. possono fare la differenza tra un salto riuscito e un tentativo fallito.
I ricercatori sospettano chepensiero
modelli come il GPT-4o impieghino troppo tempo a calcolareprima di agire e quindi saltino nel vuoto.
I videogiochi come benchmark per l’IA?
Naturalmente, resta da chiedersi quanto siano significativi questi test. Un modello di IA che sconfigge il personaggio del videogioco Mario non è automaticamente adatto a svolgere compiti complessi nel mondo reale. Tuttavia, l’esperimento fornisce un’idea interessante: non è solo la potenza di calcolo a essere decisiva, ma anche le decisioni rapide e intuitive.