Nie nowy standard, ale mimo wszystko ekscytujący: Mario jako punkt odniesienia dla SI
Benchmarki dla modeli AI są często suche: Matematyka, testy logiczne, złożone analizy danych. Ale naukowcy z UC San Diego przyjęli nowe podejście – i po prostuSuper Mario Brospozwolili swoim sztucznym inteligencjom grać, jakdonosi TechSpot.
Brzmi jak ciekawy eksperyment? Być może. Ale z pewnością pokazuje, że wyczucie czasu jest czasem ważniejsze niż czysta moc obliczeniowa.
Eksperyment: GamingAgent jako kontroler AI
Badacze z Hao AI Lab na Uniwersytecie Kalifornijskim w San Diego opracowali framework GamingAgent (GitHub), który umożliwia modelom AI kontrolowanie hydraulika Mario za pomocą kodu Pythona.
Za podstawę posłużyła emulowana wersja Super Mario Bros. na NES. Sztuczne inteligencje otrzymywały proste instrukcje, takie jakJump over this opponent
oraz zrzuty ekranu dla orientacji.
Celem było sprawdzenie, jak dobrze modele mogą planować swoje działania i dostosowywać je w czasie rzeczywistym.
Claude-3.7 był testowany na Pokémon Red, ale co z grami czasu rzeczywistego, takimi jak Super Mario ?
Wrzuciliśmy agentów gier AI do gier LIVE Super Mario i stwierdziliśmy, że Claude-3.7 przewyższył inne modele z prostą heurystyką.
Claude-3.5 jest również silny, ale mniej zdolny do… pic.twitter.com/bqZVblwqX3
– Hao AI Lab (@haoailab) February 28, 2025
Claude 3.7 dominuje – GPT-4o się potyka
Wyniki mogą zaskoczyć: Claude 3.7 od Anthropic pokazał najlepszą wydajność. Opanował precyzyjne skoki, umiejętnie unikał przeciwników i ogólnie wypadł pewnie
Nawet jego poprzednikClaude 3.5wypadł dobrze, choć nie tak imponująco.
W przypadku
WithGPT-4o od OpenAI i Google’s Gemini 1.5 Proz drugiej strony, sprawy wyglądały zupełnie inaczej. Modele, które w rzeczywistości znane są z silnej zdolności logicznego rozumowania, zmagały się z
Często nie radziły sobie z podstawową mechaniką gry i często niekontrolowanie wskakiwały w luki lub były uderzane przez przeciwników.
Czas bije logikę
Test pokazał, że szybki refleks jest ważniejszy niż skomplikowana logika – przynajmniej podczas gry w Mario.
Podczas gdy niektóre modele AI starają się przemyśleć sytuację, podejście to prowadzi do dużych opóźnień.
W końcu zaledwie kilka milisekund w Super Mario Bros. może stanowić różnicę między udanym skokiem a nieudaną próbą.
Naukowcy podejrzewają, żemyślenie
modele takie jak GPT-4o zbyt długo obliczająprzed podjęciem działania i dlatego skaczą w pustkę.
Gry retro jako punkt odniesienia dla sztucznej inteligencji
Oczywiście pozostaje pytanie, na ile miarodajne są takie testy. Model sztucznej inteligencji, który pokonuje postać Mario z gry wideo, nie nadaje się automatycznie do złożonych zadań w prawdziwym świecie. Niemniej jednak eksperyment dostarcza ekscytującego wglądu: decydująca jest nie tylko moc obliczeniowa, ale także szybkie, intuicyjne decyzje.