Prawdopodobnie największy klasyk gier wideo ma już prawie 40 lat i teraz pomaga w nowoczesnych badaniach: Super Mario spotyka AI

0
4

Nie nowy standard, ale mimo wszystko ekscytujący: Mario jako punkt odniesienia dla SI

Benchmarki dla modeli AI są często suche: Matematyka, testy logiczne, złożone analizy danych. Ale naukowcy z UC San Diego przyjęli nowe podejście – i po prostuSuper Mario Brospozwolili swoim sztucznym inteligencjom grać, jakdonosi TechSpot.

Brzmi jak ciekawy eksperyment? Być może. Ale z pewnością pokazuje, że wyczucie czasu jest czasem ważniejsze niż czysta moc obliczeniowa.

Eksperyment: GamingAgent jako kontroler AI

Badacze z Hao AI Lab na Uniwersytecie Kalifornijskim w San Diego opracowali framework GamingAgent (GitHub), który umożliwia modelom AI kontrolowanie hydraulika Mario za pomocą kodu Pythona.

Za podstawę posłużyła emulowana wersja Super Mario Bros. na NES. Sztuczne inteligencje otrzymywały proste instrukcje, takie jakJump over this opponentoraz zrzuty ekranu dla orientacji.

Celem było sprawdzenie, jak dobrze modele mogą planować swoje działania i dostosowywać je w czasie rzeczywistym.

Claude 3.7 dominuje – GPT-4o się potyka

Wyniki mogą zaskoczyć: Claude 3.7 od Anthropic pokazał najlepszą wydajność. Opanował precyzyjne skoki, umiejętnie unikał przeciwników i ogólnie wypadł pewnie

Nawet jego poprzednikClaude 3.5wypadł dobrze, choć nie tak imponująco.

W przypadku

WithGPT-4o od OpenAI i Google’s Gemini 1.5 Proz drugiej strony, sprawy wyglądały zupełnie inaczej. Modele, które w rzeczywistości znane są z silnej zdolności logicznego rozumowania, zmagały się z

Często nie radziły sobie z podstawową mechaniką gry i często niekontrolowanie wskakiwały w luki lub były uderzane przez przeciwników.

Czas bije logikę

Test pokazał, że szybki refleks jest ważniejszy niż skomplikowana logika – przynajmniej podczas gry w Mario.

Podczas gdy niektóre modele AI starają się przemyśleć sytuację, podejście to prowadzi do dużych opóźnień.

W końcu zaledwie kilka milisekund w Super Mario Bros. może stanowić różnicę między udanym skokiem a nieudaną próbą.

Naukowcy podejrzewają, żemyśleniemodele takie jak GPT-4o zbyt długo obliczająprzed podjęciem działania i dlatego skaczą w pustkę.

Gry retro jako punkt odniesienia dla sztucznej inteligencji

Oczywiście pozostaje pytanie, na ile miarodajne są takie testy. Model sztucznej inteligencji, który pokonuje postać Mario z gry wideo, nie nadaje się automatycznie do złożonych zadań w prawdziwym świecie. Niemniej jednak eksperyment dostarcza ekscytującego wglądu: decydująca jest nie tylko moc obliczeniowa, ale także szybkie, intuicyjne decyzje.