Не е нов стандарт, но все пак е вълнуващо: Марио като еталон за ИИ
Бенчмарковете за модели на ИИ често са сухи: Математика, логически тестове, сложни анализи на данни. Но изследователи от Калифорнийския университет в Сан Диего са предприели нов подход – и простоSuper Mario Brosса оставили своите ИИ да играят, кактосъобщава TechSpot.
Звучи като любопитен експеримент? Може би. Но той със сигурност показва, че времето понякога е по-важно от чистата изчислителна мощ.
Експериментът: GamingAgent като контролер за изкуствен интелект
Изследователи от лабораторията за изкуствен интелект Hao в Калифорнийския университет в Сан Диего са разработили рамката GamingAgent (GitHub), която позволява на моделите на изкуствен интелект да управляват водопроводчика Марио с помощта на код на Python.
За основа е послужила емулирана версия на Super Mario Bros. за NES. На ИИ бяха дадени прости инструкции, като напримерСкочи над този противник
и скрийншоти за ориентация.
Целта беше да се установи колко добре моделите могат да планират действията си и да ги адаптират в реално време.
Клауда-3.7 беше тествана на Pokémon Red, но какво ще кажете за по-реални игри като Super Mario ?
Хвърлихме агенти за игри с изкуствен интелект в LIVE Super Mario игри и установихме, че Claude-3.7 превъзхожда други модели с прости евристики.
Claude-3.5 също е силен, но е по-малко способен на… pic.twitter.com/bqZVblwqX3
– Hao AI Lab (@haoailab) February 28, 2025
Claude 3.7 доминира – GPT-4o се препъва
Резултатите може да ви изненадат: Claude 3.7 от Anthropic показа най-добри резултати. Той овладяваше прецизни скокове, умело избягваше противниците и като цяло се представяше уверено
Даже неговият предшественикClaude 3.5се представи добре, макар и не толкова впечатляващо.
СGPT-4o от OpenAI и Gemini 1.5 Proна Google, от друга страна, нещата изглеждаха съвсем различно. Моделите, които всъщност са известни със силната си способност за логически разсъждения, се бориха
Те често се проваляха в основните игрови механики и често скачаха неконтролируемо в пролуки или бяха удряни от противници.
Времето побеждава логиката
Тестът показа, че бързите рефлекси са по-важни от сложната логика – поне при играта на Марио.
Въпреки че някои модели на изкуствен интелект се опитват да обмислят ситуациите,този подход води до големи забавяния.
В края на краищата, само няколко милисекунди в Super Mario Bros. могат да направят разликата между успешен скок и неуспешен опит.
Изследователите подозират, чемислещите
модели като GPT-4o се нуждаят от твърде много време, за да изчислятпреди да действат и поради това скачат в празнотата.
Ретро игрите като еталон за изкуствен интелект?
Разбира се, остава въпросът доколко смислени са подобни тестове. Модел на ИИ, който побеждава героя от видеоиграта Марио, не е автоматично подходящ за сложни задачи в реалния свят. Въпреки това експериментът предоставя вълнуващо прозрение: решаваща е не само изчислителната мощ, но и бързите, интуитивни решения.