След 50 000 часа: Изкуственият интелект трябва да реши проблемите на човечеството, но се проваля заради Pokémon Red

0
184

Малко неща са толкова носталгично възхвалявани в попкултурата, колкото игрите за Gameboy с джобни чудовища. Но какво се случва, когато в покемоните се вгради изкуствен интелект?

В допълнение, технологията е (обнадеждаваща)замного области на живота, от автономно управление на автомобили, роботи в заводите или просто смартфони и домашни компютри.

Но може ли ИИ да се отличи и в игра на класическата игра за GameBoy Pokémon Red?

А (YouTuber)с умения за програмиране и слабост към малките чудовища се зае с този въпрос – с изумителни резултати.

Как работи експериментът с покемони на ютубъра?

Изкуственият интелект, който стои зад експеримента, е изиграл общо над (50 000 часа)Pokémon Red, ръководен от софтуерния разработчик и YouTuber Питър Уидън.

Как се обучава изкуствен интелект за Pokémon Red?За (Питър Уидън)едно от предизвикателствата беше да обучим изкуствения интелект да се държи като човешки играч. Според YouTuber поведението на изкуствения интелект е много сходно с това на човешкия играч

След всяко действие изкуственият интелект трябва да проверява какво се случва на екрана, преди да вземе решение за следващото действие – подобно на човек, който играе Pokémon Red с джобен Gameboy пред очите си. За да обучи ИИ възможно най-бързо, Уидън провежда 40 тестови сесии паралелно.

 (Находчивият изобретател използва за експеримента си емулатора на Gameboy PyBoy. (Joaquin Corbalan/Adobe Stock; Peter Whidden))
(Находчивият изобретател използва за експеримента си емулатора на Gameboy PyBoy. (Joaquin Corbalan/Adobe Stock; Peter Whidden))

Трикът със системата за възнаграждение:Как да научите изкуствен интелект как да играе игра на Pokémon Red? Решението, избрано от ютубъра: Той създава система за възнаграждение, така че алгоритъмът да преследва целта да спечели играта. Всеки път, когато изкуственият интелект открие нещо ново в играта, той бива възнаграждаван с точка за награда

Това, което се смята за „ново“, тук се измерваше с броя на различните пиксели на екрана. Този метод обаче имаше и недостатъка, че героят, управляван от ИИ, гледаше водна анимация, вместо да продължи да играе играта в смисъл на успешно завършване.

В допълнение бяха създадени допълнителни точки за награди, например за улавяне на покемони, победа на арената или победа в битка с треньор.

Скритият е събрал експеримента си в 33-минутно видео в YouTube.

Какви препятствия е срещнал експериментът с покемони?

При посещение на Центъра за покемони изкуственият интелект съхраняваше някои покемони. Това доведе до намаляване на общото ниво на екипа. В резултат на този лош опит ИИ избягваше Центъра за покемони от този момент нататък. Произтичащият от това недостатък: от този момент нататък отборът вече не се лекува

Скрито казва в своя видеоклип в YouTube за експеримента:

„Той [изкуственият интелект] няма емоции като човек, но едно събитие с изключително висока стойност на наградата може да има траен ефект върху поведението му. […] В този случай е достатъчно той да загуби покемона си само веднъж. Това развива негативна асоциация с целия център за покемони, което кара изкуствения интелект да го избягва напълно във всички бъдещи игри. „

Така че Уидън трябваше допълнително да коригира своята система за възнаграждение.

Между другото:Покемоните наскоро направиха скок към големия екран, както доказва трейлърът на филма по-долу.

ИИ в режим на камикадзе:Не по-малко забележително е и първоначалното бойно поведение на ИИ. В началото той се втурваше във всяка битка – независимо от шансовете си за победа. Затова ютубърът въвежда наказание за загубени битки

Но това, което беше наистина любопитно – но някак логично – беше поведението на ИИ след загубена битка: Защото тогава той се задържаше на екрана на битката, като просто не го четеше повече. И това е така, защото не искаше да губи точки.

Най-голямото предизвикателство за Уидън било да научи алгоритъма на желаното поведение в играта стъпка по стъпка. Тъй като в този случай не е имало голям набор от данни, както при текстовите или гласовите изкуствени интелекти, той е трябвало да научи алгоритъма на поведението, водещо до целта на играта, на малки части.

(TechCrunch)Уидън е доволен от големия успех на своя видеоклип в YouTube, който до момента (10.11.2023 г.) е достигнал над 4,3 милиона зрители. Той казва:

„Да видя колко много хора се занимават [с видеоклипа] ми доставя голямо удоволствие. „

Какво е направил добре изкуственият интелект

Но ИИ не само създаваше проблеми – понякога дори беше много умен. След това, в определен момент, той използваше един и същ маршрут отново и отново. Това, което на пръв поглед изглеждаше безсмислено, се оказваше умно. ИИ се възползва от една грешка. Това означава, че първият покемон, който срещне, веднага се улавя с едно хвърляне.

Можете ли да подобрите експеримента на YouTuber с покемоните? Освен това Уидън предлага във видеото си няколко съвета как сами да опитате да проведете такъв експеримент.

Например, той използва така наречената оптимизация на проксималната политика (PPO). В (OpenAI)този алгоритъм за обучение се казва, че осигурява „сравнима или по-добра производителност от сегашните подходи“. Също така се казва, че PPO е лесен за изпълнение и настройка.

Какво мислите за експеримента на YouTuber? И още: Смятате ли, че придружаващото видео е забавно? Заляха ли ви носталгични чувства при вида на Pokémon Red, или се кълнете в Digimon и вирвате подозрително нос само при споменаването на Pikachu &; Co. Споделете ни какво мислите в коментарите по-долу