После 50 000 часов: искусственный интеллект должен решить проблемы человечества — но не справляется из-за Pokémon Red

0
128

Мало что так ностальгически романтизировано в поп-культуре, как игры на Gameboy с карманными монстрами. Но что произойдет, если к покемонам добавить искусственный интеллект?

В целом, технологии (надеюсь)&nbsp для&nbsp многих областей жизни, от самоуправляемых автомобилей, роботов на заводах или просто смартфонов и домашних компьютеров.

Но сможет ли ИИ блеснуть и в классической игре для GameBoy — Pokémon Red?

А (YouTuber)со знанием программирования и любовью к маленьким монстрам решил ответить на этот вопрос — и получил удивительные результаты.

Как работает опыт YouTuber’а с покемонами?

Искусственный интеллект, стоящий за экспериментом, сыграл в общей сложности более (50 000 часов)Pokémon Red под руководством программиста и YouTuber Питера Уиддена.

Как обучить искусственный интеллект для Pokémon Red?Для (Peter Whidden)одной из задач было обучить искусственный интеллект вести себя как человек. По словам YouTuber, поведение искусственного интеллекта очень похоже на поведение человеческого игрока

Для эксперимента изобретатель использовал эмулятор игровых приставок PyBoy. (Joaquin Corbalan/Adobe Stock; Peter Whidden))» src=»https://www.global-esports.news/wp-content/uploads/2023/11/For-his-experiment.jpg» width=»1920″ height=»1080″ /☻

Трюк с системой вознаграждения:Как научить ИИ играть в Pokémon Red? Решение, выбранное ютубером: он настроил систему вознаграждений таким образом, чтобы алгоритм стремился к победе в игре. Каждый раз, когда ИИ обнаруживает в игре что-то новое, он получает в награду

очков.
Кроме того, были введены и другие поощрительные очки, например, за поимку покемонов, победу на арене или сражение с тренером.

Сидден изложил свой опыт в 33-минутном видеоролике на YouTube.

С какими препятствиями столкнулся опыт игры в покемонов?

Во время посещения Центра покемонов искусственный интеллект сохранил некоторых покемонов. Это привело к снижению общего уровня команды. Этот неудачный опыт заставил искусственный интеллект с этого момента избегать центра покемонов. В результате команда перестала получать исцеление с этого момента.
В своем видеоролике на YouTube

Whidden рассказывает об этом опыте:

«У него [ИИ] нет эмоций, как у человека, но одно событие с чрезвычайно высокой стоимостью вознаграждения может оказать длительное влияние на его поведение. [В данном случае ему достаточно один раз потерять своего покемона. Это создает негативную ассоциацию со всем центром покемонов, что заставляет ИИ полностью избегать его во всех последующих играх.»

Поэтому Уиддену пришлось еще больше скорректировать свою систему вознаграждений.

Кстати:Покемон недавно перебрался на большой экран, о чем свидетельствует трейлер фильма, представленный ниже.

ИИ в режиме камикадзе:Не менее примечательно и первоначальное поведение ИИ в бою. Поначалу ИИ атаковал в каждом бою, независимо от шансов на победу. Поэтому YouTuber ввел штраф за проигранные бои

Что было действительно интересно — и в то же время логично — так это поведение ИИ после проигрыша боя: он оставался на экране боя и просто не читал его. Причиной этого было желание избежать потери очков…

Самой сложной задачей для Уиддена было обучить алгоритм желаемому поведению игры, шаг за шагом. Поскольку в данном случае не было большого набора данных, как в случае с текстовым или голосовым ИИ, ему пришлось обучать алгоритм поведению, которое привело бы к достижению цели игры, небольшими фрагментами.
Whidden был в восторге от огромного успеха своего видеоролика на YouTube, который на сегодняшний день (10 ноября 2023 г.) посмотрело более 4,3 млн. человек. Он сказал:

«Видеть, как много людей участвуют [в видео], доставляет мне огромное удовольствие. «

Что искусственный интеллект сделал хорошо

Но искусственный интеллект не только создавал проблемы — иногда он даже был очень умным. В какой-то момент он использовал один и тот же маршрут снова и снова. То, что сначала казалось бессмысленным, оказалось умным. Это произошло потому, что искусственный интеллект использовал недостаток. Так, первый попавшийся покемон был немедленно пойман одним броском.

Можно ли изменить опыт пользователя YouTuber в игре с покемонами?

Кроме того, в своем видеоролике Уидден дает несколько советов о том, как сделать такой опыт.

К примеру, он использовал так называемую оптимизацию проксимальной политики (PPO). В (OpenAI)этом алгоритме обучения утверждается, что он обеспечивает «сопоставимую или лучшую производительность по сравнению с существующими подходами». Более того, PPO прост в реализации и настройке.
Что вы думаете об эксперименте YouTuber? А также: Занимателен ли сопровождающий видеоролик? Ностальгировали ли вы, глядя на Pokémon Red, или же проклинали Digimon и недоверчиво морщили нос при одном только упоминании Pikachu & Co. Сообщите нам свое мнение в комментариях ниже