Após 50.000 horas: A inteligência artificial é suposto resolver os problemas da humanidade – mas falha por causa do Pokémon Red

0
172

Poucas coisas são tão nostalgicamente romantizadas na cultura pop como os jogos de Gameboy com monstros de bolso. Mas o que acontece quando a inteligência artificial é adicionada ao Pokémon?

No geral, a tecnologia é (esperançosa)&nbsppara&nbspmuitas áreas da vida, desde carros com condução autónoma, robôs em fábricas ou simplesmente smartphones e computadores domésticos.

Mas será que a IA também pode brilhar no clássico jogo para GameBoy – Pokémon Red?

Um (YouTuber)com conhecimentos de programação e um amor pelos monstrinhos abordou esta questão – com resultados surpreendentes.

Como é que a experiência de um YouTuber com Pokémon funciona?

A inteligência artificial por detrás da experiência jogou um total de mais de (50.000 horas)Pokémon Red, liderada pelo programador e YouTuber Peter Whidden.

Como treinar a inteligência artificial para o Pokémon Red? Para (Peter Whidden)um dos desafios era treinar a inteligência artificial para se comportar como um jogador humano. De acordo com o YouTuber, o comportamento da inteligência artificial é muito semelhante ao de um jogador humano

O engenhoso inventor utilizou o emulador de Gameboy PyBoy para a sua experiência. (Joaquin Corbalan/Adobe Stock; Peter Whidden))” src=”https://www.global-esports.news/wp-content/uploads/2023/11/For-his-experiment.jpg” width=”1920″ height=”1080″ /☻

Truque do sistema de recompensas:Como é que se ensina uma IA a jogar Pokémon Red? A solução escolhida pelo YouTuber: ele configurou o sistema de recompensas para que o algoritmo se esforce por ganhar o jogo. Sempre que a IA descobre algo novo no jogo, é recompensada com um ponto de recompensa

Além disso, foram estabelecidos outros pontos de recompensa, por exemplo, para capturar Pokémon, ganhar na arena ou vencer uma batalha contra um treinador.

Whidden juntou a sua experiência num vídeo de 33 minutos no YouTube.

Que obstáculos enfrentou a experiência Pokémon?

Durante uma visita ao Centro Pokémon, a inteligência artificial armazenou alguns Pokémon. Isto levou a uma redução do nível geral da equipa. Esta má experiência fez com que a IA evitasse o Centro Pokémon a partir desse momento. A desvantagem resultante: a equipa deixou de ser curada a partir desse momento.

Whidden diz no seu vídeo do YouTube sobre a experiência:

“Ela [a IA] não tem emoções como um humano, mas um único evento com um valor de recompensa extremamente elevado pode ter um efeito duradouro no seu comportamento. [Neste caso, só precisa de perder o seu Pokémon uma vez. Isto cria uma associação negativa com todo o Centro Pokémon, fazendo com que a IA o evite completamente em todos os jogos futuros.”

Por isso, a Whidden teve de ajustar ainda mais o seu sistema de recompensas.

A propósito:Pokémon fez recentemente a transição para o grande ecrã, como evidenciado pelo trailer do filme abaixo.

IA em modo kamikaze:Não menos notável: o comportamento inicial de combate da IA. No início, a IA atacava em todos os combates, independentemente das hipóteses de vitória. Por isso, o YouTuber introduziu uma penalização para a perda de batalhas

O que foi realmente interessante – mas de alguma forma lógico – foi o comportamento da IA depois de perder uma batalha: permaneceu no ecrã de batalha e simplesmente não o leu. A razão para isto era evitar perder pontos…

O nbsp;

maior desafio para Whidden foi ensinar ao algoritmo o comportamento desejado do jogo, passo a passo. Como neste caso não havia um grande conjunto de dados, como acontece com a IA de texto ou de voz, ele teve de ensinar ao algoritmo o comportamento que conduzia ao objetivo do jogo em pequenos pedaços.
Whidden ficou encantado com o enorme sucesso do seu vídeo no YouTube, que alcançou mais de 4,3 milhões de espectadores até à data (10 de novembro de 2023). Ele disse:

“Ver a quantidade de pessoas que se envolvem [no vídeo] dá-me muito prazer. “

O que a inteligência artificial tem feito bem

Mas a IA não se limitou a causar problemas – por vezes até foi muito inteligente. A certa altura, utilizou repetidamente o mesmo percurso. O que parecia inútil à primeira vista revelou-se inteligente. Isto acontecia porque a IA estava a explorar uma falha. Isto significava que o primeiro Pokémon que encontrava era imediatamente capturado com um único lançamento.

Além disso, Whidden oferece algumas dicas no seu vídeo sobre como fazer uma experiência deste género.

Por exemplo, ele utilizou o que é conhecido como otimização da política proximal (PPO). Em (OpenAI)diz-se que este algoritmo de aprendizagem proporciona “um desempenho comparável ou melhor do que as abordagens actuais”. Para além disso, o PPO é fácil de implementar e configurar.
O que achas da experiência do YouTuber? E também: O vídeo que acompanha a experiência foi divertido? Ficaste nostálgico ao ver o Pokémon Red, ou amaldiçoas o Digimon e torces o nariz desconfiado à simples menção do Pikachu & Co. Deixa-nos saber o que pensas nos comentários abaixo