E la tecnologia (speranzosa)permolti settori della vita, dalle auto a guida autonoma, ai robot nelle fabbriche o semplicemente per gli smartphone e i computer di casa.
Ma l’intelligenza artificiale può brillare anche in una partita a Pokémon Rosso, il classico gioco per GameBoy?
Uno (YouTuber)con una conoscenza della programmazione e un debole per i mostriciattoli ha esaminato la questione, con risultati sorprendenti.
L’intelligenza artificiale alla base dell’esperimento ha giocato per oltre (50.000 ore)Pokémon Rosso, guidata dallo sviluppatore di software e YouTuber Peter Whidden.
Come si allena un’IA per Pokémon Rosso? Per (Peter Whidden)una delle sfide è stata quella di addestrare l’IA a comportarsi come un giocatore umano. Secondo lo YouTuber, il comportamento dell’IA si avvicina a quello di un giocatore umano
Dopo ogni azione, l’IA deve controllare cosa succede sullo schermo prima di decidere l’azione successiva, un po’ come se giocasse a Pokémon Rosso con un controller Gameboy davanti agli occhi. Per addestrare l’intelligenza artificiale il più rapidamente possibile, Whidden ha eseguito 40 sessioni di test in parallelo.
Il trucco del sistema di ricompense:Come insegnare a un’IA a giocare a Pokémon Rosso? La soluzione scelta dallo YouTuber: per far sì che l’algoritmo persegua l’obiettivo di vincere una partita, ha definito un sistema di ricompense. Ogni volta che l’IA scopre qualcosa di nuovo nel gioco, viene ricompensata con un punto premio.
Ciò che era considerato “nuovo” era misurato dal numero di pixel diversi sullo schermo. Ma questo metodo aveva anche lo svantaggio che il personaggio controllato dall’IA guardava un’animazione acquatica invece di continuare il gioco in direzione del successo.
Whidden ha presentato la sua esperienza in un video di 33 minuti su YouTube.
Quali ostacoli ha incontrato l’esperienza Pokémon?
Quando abbiamo visitato il Centro Pokémon, l’IA ha immagazzinato alcuni Pokémon. Questo ha portato a un calo del livello generale della squadra. Dopo questa brutta esperienza, l’IA ha deciso di evitare il Centro Pokémon. L’inconveniente è stato che da quel momento in poi la squadra non è più guarita.
Nel suo video su YouTube,
Whidden racconta questa esperienza:
“L’IA non ha certamente emozioni come un essere umano, ma un singolo evento con un valore di ricompensa estremamente elevato può influenzare il suo comportamento in modo duraturo. […] In questo caso, è sufficiente che perda il suo Pokémon una sola volta. Questo sviluppa un’associazione negativa con il Centro Pokémon nel suo complesso, motivo per cui l’IA lo eviterà completamente in tutti i giochi futuri. “
Di conseguenza, Whidden ha dovuto adeguare ulteriormente il suo sistema di ricompense.
A proposito di:Pokémon è arrivato di recente sul grande schermo, come si vede nel trailer del film qui sotto.
L’IA in modalità kamikaze:Non meno notevole è il comportamento iniziale dell’IA in combattimento. All’inizio, si precipitava in ogni combattimento, incurante delle sue possibilità di vittoria. Per questo motivo lo YouTuber ha introdotto una penalità per i combattimenti persi
Ma il comportamento dell’IA dopo un combattimento perso era davvero curioso, ma in un certo senso logico: rimaneva nella schermata del combattimento, ma non la leggeva più. Questo per evitare di perdere punti
Whidden si è rallegrato del grande successo del suo video su YouTube, che a oggi (10.11.2023) ha raggiunto oltre 4,3 milioni di spettatori. Ha detto:
“Mi fa molto piacere vedere quante persone sono interessate [al video].
“.
Cosa ha fatto di buono l’IA
Ma l’IA non ha fatto solo cose stupide: a volte è stata molto intelligente. Poi, a un certo punto, ha usato sempre lo stesso percorso di gara. Ciò che a prima vista non aveva senso si è rivelato intelligente. Perché l’IA ha usato un’anomalia. Il primo Pokémon che incontra viene immediatamente catturato con un solo lancio.
Potete migliorare l’esperienza Pokémon degli YouTubers? Inoltre, nel suo video Whidden offre alcuni consigli su come realizzare un’esperienza del genere da soli.
Ad esempio, ha utilizzato il metodo PPO (Proximal Policy Optimization). Secondo il sito (OpenAI)questo algoritmo di apprendimento offre prestazioni “paragonabili o superiori agli approcci attuali”. Inoltre, PPO dovrebbe essere facile da implementare e mettere a punto.
Cosa ne pensate dell’esperienza dello YouTuber? E ancora: avete trovato divertente il video corrispondente? Vi siete sentiti nostalgici guardando Pokémon Rosso, oppure imprecate per i Digimon, storcendo il naso alla sola menzione di Pikachu & Co? Fateci sapere cosa ne pensate nei commenti