50.000 UUR LATER: Kunstmatige intelligentie moest menselijke problemen oplossen, maar faalde door Pokémon Red

0
155

Weinig dingen in de popcultuur zijn zo nostalgisch als Pokémon voor consoles. Maar wat zou er gebeuren als kunstmatige intelligentie in Pokémon werd geïmplanteerd?

Maar kan AI ook uitblinken in het spelen van het klassieke GameBoy-spel Pokémon Red?

A (YouTuber)&nbspHoe pakte het experiment van deze YouTuber met Pokémon uit?
De kunstmatige intelligentie achter het

experiment, geleid door softwareontwikkelaar en YouTuber Peter Whedon, speelde in totaal meer dan ( 50.000 uur )&nbspPokémon Red.
Voor (Peter Whedon)Een van de uitdagingen was hoe de AI te trainen om zich te gedragen als een menselijke speler. Volgens YouTuber gedraagt de AI zich heel vergelijkbaar met menselijke spelers

Na elke actie kijkt de AI naar wat er op het scherm gebeurt voordat hij zijn volgende zet beslist – vergelijkbaar met een mens die Pokémon Red voor je ogen speelt met een draagbare spelconsole. Om de AI zo snel mogelijk te trainen, voerde Whedon 40 tests tegelijkertijd uit.

(Joaquin Corbalan/Adobe Stock; Peter Whidden))” src=”https://www.global-esports.news/wp-content/uploads/2023/11/For-his-experiment.jpg” width=”1920″ height=”1080″ /☻

Beloningssysteem truc: Hoe leer je een AI Pokémon Red spelen?” De YouTuber koos voor een oplossing: hij creëerde een beloningssysteem waarmee het algoritme kan streven naar de overwinning in het spel. Elke keer dat de AI iets nieuws vindt in het spel, krijgt hij een

Hidden heeft zijn experimenten samengevat in een 33 minuten durende YouTube-video.

Kunstmatige intelligentie heeft een aantal Pokémon gered tijdens een bezoek aan het Pokémon Center. Dit leidde tot een daling van het algemene niveau van het team. Vanwege deze slechte ervaring vermijdt de AI sindsdien Pokémon Centers. Het gevolg is dat het team vanaf dit moment geen

meer geneest.
De verborgen

vertelt over dit experiment in zijn YouTube-video:

“Het [AI] heeft geen emoties zoals mensen, maar gebeurtenissen met een zeer hoge beloningswaarde kunnen een blijvend effect hebben op haar gedrag [……]. In dit geval hoefde ze haar Pokémon maar één keer te verliezen. Dit zorgde ervoor dat de AI negatieve associaties vormde met het hele Pokémon Center, waardoor ze het in toekomstige spellen volledig ging vermijden.”

Whedon moest zijn beloningssysteem dus verder aanpassen.

Pokémon is onlangs op het witte doek verschenen, zoals blijkt uit onderstaande filmtrailer.

Kunstmatige intelligentie in kamikaze modus: De aanvankelijke gevechtsprestaties van de AI zijn net zo overtuigend. In het begin stort hij zich in elk gevecht, ongeacht de kans op overwinning. Daarom heeft Youtuber straffen geïntroduceerd voor het verliezen van gevechten.
Maar wat echt interessant en toch logisch is, is het gedrag van de AI na een verloren gevecht: want dan blijft hij op het gevechtsscherm staan en kijkt er gewoon niet meer naar. Dit komt omdat hij geen punten wil verliezen.
De grootste uitdaging voor Wieden is het algoritme dat geleidelijk het vereiste in-game gedrag aanleert. Omdat er in dit geval geen grote dataset is zoals bij tekst- of spraak-AI, moesten de gedragsalgoritmes in kleine stukjes leren om de speldoelen te bereiken.

( TechCrunch )Whedon is blij met het enorme succes van zijn YouTube-video, die tot nu toe (10 november 2023) meer dan 4,3 miljoen keer is bekeken. Hij zei:

“Het is geweldig om te zien dat zoveel mensen betrokken raken bij (de video).”

Wat?”

Wat AI goed doet

Maar AI creëert niet alleen problemen, soms is het zelfs heel slim. En dan gebruikt het op een gegeven moment steeds weer dezelfde paden. Wat eerst onzinnig lijkt, wordt dan heel slim. Kunstmatige intelligentie maakt gebruik van fouten. Dat wil zeggen, de eerste Pokémon die het tegenkwam, ving het zodra het het gooide.
Kun jij het Pokémon-experiment van de YouTuber verbeteren? Bovendien geeft Whedon in zijn video een aantal tips over hoe je zelf zo’n experiment kunt proberen.

Het maakt bijvoorbeeld gebruik van wat proximal policy optimization (PPO) wordt genoemd. In (OpenAI)wordt gezegd dat dit leeralgoritme “vergelijkbare of betere prestaties levert dan huidige methoden”. Er wordt ook gezegd dat PPO gemakkelijk te implementeren en debuggen is.
Wat vinden jullie van het experiment van deze YouTuber? Ook: vond je de bijgevoegde video grappig? Word je nostalgisch als je Pokémon Red ziet, of scheld je op Digimon en vraag je je af of je een neus hebt bij het noemen van Pikachu? Laat ons weten wat je denkt in de reacties hieronder