Po 50 000 godzin: Sztuczna inteligencja ma rozwiązać problemy ludzkości – ale zawodzi z powodu Pokémon Red

0
151

Niewiele rzeczy jest tak nostalgicznie romantycznych w popkulturze, jak gry na Gameboya z kieszonkowymi potworami. Ale co się stanie, gdy do Pokémonów dodamy sztuczną inteligencję?

Ponadto, technologia ta jest (nadzieją)&nbspdla&nbspwielu dziedzin życia, od autonomicznie jeżdżących samochodów, robotów w fabrykach czy po prostu smartfonów i domowych komputerów.

Ale czy AI może zabłysnąć także w klasycznej grze na GameBoya – Pokémon Red?

A (YouTuber)z umiejętnościami programistycznymi i zamiłowaniem do małych potworków zmierzył się z tym pytaniem – ze zdumiewającymi rezultatami.

Jak działa eksperyment YouTubera z Pokémonami?

Sztuczna inteligencja stojąca za eksperymentem rozegrała w sumie ponad (50 000 godzin)Pokémon Red, kierowana przez programistę i YouTubera Petera Whiddena.

Jak wytrenować sztuczną inteligencję do Pokémon Red? Dla (Peter Whidden)jednym z wyzwań było wytrenowanie sztucznej inteligencji, aby zachowywała się jak ludzki gracz. Według YouTubera, zachowanie sztucznej inteligencji jest bardzo podobne do zachowania ludzkiego gracza

Po każdej akcji sztuczna inteligencja ma sprawdzać, co dzieje się na ekranie przed podjęciem decyzji o kolejnym działaniu – podobnie jak osoba grająca w Pokémon Red z Gameboyem przed oczami. Aby jak najszybciej wytrenować sztuczną inteligencję, Whidden przeprowadził równolegle 40 sesji testowych.

(Pomysłowy wynalazca użył emulatora Gameboya PyBoy do swojego eksperymentu. (Joaquin Corbalan/Adobe Stock; Peter Whidden))
(Pomysłowy wynalazca użył emulatora Gameboya PyBoy do swojego eksperymentu. (Joaquin Corbalan/Adobe Stock; Peter Whidden))

Sztuczka z systemem nagród:Jak nauczyć SI grać w Pokémon Red? Rozwiązanie wybrane przez YouTubera: skonfigurował system nagród tak, aby algorytm dążył do wygrania gry. Za każdym razem, gdy sztuczna inteligencja odkrywa coś nowego w grze, zostaje uhonorowana punktem nagrody

To, co liczy się jako „nowe”, zostało tutaj zmierzone za pomocą liczby różnych pikseli na ekranie. Jednak ta metoda miała również tę wadę, że postać kontrolowana przez SI patrzyła na animację wody zamiast kontynuować grę w sensie pomyślnego ukończenia.

Dodatkowo ustanowiono kolejne punkty nagród, np. za złapanie Pokémona, wygraną na arenie czy zwycięstwo w walce z trenerem.

Whidden spakował swój eksperyment w 33-minutowy film na YouTube.

Jakie przeszkody napotkał eksperyment z Pokémonami?

Podczas wizyty w Centrum Pokémonów sztuczna inteligencja przechowywała niektóre Pokémony. Doprowadziło to do obniżenia ogólnego poziomu zespołu. To złe doświadczenie spowodowało, że SI unikała Centrum Pokémonów od tego momentu. Wynikająca z tego wada: drużyna nie była już uzdrawiana od tego momentu.

Whidden mówi w swoim filmie na YouTube o eksperymencie:

„To [SI] nie ma emocji jak człowiek, ale pojedyncze wydarzenie o wyjątkowo wysokiej wartości nagrody może mieć trwały wpływ na jego zachowanie. […] W tym przypadku wystarczy, że straci swojego Pokémona tylko raz. Tworzy to negatywne skojarzenie z całym Centrum Pokémon, powodując, że sztuczna inteligencja całkowicie go unika we wszystkich przyszłych grach.”

Więc Whidden musiało jeszcze bardziej dostosować swój system nagród.

Przy okazji:Pokémony niedawno przeszły na duży ekran, czego dowodem jest poniższy zwiastun filmowy.

SI w trybie kamikadze:Nie mniej niezwykłe: początkowe zachowanie bojowe SI. Na początku szturmowała każdą walkę – niezależnie od szans na zwycięstwo. YouTuber wprowadził więc karę za przegrane bitwy

Co było naprawdę ciekawe – ale w jakiś sposób logiczne – to zachowanie SI po przegranej walce: pozostała ona na ekranie walki i po prostu go nie przeczytała. Powodem tego było uniknięcie utraty punktów.

Największym wyzwaniem dla Whiddena było nauczenie algorytmu pożądanego zachowania w grze krok po kroku. Ponieważ w tym przypadku nie było dużego zbioru danych, jak w przypadku sztucznej inteligencji tekstowej lub głosowej, musiał nauczyć algorytm zachowania prowadzącego do celu gry w małych kawałkach.

(TechCrunch)Whidden był zachwycony wielkim sukcesem swojego filmu na YouTube, który do tej pory (10 listopada 2023 r.) osiągnął ponad 4,3 miliona widzów. Mówi:

„Widząc, jak wiele osób angażuje się [w wideo], sprawia mi wiele przyjemności. „

Co sztuczna inteligencja zrobiła dobrze

Ale SI nie tylko sprawiała kłopoty – czasami była nawet naprawdę sprytna. W pewnym momencie wielokrotnie korzystała z tej samej trasy. To, co na pierwszy rzut oka wydawało się bezcelowe, okazało się sprytne. Działo się tak, ponieważ SI wykorzystywała usterkę. Oznacza to, że pierwszy napotkany Pokémon zostaje natychmiast schwytany jednym rzutem.

Czy można zmodyfikować eksperyment YouTubera z Pokémonami? Ponadto Whidden oferuje w swoim filmie kilka wskazówek, jak samemu spróbować takiego eksperymentu.

Na przykład użył tak zwanej proksymalnej optymalizacji polityki (PPO). W (OpenAI)tym algorytmie uczenia się mówi się, że zapewnia „porównywalną lub lepszą wydajność niż obecne podejścia”. Ponadto, PPO jest łatwy do wdrożenia i skonfigurowania.

Co sądzisz o eksperymencie YouTubera? A także: Czy towarzyszące mu wideo było zabawne? Czy ogarnęła cię nostalgia na widok Pokémon Red, czy może przeklinasz Digimona i podejrzliwie kręcisz nosem na samą wzmiankę o Pikachu & Co. Daj nam znać, co myślisz w komentarzach poniżej