Después de 50.000 horas: La inteligencia artificial debe resolver los problemas de la humanidad, pero fracasa por culpa de Rojo Pokémon

0
163

Pocas cosas están tan nostálgicamente romantizadas en la cultura pop como los juegos de Gameboy con los monstruos de bolsillo. Pero, ¿qué pasa cuando pones inteligencia artificial en los Pokémon?

Además, la tecnología es (esperanzadora)paramuchos ámbitos de la vida, desde coches de conducción autónoma, robots en fábricas o simplemente smartphones y ordenadores domésticos.

¿Pero puede la IA brillar también en una partida del clásico juego de GameBoy Pokémon Rojo?

Un (YouTuber)con conocimientos de programación y debilidad por los monstruitos ha abordado esta cuestión – con resultados sorprendentes.

¿Cómo funciona el experimento Pokémon de este YouTuber?

La IA que hay detrás del experimento ha jugado un total de más de (50.000 horas)Pokémon Rojo, guiada por el desarrollador de software y YouTuber Peter Whidden.

¿Cómo se entrena a una IA para Pokémon Rojo?Para (Peter Whidden)uno de los retos era entrenar a la inteligencia artificial para que se comportara como un jugador humano. Según el YouTuber, el comportamiento de la IA es muy similar al de un jugador humano

Después de cada acción, se supone que la IA comprueba lo que ocurre en la pantalla antes de decidir la siguiente acción, de forma similar a una persona que juega a Pokémon Rojo con una consola Gameboy delante de los ojos. Para entrenar la IA lo antes posible, Whidden realizó 40 sesiones de prueba en paralelo.

(El ingenioso inventor utilizó el emulador de Gameboy PyBoy para su experimento. (Joaquin Corbalan/Adobe Stock; Peter Whidden))
(El ingenioso inventor utilizó el emulador de Gameboy PyBoy para su experimento. (Joaquin Corbalan/Adobe Stock; Peter Whidden))

El truco del sistema de recompensas:¿Cómo enseñar a una IA a jugar a una partida de Pokémon Rojo? La solución elegida por el YouTuber: estableció un sistema de recompensas para que el algoritmo persiga el objetivo de ganar una partida. Cada vez que la IA descubre algo nuevo en el juego, recibe un punto de recompensa

Lo que cuenta como «nuevo» se midió aquí con el número de píxeles diferentes en la pantalla. Sin embargo, este método también tenía la desventaja de que el personaje controlado por la IA miraba una animación de agua en lugar de seguir jugando en el sentido de una finalización con éxito.

Además, se han establecido otros puntos de recompensa, por ejemplo por capturar Pokémon, ganar en la arena o ganar una batalla de entrenadores.

Whidden ha plasmado su experimento en un vídeo de 33 minutos en YouTube.

¿A qué obstáculos se enfrentó el experimento Pokémon?

Al visitar el Centro Pokémon, la IA almacenaba algunos Pokémon. Esto provocó una reducción del nivel general del equipo. Esta mala experiencia hizo que la IA evitara el Centro Pokémon a partir de entonces. La desventaja resultante: el equipo dejó de curarse a partir de ese momento.

Whidden dice en su vídeo de YouTube sobre el experimento:

No tiene emociones como un ser humano, pero un único acontecimiento con un valor de recompensa extremadamente alto puede tener un efecto duradero en su comportamiento. […] En este caso, basta con que pierda su Pokémon una sola vez. Esto crea una asociación negativa con todo el Centro Pokémon, haciendo que la IA lo evite por completo en todos los juegos futuros. «

Así que Whidden tuvo que adaptar aún más su sistema de recompensas.

Por cierto:Los Pokémon han dado recientemente el salto a la gran pantalla, como demuestra el tráiler de la película que aparece a continuación.

La IA en modo kamikaze:No menos notable: el comportamiento inicial de la IA en combate. Al principio, irrumpía en todos los combates, independientemente de sus posibilidades de victoria. Por ello, el YouTuber introdujo una penalización por las batallas perdidas

Lo realmente curioso -pero en cierto modo lógico- era el comportamiento de la IA tras un combate perdido: se quedaba en la pantalla de combate y simplemente no la leía. La razón de esto era evitar perder puntos.

El mayor reto para Whidden fue enseñar al algoritmo el comportamiento deseado en el juego paso a paso. Como en este caso no había un gran conjunto de datos como con las IAs de texto o voz, tuvo que enseñar al algoritmo el comportamiento que conducía al objetivo del juego en pequeños trozos.

(TechCrunch)Whidden se mostró encantado con el gran éxito de su vídeo de YouTube, que ha alcanzado más de 4,3 millones de espectadores hasta la fecha (10 de noviembre de 2023). Dice:

«Ver cuánta gente se engancha [al vídeo] me da mucho placer «

Lo que la IA hizo bien

Pero la IA no sólo causaba problemas, a veces incluso era muy inteligente. En un momento dado, utilizó la misma ruta una y otra vez. Lo que a primera vista parecía inútil, resultó ser inteligente. Esto se debía a que la IA utilizaba un fallo. Esto significa que el primer Pokémon que encuentra es capturado inmediatamente con un solo lanzamiento.

¿Puedes modificar el experimento Pokémon de YouTuber? Además, Whidden ofrece algunos consejos en su vídeo sobre cómo puedes intentar hacer un experimento así tú mismo.

Por ejemplo, utilizó la llamada Optimización de Política Proximal (PPO). En (OpenAI)se dice que este algoritmo de aprendizaje ofrece «un rendimiento comparable o mejor que los enfoques actuales». Además, se dice que PPO es fácil de implementar y configurar.

¿Qué opinas del experimento de YouTuber? Y también: ¿Te ha parecido entretenido el vídeo que lo acompaña? ¿Te has sentido nostálgico al ver Pokémon Rojo o prefieres Digimon y levantas la nariz con recelo ante la mera mención de Pikachu y compañía? Dinos lo que piensas en los comentarios