No es un nuevo estándar, pero es emocionante: Mario como punto de referencia para las IA.
Los puntos de referencia para los modelos de IA suelen ser áridos: matemáticas, pruebas lógicas, análisis de datos complejos. Pero los investigadores de la Universidad de California en San Diego han elegido un nuevo enfoque y simplemente han dejado que sus IASuper Mario Brosjueguen, como informa TechSpot.
¿Suena a experimento curioso? Quizá. Pero demuestra que a veces el tiempo es más importante que la potencia de cálculo.
El experimento: GamingAgent como controlador de IA
Los investigadores del Hao AI Lab de la Universidad de California en San Diego han desarrollado el marco GamingAgent (GitHub) con el que los modelos de IA pueden controlar al fontanero Mario mediante código Python.
Se utilizó como base una versión emulada de Super Mario Bros. en la NES. Las IA recibieron instrucciones sencillas como Salta sobre este enemigo
y capturas de pantalla para orientarse.
El objetivo era averiguar cómo de bien podían los modelos planificar sus acciones y adaptarlas en tiempo real.
Claude-3.7 se probó en Pokémon Rojo, pero ¿qué pasa con los juegos más en tiempo real como Super Mario ?
Lanzamos agentes de juego de IA en juegos de Super Mario EN VIVO y descubrimos que Claude-3.7 superó a otros modelos con heurísticas simples.
Claude-3.5 también es fuerte, pero menos capaz de… pic.twitter.com/bqZVblwqX3
— Hao AI Lab (@haoailab) 28 de febrero de 2025
Claude 3.7 domina – GPT-4o tropieza
Los resultados podrían sorprenderos: Claude 3.7 de Anthropic ha mostrado el mejor rendimiento. Ha realizado saltos precisos, esquivado hábilmente a sus oponentes y actuado con confianza en general.
Incluso su predecesor, Claude 3.5, obtuvo buenos resultados, aunque no tan impresionantes.
En cambio, con el GPT-4o de OpenAI y el Gemini 1.5 Pro de Google, la cosa fue muy diferente. Los modelos, conocidos por su gran capacidad de razonamiento lógico, lo tuvieron muy difícil.
A menudo han fallado en las mecánicas básicas del juego y a menudo han saltado sin control a los huecos o han sido golpeados por los oponentes.
El tiempo supera a la lógica
La prueba ha demostradoque los reflejos rápidos son más importantes que la lógica compleja, al menos cuando se juega a Mario.
Mientras que algunos modelos de IA intentan pensar en situaciones a través de
, este enfoque ha provocado largos retrasos.
Después de todo, en Super Mario Bros. unos pocos milisegundos pueden marcar la diferencia entre un salto exitoso y un intento fallido.
Los investigadores sospechan que los modelos pensantes
como GPT-4o calculan demasiado tiempoantes de actuar y, por lo tanto, saltan en el vacío.
¿Retro-juegos como referencia de IA? Por supuesto, la pregunta sigue siendo cuán significativos son estos tests. Un modelo de IA que vence al personaje de videojuego Mario no es automáticamente adecuado para tareas complejas en el mundo real. Sin embargo, el experimento proporciona un hallazgo emocionante: no solo la potencia de cálculo es decisiva, sino también las decisiones rápidas e intuitivas.