Não é um novo padrão, mas é excitante: Mario como referência para as IAs
Os modelos de IA são muitas vezes difíceis de avaliar: Matemática, testes lógicos, análises de dados complexas. Mas os investigadores da UC San Diego adoptaram uma nova abordagem – e deixaram as suas IAs simplesmenteSuper Mario Brosjogar, comorelata o TechSpot.
Parece uma experiência curiosa? Talvez. Mas mostra certamente que o tempo é por vezes mais importante do que o puro poder de computação.
A experiência: GamingAgent como controlador de IA
Os investigadores do Laboratório de IA Hao da Universidade da Califórnia em San Diego desenvolveram a estrutura GamingAgent (GitHub), que permite que os modelos de IA controlem o canalizador Mario utilizando código Python.
Uma versão emulada de Super Mario Bros. na NES serviu de base. As IAs receberam instruções simples, comoPular sobre este adversário
e imagens de ecrã para orientação.
O objetivo era descobrir até que ponto os modelos conseguem planear as suas acções e adaptá-las em tempo real.
Claude-3.7 foi testado em Pokémon Red, mas e quanto a jogos mais em tempo real como Super Mario ?
Jogamos agentes de jogos de IA em jogos LIVE Super Mario e descobrimos que o Claude-3.7 superou outros modelos com heurísticas simples.
Claude-3.5 também é forte, mas menos capaz de… pic.twitter.com/bqZVblwqX3
– Hao AI Lab (@haoailab) February 28, 2025
Claude 3.7 domina – GPT-4o tropeça
Os resultados podem surpreender-te: O Claude 3.7 da Anthropic mostrou o melhor desempenho. Dominou saltos precisos, evitou habilmente os adversários e teve um desempenho geral confiante
Mesmo o seu antecessorClaude 3.5teve um bom desempenho, embora não tão impressionante.
ComGPT-4o da OpenAI e Gemini 1.5 Prodo Google, por outro lado, as coisas pareciam muito diferentes. Os modelos, que são de facto conhecidos pela sua forte capacidade de raciocínio lógico, tiveram dificuldades
Falharam frequentemente na mecânica básica do jogo e muitas vezes saltaram descontroladamente para os buracos ou foram atingidos pelos adversários.
O tempo vence a lógica.
O teste mostrouque os reflexos rápidos são mais importantes do que a lógica complexa – pelo menos quando se joga Mario.
Embora alguns modelos de IA tentem refletir sobre as situações, esta abordagem levou a grandes atrasos.
Afinal de contas, apenas alguns milissegundos em Super Mario Bros. podem fazer a diferença entre um salto bem sucedido e uma tentativa falhada.
Os investigadores suspeitam que os modelospensantes
como o GPT-4o demoram demasiado tempo a calcularantes de agirem e, por isso, saltam para o vazio.
Os jogos de vídeo como referência para a IA?
É claro que se mantém a questão de saber até que ponto esses testes são significativos. Um modelo de IA que derrota a personagem de videojogo Mario não é automaticamente adequado para tarefas complexas no mundo real. No entanto, a experiência fornece uma ideia interessante: não é apenas o poder de computação que é decisivo, mas também as decisões rápidas e intuitivas.