A referência ARC -AGI -2 foi projetada como um teste difícil para modelos de IA

Just_super/getty fig

Os modelos de existência de IA mais sofisticados hoje marcaram uma nova referência projetada para medir seu progresso em direção à inteligência geral artificial (AGI)-e as forças de bruts não serão suficientes para melhorar o poder de computação, pois as avaliações estão agora considerando o custo de operar o modelo.

A AGI tem muitas definições competitivas, mas geralmente é levado para mencionar uma IA que pode realizar qualquer ato cognitivo de seres humanos. Para medi -lo, a Fundação do Prêmio da ARC havia lançado anteriormente um teste de lógica chamado ARC -AGI -1. Em dezembro passado, o OpenAI anunciou que seus modelos e 3 foram pontuados no exame, o que poderia pedir a alguns para perguntar se a empresa estava mais próxima de alcançar a AGI.

Mas agora um novo teste, o ARC -AGI -2, estendeu a barra. É difícil o suficiente que, em um teste atual do sistema de IA, não possa atingir mais do que uma pontuação de um dígito em 100, enquanto cada pergunta foi resolvida em duas tentativas por pelo menos duas pessoas.

Em Publique um blog Anunciando o ARC -AGI -2, o presidente da ARC, Greg Kamrdt, disse que a nova referência precisava testar várias habilidades de repetições anteriores. “Para derrotá -lo, você deve mostrar adaptabilidade de alto nível e alta eficiência”, escreveu ele.

O benchmark ARK-Agi-2 é diferente de outros exames de referência de IA que se concentra em concluir as habilidades dos modelos de IA-como é o exemplo da mudança em uma nova imagem com base nos exemplos anteriores de interpretações simbólicas-o desempenho de doutorado global não é mais do que sua habilidade. Os modelos atuais são bons em “aprendizado profundo”, que é medido pelo ARC-AGI-1, mas não tão bom nas tarefas aparentemente simples, que requer pensamentos e interações mais desafiadores no Arc-Agi-2. Por exemplo, o modelo OpenAI e 3-L pontuaram 75,7 % no ARC-AGI-1, mas apenas 4 % no ARC-Agi-2.

A Benchmark também adiciona uma nova dimensão à medição da capacidade de uma IA, analisando a eficiência da solução de problemas, conforme medido pelas despesas necessárias para concluir uma tarefa. Por exemplo, quando o arco pagou US $ 17 por tarefa aos seus examinadores humanos, assume que a 3-Lo Opina gasta US $ 200 como uma taxa pelo mesmo trabalho.

“Acho que a nova repetição do ARC-AGI agora é um grande passo em direção à avaliação mais realista dos modelos de IA com foco no equilíbrio de desempenho com eficiência”, disse Joseph Imperial Na Universidade de Bath, no Reino Unido. “Este é um sinal de que estamos totalmente focados no desempenho do teste de avaliação unidimensional, mas também considerando o baixo poder de contagem”.

Qualquer modelo capaz de passar o ARC-Agi-2 não é apenas muito habilidoso, mas também será necessário e também será necessário, o Imperial diz que as habilidades modais são os principais componentes da nova referência. Pode ajudar a resolver a ansiedade de que os modelos de IA estejam se tornando mais intensivos em energia Às vezes, alcançar os excelentes resultados no ponto de desperdício.

No entanto, nem todo mundo tem certeza de que a nova medida é benéfica. “Este não é o enquadramento correto de seu enquadramento completo como teste de detetive”, disse Catherine Flick Na Universidade de Staphordshire, no Reino Unido. Em vez disso, ele diz que esses critérios estão simplesmente avaliando uma única tarefa ou conjunto de tarefas a serem bem concluídas, que posteriormente é extlina para se referir a uma série de funções ao longo de uma série de funções.

Flick diz: “Esses critérios não devem ser vistos como um grande momento para a AGI:” Você vê que esses modelos estão passando por esses testes de detetive em nível humano, onde não estão realmente; O que eles estão fazendo é realmente responder adequadamente a um prompt específico. “

E exatamente o que acontece ou quando ou quando o Arc-agi-2 passa é outra pergunta-precisamos de outro critério? Imperial diz: “Se eles desenvolverem Arc-Agi-3, acho que eles adicionarão mais um eixo ao gráfico (número mínimo de pessoas-especialistas ou não, precisará resolver as tarefas sem desempenho e habilidades”, disse o Imperial.

Assunto:

Link da fonte