A Análise Artificial lança um benchmark de agentes de codificação; Zhipu GLM-5.1 fica em primeiro lugar entre os modelos de código aberto

A Artificial Analysis lançou hoje um novo Coding Agent Index para avaliar o desempenho dos modelos de IA quando combinados com frameworks de agentes em benchmarks-chave, incluindo SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 e SWE-Atlas-QnA. A Zhipu GLM-5.1 ficou em primeiro lugar entre os modelos open-source na avaliação, demonstrando um desempenho de ponta em cenários reais de agentes de programação.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário