Zhipu GLM-5,2 lidera o benchmark open-source DeepSWE com 44% de taxa de sucesso, superando modelos fechados de referência

De acordo com Beating (uma conta de monitorização), o modelo open-source GLM-5.2 da Zhipu AI alcançou a maior taxa de sucesso entre os modelos open-source no benchmark DeepSWE para tarefas complexas de engenharia de software, com uma taxa de sucesso de 44% numa única tentativa com intensidade máxima de raciocínio. Isto supera o Kimi K2.7 Code, com 31%, em 13 pontos percentuais.

A 3,92 USD por tarefa, o GLM-5.2 ultrapassa o desempenho de vários modelos fechados de referência sob configurações específicas de raciocínio, incluindo o Claude Sonnet 4.6 [high] a 30%, o Gemini 3.5 Flash [medium] a 37% e o Claude Opus 4.8 [low] a 41%.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário