Os modelos chineses caíram para fora do top 10 no último SWE-rebench e foram ridicularizados por "inflacionar pontuações", desta vez ocupando quatro posições.

De acordo com a monitorização do 1M AI News, o SWE-rebench é um teste de referência em tempo real que extrai mensalmente novas tarefas de engenharia de software (issues + PRs) do GitHub, sem que o modelo possa otimizar previamente para o desafio. O mantenedor Ibragim anunciou uma atualização da tabela em 23 de março, eliminando as demonstrações de exemplo e a limitação de 80 passos, além de adicionar tarefas de avaliação auxiliar.

Classificação dos dez melhores:

  1. Claude Opus 4.6: 65,3%
  2. GPT-5.2 medium: 64,4%
  3. GLM-5: 62,8%
  4. GPT-5.4 medium: 62,8%
  5. Gemini 3.1 Pro Preview: 62,3%
  6. DeepSeek-V3.2: 60,9%
  7. Claude Sonnet 4.6: 60,7%
  8. Claude Sonnet 4.5: 60,0%
  9. Qwen3.5-397B-A17B: 59,9%
  10. Step-3.5-Flash: 59,6%

O modelo de código aberto GLM-5 da Zhipu AI (licença MIT) ocupa o terceiro lugar com 62,8%, sendo o modelo de código aberto mais bem classificado. Quatro modelos chineses estão entre os dez primeiros, além do GLM-5, incluindo o DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B da Alibaba Tongyi Qianwen (nono) e Step-3.5-Flash (décimo). O responsável global da Z.ai, Li Zixuan, comentou que na última atualização do SWE-rebench, todos os modelos chineses ficaram fora do top dez, sendo criticados por "benchmaxing" (pontuação artificial).

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário