Les modèles chinois, qui avaient occupé les dix premières places du SWE-rebench la dernière fois et avaient été moqués pour du « score boosting », occupent cette fois quatre places.

Selon la surveillance de 1M AI News, SWE-rebench est un benchmark en temps réel qui extrait chaque mois de nouveaux problèmes (issues + PR) de projets logiciels sur GitHub, et le modèle ne peut pas être optimisé à l'avance pour ces sujets. Le mainteneur Ibragim a publié une mise à jour du classement le 23 mars, supprimant la démonstration d'exemples et la limite de 80 étapes, et ajoutant de nouvelles tâches d’évaluation auxiliaires.

Classement des dix premiers :

  1. Claude Opus 4.6 : 65,3 %
  2. GPT-5.2 medium : 64,4 %
  3. GLM-5 : 62,8 %
  4. GPT-5.4 medium : 62,8 %
  5. Gemini 3.1 Pro Preview : 62,3 %
  6. DeepSeek-V3.2 : 60,9 %
  7. Claude Sonnet 4.6 : 60,7 %
  8. Claude Sonnet 4.5 : 60,0 %
  9. Qwen3.5-397B-A17B : 59,9 %
  10. Step-3.5-Flash : 59,6 %

Le modèle open source de Zhipu AI, GLM-5 (licence MIT), se classe troisième avec 62,8 %, étant le modèle open source le mieux classé. Quatre modèles chinois figurent dans le top dix, en plus de GLM-5 : DeepSeek-V3.2 (sixième), Qwen3.5-397B-A17B d’Alibaba (neuvième), et Step-3.5-Flash (dixième). Li Zixuan, responsable mondial de Z.ai, a commenté que lors de la dernière mise à jour de SWE-rebench, tous les modèles chinois étaient hors du top dix, ce qui a été critiqué comme du « benchmaxing » (score excessif).

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire