Selon la surveillance de 1M AI News, SWE-rebench est un benchmark en temps réel qui extrait chaque mois de nouveaux problèmes (issues + PR) de projets logiciels sur GitHub, et le modèle ne peut pas être optimisé à l'avance pour ces sujets. Le mainteneur Ibragim a publié une mise à jour du classement le 23 mars, supprimant la démonstration d'exemples et la limite de 80 étapes, et ajoutant de nouvelles tâches d’évaluation auxiliaires.
Classement des dix premiers :
Le modèle open source de Zhipu AI, GLM-5 (licence MIT), se classe troisième avec 62,8 %, étant le modèle open source le mieux classé. Quatre modèles chinois figurent dans le top dix, en plus de GLM-5 : DeepSeek-V3.2 (sixième), Qwen3.5-397B-A17B d’Alibaba (neuvième), et Step-3.5-Flash (dixième). Li Zixuan, responsable mondial de Z.ai, a commenté que lors de la dernière mise à jour de SWE-rebench, tous les modèles chinois étaient hors du top dix, ce qui a été critiqué comme du « benchmaxing » (score excessif).