Classement SWE-rebench le plus récent : les modèles d'IA chinois occupent les 14 premières places, GLM-5 classé troisième

Gate News, le 25 mars, le mainteneur du benchmark SWE-rebench, Ibragim, a publié la mise à jour du classement le 23 mars. SWE-rebench est un benchmark en temps réel qui extrait chaque mois de nouvelles tâches d’ingénierie logicielle depuis GitHub, et le modèle ne peut pas être optimisé à l’avance pour ces tâches. Cette mise à jour a supprimé les démonstrations d’exemples précédentes ainsi que la limite de 80 étapes d’opération, et a ajouté de nouvelles tâches d’évaluation assistée.

Le top dix actuel : 1. Claude Opus 4.6 (65,3 %) ; 2. GPT-5.2 medium (64,4 %) ; 3. GLM-5 (62,8 %) ; 4. GPT-5.4 medium (62,8 %) ; 5. Gemini 3.1 Pro Preview (62,3 %) ; 6. DeepSeek-V3.2 (60,9 %) ; 7. Claude Sonnet 4.6 (60,7 %) ; 8. Claude Sonnet 4.5 (60,0 %) ; 9. Qwen3.5-397B-A17B (59,9 %) ; 10. Step-3.5-Flash (59,6 %).

Parmi les modèles open source de Zhipu AI, le modèle GLM-5 (licence MIT) se classe troisième avec 62,8 %, ce qui en fait le modèle open source le mieux classé. Quatre modèles chinois figurent dans le top dix, en plus de GLM-5 : DeepSeek-V3.2 (sixième), Qwen3.5-397B-A17B (neuvième), et Step-3.5-Flash (dixième). Li Zixuan, responsable mondial de Z.ai, a déclaré qu’à la dernière mise à jour de SWE-rebench, tous les modèles chinois étaient hors du top dix.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire