Згідно з моніторингом 1M AI News, SWE-rebench — це щомісячний реальний бенчмарк, який витягує нові завдання з GitHub (issue + PR). Модель не може попередньо оптимізуватися під завдання. Відповідальний Ібрагім опублікував оновлення рейтингу 23 березня, скасувавши попередні демонстраційні приклади та обмеження у 80 кроків, додавши допоміжні оцінювальні завдання.
Останні топ-10 рейтингів:
Відкритий модельний проект GLM-5 (ліцензія MIT) від Z.ai посідає третє місце з показником 62.8%, що є найвищим серед відкритих моделей у рейтингу. Чотири китайські моделі входять до топ-10: окрім GLM-5, це DeepSeek-V3.2 (шосте місце), Qwen3.5-397B-A17B (дев’яте) та Step-3.5-Flash (десяте). Керівник глобального напрямку Z.ai Лі Цзюсянь прокоментував, що під час останнього оновлення SWE-rebench всі китайські моделі опинилися поза топ-10, і їх звинуватили у «benchmaxing» (збільшенні балів).