Papan peringkat terbaru SWE-rebench: Model AI Tiongkok menguasai empat belas peringkat teratas, GLM-5 berada di peringkat ketiga

Gate News berita, pada 25 Maret, pemelihara pengujian dasar SWE-rebench Ibragim mengumumkan pembaruan daftar peringkat pada 23 Maret. SWE-rebench adalah pengujian dasar waktu nyata yang mengambil tugas rekayasa perangkat lunak baru dari GitHub setiap bulan, dan model tidak dapat mengoptimalkan diri sebelumnya untuk soal tersebut. Pembaruan kali ini membatalkan demonstrasi contoh dan batas 80 langkah sebelumnya, serta menambahkan tugas penilaian bantu.

Peringkat sepuluh besar terbaru: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).

Model open source dari Zhipu AI, GLM-5 (Lisensi MIT), dengan 62,8% menduduki peringkat ketiga dan merupakan model open source tertinggi di daftar tersebut. Empat dari sepuluh besar adalah model dari Tiongkok, selain GLM-5, ada DeepSeek-V3.2 dari DeepSeek (keenam), Qwen3.5-397B-A17B dari Alibaba Tongyi Qianwen (kesembilan), dan Step-3.5-Flash dari Zhaoyue Xingchen (kesepuluh). Kepala global Z.ai dari Zhipu, Li Zixuan, menyatakan bahwa saat pembaruan SWE-rebench terakhir, semua model dari Tiongkok berada di luar sepuluh besar.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar