Model China kali ini menempati empat posisi teratas dalam SWE-rebench, berbeda dengan pengalaman sebelumnya yang seluruhnya jatuh di luar sepuluh besar dan mendapat ejekan tentang "memanipulasi skor".

Menurut pemantauan 1M AI News, SWE-rebench adalah sebuah pengujian standar waktu nyata yang mengambil tugas rekayasa perangkat lunak terbaru (issue + PR) dari GitHub setiap bulan, dan model tidak dapat mengoptimalkan diri sebelumnya untuk soal tersebut. Pemelihara Ibragim mengumumkan pembaruan daftar peringkat pada 23 Maret, membatalkan demonstrasi contoh dan batasan 80 langkah sebelumnya, serta menambahkan tugas penilaian bantu.

Peringkat sepuluh besar terbaru:

  1. Claude Opus 4.6: 65,3%
  2. GPT-5.2 medium: 64,4%
  3. GLM-5: 62,8%
  4. GPT-5.4 medium: 62,8%
  5. Gemini 3.1 Pro Preview: 62,3%
  6. DeepSeek-V3.2: 60,9%
  7. Claude Sonnet 4.6: 60,7%
  8. Claude Sonnet 4.5: 60,0%
  9. Qwen3.5-397B-A17B: 59,9%
  10. Step-3.5-Flash: 59,6%

Model open-source dari Z.ai, GLM-5 (berlisensi MIT), menempati posisi ketiga dengan skor 62,8%, menjadi model open-source tertinggi di daftar tersebut. Empat dari sepuluh besar adalah model dari Tiongkok, selain GLM-5, ada juga DeepSeek-V3.2 ( posisi keenam), Qwen3.5-397B-A17B dari Alibaba (posisi kesembilan), dan Step-3.5-Flash (posisi kesepuluh). Kepala global Z.ai, Li Zixuan, berkomentar bahwa saat pembaruan SWE-rebench terakhir, semua model dari Tiongkok berada di luar sepuluh besar, dan hal ini dikritik sebagai "benchmaxing" (meningkatkan skor secara berlebihan).

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar