Artificial Analysis Merilis Tolok Ukur Agen Pengekodean; Zhipu GLM-5.1 Menempati Peringkat Pertama di Antara Model Open-Source

Artificial Analysis merilis Index Agen Koding baru hari ini untuk mengevaluasi bagaimana model AI berperforma saat digabungkan dengan framework agen di berbagai tolok ukur utama, termasuk SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, dan SWE-Atlas-QnA. Zhipu GLM-5.1 menempati peringkat pertama di antara model open-source dalam evaluasi, menunjukkan performa terdepan pada skenario agen koding di dunia nyata.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar