Kimi K2 Thinking menciptakan rekor baru dalam penilaian standar untuk menilai kemampuan penalaran, pengkodean, dan agen.

GateNews
Data Jinshi 8 November, menurut situs resmi Shadow of the Moon, Kimi K2 Thinking mencatat rekor baru dalam penilaian standar kemampuan penalaran, pengkodean, dan agen. K2 Thinking meraih skor SOTA sebesar 44,9% dalam penilaian standar HLE, mencapai 60,2% dalam pengujian BrowseComp, dan 71,3% dalam pengujian SWE-Bench Verified, menunjukkan kemampuan generalisasi yang kuat sebagai model agen berpikir paling canggih.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar