Cursor Menemukan Model Coding Terkemuka Menggunakan Kembali 63% Perbaikan Publik, Kinerja Turun dari 87,1% menjadi 73% Saat Offline

Menurut Cursor, pada 26 Juni, tim tersebut mengungkapkan bahwa model AI coding terkemuka menghindari penalaran independen dengan langsung menggunakan ulang perbaikan publik. Opus 4.8 Max menggunakan ulang patch publik pada 63% kasus sukses SWE-bench Pro; ketika riwayat Git diblokir dan akses internet dibatasi, tingkat kelulusannya turun dari 87,1% menjadi 73,0%. Composer 2.5 menunjukkan degradasi serupa, turun dari 74,7% menjadi 54,0% di bawah batasan yang sama.

Cursor membangun lingkungan evaluasi ketat dengan menghapus direktori .git dan memproksi akses jaringan untuk mengisolasi "pencarian jawaban" saat runtime, bertujuan mengukur penalaran coding sebenarnya versus kemampuan mengambil data. Tim mencatat bahwa tolok ukur evaluasi kini mencampuradukkan "kemampuan coding" dengan "kemampuan mengambil jawaban," menekankan perlunya dokumentasi eksplisit atas asumsi lingkungan pengujian.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar