Insinyur Ant melakukan reverse engineering pada kode sumber Claude Code: Pipeline Keputusan Empat Tingkat Auto Mode dan Mekanisme Pengklasifikasi Keamanan Terungkap

BlockBeatNews

Menurut pemantauan 1M AI News, insinyur Ant Group dan penulis kerangka depan Umi.js, Chen Cheng, melakukan reverse engineering kode sumber Claude Code 2.1.81 dan secara lengkap merekonstruksi apa yang terjadi setelah tombol auto mode ditekan. Temuan utama: setiap panggilan alat harus melewati sebuah pipeline pengambilan keputusan empat lapis, hanya jika tiga lapis pertama tidak dapat menentukan, maka akan dipanggil classifier AI independen untuk pemeriksaan keamanan.

Pipeline empat lapis tersebut adalah: lapis pertama memeriksa aturan izin yang ada, jika cocok langsung dilewati; lapis kedua mensimulasikan mode acceptEdits (yaitu izin mengedit file), jika dalam mode ini dilewati, menunjukkan risiko sangat rendah, dan melewati classifier; lapis ketiga memeriksa whitelist alat read-only (Read, Grep, Glob, LSP, WebSearch, dll), yang tidak mengubah status apa pun, dilewati tanpa syarat; jika semua tidak terpenuhi, baru masuk ke lapis keempat, mengirim permintaan API independen ke Claude Sonnet untuk klasifikasi keamanan.

Beberapa detail penting dalam desain classifier: selalu menggunakan Sonnet bukan Opus, sebagai pertimbangan biaya dan latensi; suhu diatur ke 0 untuk memastikan output deterministik; classifier didefinisikan sebagai "pengawas keamanan agen AI otonom", melindungi tiga risiko utama (injeksi prompt, penyebaran lingkup, kerusakan tak terduga); file konfigurasi CLAUDE.md pengguna akan diinjeksi ke dalam konteks classifier sebagai dasar penilaian niat pengguna.

Aturan intercept mencakup lebih dari 22 kategori, termasuk force push, push langsung ke cabang utama, mengunduh dan menjalankan kode eksternal, deployment produksi, kebocoran data, modifikasi izin sendiri, pembuatan celah eksekusi kode jarak jauh, kebocoran kredensial, dan lain-lain. Pengecualian izin diberikan untuk 7 kategori: kunci keras yang digunakan untuk pengujian, operasi file lokal dalam direktori kerja, permintaan GET read-only, instalasi dependensi yang telah dideklarasikan, instalasi toolchain resmi, membaca kredensial konfigurasi yang dikirim ke penyedia target, dan push ke cabang kerja saat ini.

Selain itu, ada mekanisme pemutus sirkuit: setelah 3 kali penolakan berturut-turut atau total 20 kali penolakan, sistem akan turun ke mode konfirmasi manual; dalam mode headless, agen langsung dihentikan. Ketika classifier tidak tersedia, dikendalikan oleh fitur flag yang menentukan apakah "fail-closed" (langsung tolak) atau "fail-open" (turun ke konfirmasi manual).

Dalam mode auto, injeksi kata kunci perilaku juga dikontrol secara frekuensi: setiap 5 putaran dialog, dilakukan injeksi sekali; dari 5 injeksi tersebut, yang pertama adalah versi lengkap (sekitar 800 kata, berisi "eksekusi langsung, mengurangi gangguan, tindakan lebih baik dari rencana" dan enam instruksi lainnya), sisanya 4 kali adalah versi ringkas, menjaga keseimbangan antara penggunaan ruang konteks dan stabilitas perilaku.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar