OpenAI Melacak Masalah Goblin ke Sinyal Hadiah Kepribadian yang “Nerdy”, Sebutan Goblin Melonjak 175% di GPT-5.1

Menurut OpenAI, perusahaan itu mengidentifikasi akar masalah “goblin” yang menghantui model GPT mulai dari GPT-5.1 dan seterusnya. Sinyal imbalan yang digunakan untuk memperkuat sifat kepribadian “Nerdy” mendorong keluaran yang berisi rujukan makhluk fantasi, dengan 76,2% dari kumpulan data pelatihan menunjukkan bias ini. Kepribadian Nerdy hanya menyumbang 2,5% dari respons ChatGPT, tetapi berkontribusi 66,7% terhadap penyebutan goblin, dengan kemunculannya melonjak 3.881% dari GPT-5.2 ke GPT-5.4.

OpenAI menghapus kepribadian Nerdy pada bulan Maret, menghilangkan sinyal imbalan yang bias, dan menyaring data pelatihan. Perusahaan itu juga menambahkan instruksi penekanan ke prompt pengembang GPT-5.5 di Codex. Investigasi tersebut menghasilkan pengembangan alat audit perilaku model baru.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar