OpenAI 將哥布林問題追溯到書呆子個性獎勵訊號,哥布林提到 GPT-5.1 中飆升 175%

根據 OpenAI 的說法,該公司已找出自 GPT-5.1 起困擾 GPT 模型的「goblin」問題的根本原因。先前曾用來強化「Nerdy(書呆子)」人格特質的獎勵訊號,鼓勵輸出包含奇幻生物的提及;訓練資料集中的 76.2% 顯示出這種偏誤。「Nerdy(書呆子)」人格僅佔 ChatGPT 回覆的 2.5%,但卻貢獻了 66.7% 的 goblin 提及,其出現次數則在 GPT-5.2 到 GPT-5.4 之間暴增 3,881%。

OpenAI 在 3 月移除了「Nerdy(書呆子)」人格、取消了帶偏誤的獎勵訊號,並過濾了訓練資料。該公司也在 Codex 中將抑制指令加入 GPT-5.5 的開發者提示詞。此次調查促成了新模型行為稽核工具的開發。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆