OpenAI 追踪 Goblin 问题到书呆子型人格奖励信号,Goblin 提到其在 GPT-5.1 中飙升 175%

根据 OpenAI, 该公司确定了从 GPT-5.1 开始困扰 GPT 模型的“哥布林”问题的根本原因。用于强化“书呆子(Nerdy)”人格特质的奖励信号,鼓励生成包含奇幻生物引用的内容,而 76.2% 的训练数据集显示存在这种偏置。“书呆子(Nerdy)”人格仅占 ChatGPT 回答的 2.5%,但却贡献了 66.7% 的“哥布林(goblin)”提及,且从 GPT-5.2 到 GPT-5.4 的出现次数飙升了 3,881%。

OpenAI 于 3 月移除了“书呆子(Nerdy)”人格,消除了有偏置的奖励信号,并对训练数据进行了过滤。该公司还在 Codex 中为 GPT-5.5 的开发者提示加入了抑制指令。此次调查促成了新模型行为审计工具的开发。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论