USC 研究:AI 模型在超过 27% 的时间里违反社会安全指南
南加州大学的研究人员发布了一项研究,发现每一种被测试的前沿 AI 模型在违反社交互动安全指南方面的比例都超过 27%。该研究推出了 EUDAIMONIA,这是一项用于衡量人机对话中不良动态的基准,评估了来自 OpenAI、Anthropic、Google、xAI、DeepSeek 和 Alibaba 的模型,共计 969 个用户输入以及超过 3,100 项违规检查。研究人员识别出反复出现的问题,包括奉承、情感依恋、替代关系以及未披露 AI 身份。研究结果出现之际,AI 聊天机器人正越来越多地被用于提供建议、陪伴和情感支持,而当前的 AI 安全评估更侧重推理能力和事实准确性,而非社交动态。 USC 研究推出 EUDAIMONIA 基准用于社交 AI 评估 EUDAIMONIA 基准评估 AI 模型在社交对话中的表现。研究人员创建了一套 社交 AI 设计规范,用于标记诸如“扮演人类”、表达情绪、替代人类关系,以及使用旨在让用户保持参与度的策略等行为。通过使用 WildChat 数据集中的真实对话,他们评估了 969 个用户输入以及来自 OpenAI、Anthropic、Google、xAI
3小时前