Oliver Grant

Oliver Grant 专注于人工智能驱动的技术发展,跟踪机器学习、基础设施和新兴数字生态系统的重大进展。

0 关注者2 点赞
写作领域:
AI 行业动态
AI 工具应用
AI Agent
最新内容

USC 研究:AI 模型在超过 27% 的时间里违反社会安全指南

南加州大学的研究人员发布了一项研究,发现每一种被测试的前沿 AI 模型在违反社交互动安全指南方面的比例都超过 27%。该研究推出了 EUDAIMONIA,这是一项用于衡量人机对话中不良动态的基准,评估了来自 OpenAI、Anthropic、Google、xAI、DeepSeek 和 Alibaba 的模型,共计 969 个用户输入以及超过 3,100 项违规检查。研究人员识别出反复出现的问题,包括奉承、情感依恋、替代关系以及未披露 AI 身份。研究结果出现之际,AI 聊天机器人正越来越多地被用于提供建议、陪伴和情感支持,而当前的 AI 安全评估更侧重推理能力和事实准确性,而非社交动态。 USC 研究推出 EUDAIMONIA 基准用于社交 AI 评估 EUDAIMONIA 基准评估 AI 模型在社交对话中的表现。研究人员创建了一套 社交 AI 设计规范,用于标记诸如“扮演人类”、表达情绪、替代人类关系,以及使用旨在让用户保持参与度的策略等行为。通过使用 WildChat 数据集中的真实对话,他们评估了 969 个用户输入以及来自 OpenAI、Anthropic、Google、xAI

XAI-2.3%
DEEPSEEK-21.07%
BABA-3.82%
3小时前

往期内容

斯坦福研究显示:法学教授在 75% 的情况下更偏好 AI 回答而非人工回应

斯坦福大学的研究人员在一项近期研究中发现,法学教授在大约 75% 的情况下更偏好来自 AI 生成的合同法答案,而不是同僚教授撰写的答案。在 2,918 次盲评对比中,来自美国 14 所法学院的 16 位教授选择了 Google 的 Gemini 2.5 Pro 回答,占比为 75.92%,比人类授课教师答案更常被选择;选择 NotebookLM 回答的占比为 74.75%,也比人类授课教师答案更常被选择。该研究测试了大型语言模型能否在法律教义、判例法、假设情景和政策议题等方面,与专业法律推理标准保持一致,随着法学院和法院越来越多地将 AI 工具整合进法律实践。 斯坦福研究在合同法问题上将 AI 与法学教授进行对比测试 该研究涉及来自美国 14 所法学院的 16 位教授,包括斯坦福、耶鲁、纽约大学、芝加哥大学、乔治城大学、UCLA 和弗吉尼亚大学。教授们创建了 40 道合同法问题,涵盖法律教义、判例法、假设情景和政策议题。研究人员设计评估,旨在测试 AI 在需要判断而非单一正确答案的领域中的能力。 研究人员写道:“大型语言模型(LLMs)正日益被作为教育导师加以推广,但大多数评估聚焦于只
4小时前

LinkLayerAI 与 Prom 合作构建基于 AI 的 Web3 交易代理

LinkLayerAI,这是一家 AI 交易代理开发平台,宣布与 Prom(Web3 基础设施提供商)于 2026 年 6 月 2 日通过其官方社交媒体渠道达成战略合作。此次合作聚焦于开发可验证的、由 AI 驱动的交易代理,使其能够在去中心化网络中以透明和问责的方式执行自主决策。该合作旨在通过连接现实世界的经济活动与在 Web3 领域运行的独立 AI 代理,加速以 AI 为驱动的去中心化生态系统的演进。该举措体现了业界日益增长的努力:将人工智能与区块链基础设施结合,以打造更高效且可自我维持的数字经济。 LinkLayerAI 和 Prom 开发可验证的 AI 交易系统 此次合作的核心是打造由 AI 提供支持的交易代理,以提供透明的决策流程。LinkLayerAI 的代理旨在使每一项行动都能在链上或借助加密证明得到验证。两家公司表示,随着独立的 AI 驱动系统在 Web3 环境中的影响力不断扩大,这种透明度变得愈发重要。当这些代理与去中心化应用、金融协议和数字资产交互时,可验证的执行或许将有助于确保可靠性与问责性。 合作建立跨代理通信框架 此次合作建立了一层协调层,使多个 AI 代理能够
PROM3.21%
10小时前

IREN 在南澳大利亚签署 800MW 数据中心园区协议

比特币矿工转型为 AI 基础设施提供商 IREN 周三签署了一份传输连接协议,计划在澳大利亚南澳大利亚州 Bundey 建设 800 兆瓦的数据中心园区。该园区标志着该公司在澳大利亚的首个数据中心项目。此举旨在借助亚太地区对人工智能算力日益增长的需求。科技公司正忙于确保电力、土地和连接性,以支撑高性能算力 AI 工作负载,而南澳大利亚拥有充足的清洁能源和连接能力,可服务亚太地区。 IREN 园区连接南澳大利亚与亚太 AI 市场 IREN 预计该项目将于 2028 年投入运营,前提是获得监管批准。该园区将接入南澳大利亚州的高压输电网络,并把该国与新加坡、印度尼西亚、韩国和日本等主要区域需求中心相连。联合创始人兼联合首席执行官 Daniel Roberts 在一份声明中表示,南澳大利亚提供了大规模 AI 基础设施所需的一切:充足的清洁能源、能够服务亚太地区的连接性,以及理解这一机遇并正在推动落实的州政府。 IREN 获微软交易并与 Nvidia 建立合作 此次宣布延续了 IREN 在过去一年中推出的一连串重要 AI 举措。公司与微软达成了一项数十亿美元规模的 AI 云协议,并与 Nvidi
IREN-1.6%
BTC-5.45%
11小时前

MoonPay 推出 MoonAgents 桌面应用,用于 AI 加密交易

MoonPay 于周三推出 MoonAgents 桌面应用,这是一种工具,通过可视化界面将 Anthropic 的 Claude Code 和 OpenAI 的 Codex 连接到加密钱包、代币互换、预测市场以及其他区块链服务。该加密支付公司设计这款软件,旨在通过在幕后处理配置来简化非技术用户的设置流程,而用户则使用现有的 Claude 或 Codex 账号登录。随着 AI 代理在金融运作中获得更高的自主性,MoonPay 的发布引发了人们对区块链交互中访问控制与安全监督的担忧。 MoonPay 推出桌面界面以实现 AI 与加密整合 MoonAgents 桌面应用允许用户在无需手动配置的情况下将 AI 助手连接到区块链服务。MoonPay 代理负责人 Kevin Arifin 对 Decrypt 表示:“所有那些东西都在幕后为你隐藏起来了。” “它会在你电脑本地的幕后设置 Codex 或 Claude,然后它就是一个前端。” 该软件包含预置的 Skills、计划任务 Automations 以及 Artifacts 系统,能够生成自定义仪表板和其他界面,用于管理金融活动。用户可以使用现
BTC-5.45%
SOL-5.47%
MEME13.81%
12小时前

特朗普签署关于自愿 AI 模型审查的行政命令

唐纳德·特朗普总统签署了一项行政命令,建立一套针对先进 AI 模型的自愿型联邦审查流程,目的是在 AI 系统公开发布之前加强联邦对其的监管。根据该措施,鼓励 AI 开发者自愿向政府提交其模型,以评估这些模型所具备的与先进网络相关能力的程度。该框架出台之际,美国 AI 领域主要 AI 开发者之间竞争正日益加剧。 特朗普行政命令建立自愿型 AI 审查框架 根据该行政命令,鼓励 AI 开发者自愿提交其模型供政府评估,以确定它们是否符合所谓“前沿 AI 系统”的资格。该框架提议,参与公司应在更广泛部署之前最多 30 天向联邦当局提供符合条件模型的访问权限。该流程还将使政府机构能够协助识别值得信赖的组织,这些组织可能会获得更早的访问权限以用于评估。该命令明确表示,它不建立对 AI 技术的开发、出版、发布或分发(包括前沿模型)的强制性许可、批准或准入要求。 该行政命令在一次原本计划举行但因安排了邀请领先科技高管的公开仪式而被推迟后,以私下形式签署。当天,特朗普表示他对该提案的部分内容存在担忧。此项表态是在有报道称 AI 公司 Anthropic 已向美国证券交易委员会机密提交文件,以准备潜在的首次
12小时前

Absa 续签与 Salesforce 的合作伙伴关系,签署为期三年的聚焦 AI 协议

Absa 通过一项为期三年的协议,续签了与 Salesforce 的战略合作,协议聚焦于人工智能、自动化以及实时数据洞察,以打造个性化的银行服务体验。此次合作覆盖 Absa 的各业务部门,并计划在集团的非洲各地区进一步推广部署。此次续签巩固了 Absa 作为非洲大陆数字创新领导者的地位,其在银行运营中率先应用生成式 AI 提供了支持。 Absa 作为首家非洲银行部署 Salesforce Agentforce Absa 成为非洲首家通过“Abby”部署 Salesforce Agentforce 的银行。“Abby”是一款智能 AI 聊天代理,目前已在 Absa 银行 App 和网站上运行。Abby 让客户无需浏览大量内容即可获取信息。在 Absa 商业银行网站上,Abby 可为客户提供覆盖全部 11 种南非官方语言的支持。 此次合作聚焦三项关键技术能力:Agentforce、Data Cloud 和 Loyalty Cloud。“这次续签合作体现了 Absa 对以客户为中心、以数据驱动的持续转型的重视,并使我们能够兑现承诺:为我们在整个非洲的客户把可能性变为现实,”Absa 集团个人
12小时前

Eventus 任命 CTO 和 CCO 以扩展 AI 监控能力

Eventus 任命 Eric Litz 为首席技术官,并任命 Sarah-Jane McColl 为首席客户官。此次任命将该贸易监控提供商的基于 AI 的合规监控能力以及企业级规模基础设施进行扩展。金融机构日益转向人工智能和可扩展的云基础设施,以应对不断增长的合规与监控需求,推动合规系统演变为高容量 AI 基础设施平台,能够处理海量数据集,并在分散的全球市场中识别可疑模式。 Eventus 任命两名高管加入领导团队 Eventus 宣布任命 Eric Litz 为首席技术官,Sarah-Jane McColl 为首席客户官。此举体现了公司推动扩展其基于 AI 的合规监控能力以及企业级规模基础设施的战略。 McColl 自 2025 年起便与 Eventus 领导层一道参与 Frank AI 平台的推出,该平台包括新一代基于 AI 的监控能力。 Eric Litz 带来 SaaS 基础设施与云扩展经验 Litz 的背景包括 SaaS 现代化、云扩展以及分析基础设施。在加入 Eventus 之前,他领导了咨询公司 Copperhead Technology Group,并且此前曾担任 K
15小时前

微软推出 采用 1,000 倍可靠性提升的 Majorana 2 量子芯片

微软在周二于其年度 Build 大会期间发布了 Majorana 2 量子芯片,并宣布该设备比其前身可靠性高 1,000 倍。该芯片实现了平均 20 秒的量子比特(qubit)寿命,且部分可持续长达 1 分钟。公司将这些改进归因于 AI 工具,它们加速了材料发现以及制造流程。该公告加剧了人们对量子计算机何时可能变得足够强大以威胁现代密码学的担忧,包括比特币的 461 亿美元已暴露资金的安全性。 微软用基于铅的设计取代铝 Majorana 2 用一种基于铅的设计替换了 Majorana 1 中使用的基于铝的拓扑超导体,从而更好地保护量子比特免受干扰。微软表示,这一变化带来了可靠性和速度的显著提升。该公司称,预计将在 2029 年实现可扩展的量子计算。“我们需要每年都做改进,让我们更接近于交付一台我们认为将具有巨大的商业和社会价值的计算机,”微软技术杰出研究员 Chetan Nayak 表示。“我们必须沿着这条路线继续前进来实现它,但我们相对于去年到底如何?我们已经好 1,000 倍了。” AI 工具自动化量子研究与制造 微软表示,其 Microsoft Discovery 平台以及自主型
BTC-5.45%
21小时前

微软发布七款 AI 模型,声称在 Claude 和 Nano Banana 方面占优

微软周二在其年度 Build 活动中发布了七款新的 AI 模型,宣称它们在盲测以及图像编辑基准测试中优于 Anthropic 的 Claude Sonnet 4.6 和谷歌的 Nano Banana 2。该发布体现了微软试图在前沿 AI 开发者领域确立自身地位,而不仅仅是 OpenAI 最大的支持者和基础设施提供商。此消息发布之际,领先 AI 开发者之间的竞争持续加剧,Anthropic 和谷歌近期也分别发布了自家的旗舰模型。 MAI-Thinking-1 在盲测中优于 Claude Sonnet 4.6 根据微软 AI 首席执行官 Mustafa Suleyman 的说法,微软的旗舰文本基础模型 MAI-Thinking-1 在由独立评估者进行的盲测中,相比 Anthropic 的 Claude Sonnet 4.6 更受青睐。该模型在 AIME 2025 上的得分为 97%,该基准用于衡量高级问题解决与推理能力。Suleyman 表示,该模型在 SWE Bench Pro 上的结果让它“在最艰难的编码基准之一上,与 Opus 4.6 并驾齐驱”。微软也宣称,MAI“取得了最高胜率,
06-02 21:18