News | Gate 新闻

今天

15:33

StepFun 的 StepAudio 2.5 实时版登顶五项语音 AI 基准，胜过 GPT Realtime 1.5

总部位于上海的 AI 实验室 StepFun 本周发布了 StepAudio 2.5 Realtime，这是一款端到端的实时语音模型，支持中文和英文。根据 StepFun 的测试，该模型在 2026 年 4 月接受测试的所有五项语音 AI 基准中均名列前茅，表现优于 OpenAI 的 GPT Realtime 1.5 和谷歌的 Gemini Live。在副语言理解基准上——在 0–100 的量表上衡量情感和语速等声学特征感知能力——StepAudio 得分为 82.18，而 GPT Realtime 1.5 为 80.46，Gemini Live 为 58.05。在人类评估测试中，StepAudio 的得分为 80.41，而 GPT Realtime 1.5 为 68.01、Gemini Live 为 67.16。StepFun 使用一个百万级角色画像数据集训练了该模型，并结合针对角色扮演的强化学习，以在长时间对话中保持角色一致性。

展开

02:13

OpenAI GPT-5.6 实现 UI 清理突破，在最新内部构建中生成极简设计应用

AI 行业动态

根据 Beating monitor，OpenAI 下一代模型 GPT-5.6（内部代号 iris-alpha）在 UI 设计生成方面取得了显著突破，解决了此前前端输出质量较差的问题。在其最新版本中，该模型生成了一款名为 Lumen Notes 的极简设计笔记应用，具备成熟的网格布局和精炼的审美风格——与生成式 AI 输出中常见的杂乱、程式化界面形成鲜明对比。该改进体现了 OpenAI 专注于克服前端代码生成限制的努力。预计 GPT-5.6 将于 6 月正式发布，并将与 Anthropic 的 Claude Artifacts 直接竞争高质量、可用于生产的代码生成。

09:29

Cloudflare 测试显示 Anthropic Mythos 预览可将漏洞串联为可运行的攻击

AI 行业动态

据 Cloudflare 称，安全模型 Mythos Preview 在今天对超过 50 个代码库的测试中展示了能够自主编写代码，并将多个低风险漏洞串联起来，形成可执行的概念验证攻击的能力。在测试中，该模型不仅识别了孤立的系统缺陷，还进一步生成了攻击链——编写并编译代码以触发漏洞，通过读取错误信息进行自我纠正，并反复迭代，直到成功突破完整攻击路径。与此前的模型（如 Opus 4.7 或 GPT-5.5）相比，这标志着能力的重大进步；这些模型通常停留在漏洞分析层面，而不会生成可运行的漏洞利用程序。

01:29

OpenClaw 在 Android 上推出 v2026.5.18，提供实时语音，增加对完整 GPT-5 的支持

AI 行业动态

根据 Beating，OpenClaw 于 5 月 18 日发布了 v2026.5.18 版本，为 Android 带来实时语音对话，并提供对 GPT-5.1、GPT-5.2、GPT-5.3 以及 openai-codex 模型的完整支持。Android 更新使开发者能够使用流式麦克风输入并进行实时音频播放，在语音会话期间通过工具结果桥接实现工具调用的即时同步，并提供实时字幕。该发布还为开发者引入了简化的 defineToolPlugin 接口，用于创建具备强类型支持的工具扩展。

02:37

Google Cloud 推出 Gemini 3.2 Flash Lite 模型，其推理成本比 GPT-5.5 低 95%

AI 行业动态

据 Beating.AI 监测，截至 5 月 17 日，一种名为 gemini-3.2-flash-lite-live-preview 的新模型选项已出现在 Google Cloud 的模型选择列表中。“lite”和“live”后缀表明，Google 正在打造一种针对超低延迟实时交互进行优化的专用版本。 Abacus.AI 首席执行官 Bindu Reddy 此前披露，Gemini 3.2 Flash 在保持推理成本仅为 GPT-5.5 的 1/20 的同时，实现了 GPT-5.5 编码与推理能力的 92%，且大多数查询的响应时间低于 200 毫秒。行业观察人士预计，这款注重成本优化的轻量模型将于 5 月 20 日在 Google I/O 上正式发布。

展开

13:14

OpenAI 修复导致 GPT-5.5 Codex 性能退化的两个漏洞，重置用户使用限制

AI 行业动态

根据 Tibo（OpenAI 的 Codex 负责人）的说法，团队已识别并修复了两个问题，这些问题导致 GPT-5.5 在过去 48 小时内的代码智能平台性能下降。系统已完全恢复。为补偿用户，OpenAI 将在今晚重置所有使用限制，正如 Beating 监测所报道。

CODEX0.58%

09:16

OpenAI 为 ChatGPT Pro 用户推出金融管理服务

AI 行业动态

据 PANews 报道，OpenAI 于 5 月 16 日宣布了一项面向美国 ChatGPT Pro 用户的个人财务管理服务。该服务使用户能够将银行和投资账户安全连接到 ChatGPT，查看现金流仪表盘，并根据其个人情况接收由 AI 提供的财务指导，同时保持对数据的完全控制。OpenAI 表示，该功能并非专业理财建议的替代品，而是将复杂的个人理财问题与 GPT-5.5 的推理能力相结合，以提供量身定制的解决方案。公司计划逐步将该服务扩展至 Plus 及所有用户。用户可随时断开账户连接或删除财务数据；所有账户信息仅用于个性化财务服务，且不会被修改。

08:09

DeepSeek 数据泄露警报被证实为误报；特殊代币触发的是模型记忆，而非多租户泄露

AI 行业动态

根据 Beating 的监控，最近一则病毒式传播的说法声称，在 DeepSeek 的聊天框中输入诸如这样的特殊标记，可能会暴露其他用户的对话，并被归类为 P0 级多租户隔离故障。实际上，这种现象与数据隔离无关。使用这些标记触发后，模型会进入其训练时的格式模式，并基于自身记忆和系统提示生成虚构对话——而不是从其他会话进行实时检索。这就是训练数据提取，这是所有大型语言模型中的共享漏洞，并非 DeepSeek 独有。Google DeepMind 在 2023 年发布的研究表明，特殊输入可以从 GPT 和 PaLM 中提取训练数据。ICLR 2025 的 Magpie 论文直接利用了这种机制。声称泄露内容包含今天日期的说法并不能证明存在多租户隔离故障，因为 DeepSeek 会在其系统提示中包含当前日期，而模型也会自然地将其融入生成输出中。

展开

DEEPSEEK-4.06%

19:51

Moonshot AI 发布 Kimi WebBridge 浏览器扩展，K2.6 模型在 SWE-Bench Pro 上以 58.6% 分数排名第一

AI 行业动态

AI Agent

Moonshot AI 于 2026 年 4 月发布 Kimi WebBridge，这是一款用于 AI 代理的浏览器扩展。该扩展完全在你的本地机器上运行，并使用 Chrome DevTools Protocol，这意味着登录会话和页面内容从不进入 Moonshot 的服务器。代理可以在网站上搜索、点击、输入并提取数据，同时为银行应用、电子邮件和内部工具保留隐私。Kimi WebBridge 官方支持 Claude Code、Cursor、Codex 和 Hermes，使其不依赖特定代理。底层的 Kimi K2.6 模型在 SWE-Bench Pro 上以 58.6% 的成绩排名第一，领先 GPT-5.4 的 57.7% 以及 Claude Opus 4.6 的 53.4%。

09:41

Vals AI 发布金融代理 v2 基准；GPT-5.5 得分 51.76%，在严格评分下所有模型均低于 40%

AI 行业动态

根据 Beating，AI 评估公司 Vals AI 于 5 月 14 日发布其第二代 Finance Agent v2 基准测试，通过 927 道经专家审核的问题来测试金融分析工作流。GPT-5.5 以 51.76% 的准确率领跑，其次是 Claude Opus 4.7（51.51%）和 Claude Sonnet 4.6（51.03%）。该测试要求模型能够在 10-K 和 10-Q 财务报表的数百页中独立定位相关部分，并使用精确的中间数值完成多步骤计算。在要求完全正确答案的严格评分标准下，所有领先模型的准确率均降至 40% 以下，最难的类别——金融建模和先例分析——最高也仅达到 23%。在其他模型中，Kimi K2.6 以 44.87% 排名第五，随后是 GLM 5.1（44.79%）和 DeepSeek V4（44.08%）。与上一版本中 Opus 4.7 得分 64.4% 相比，这种显著下滑表明：尽管 AI 能处理简单检索，但在金融领域这类需要严格数值精度的复杂场景中，它仍远未能取代人类分析师。

展开

ALL-2.85%