"GPT"的搜索结果
今天
15:33

StepFun 的 StepAudio 2.5 实时版登顶五项语音 AI 基准,胜过 GPT Realtime 1.5

总部位于上海的 AI 实验室 StepFun 本周发布了 StepAudio 2.5 Realtime,这是一款端到端的实时语音模型,支持中文和英文。根据 StepFun 的测试,该模型在 2026 年 4 月接受测试的所有五项语音 AI 基准中均名列前茅,表现优于 OpenAI 的 GPT Realtime 1.5 和谷歌的 Gemini Live。 在副语言理解基准上——在 0–100 的量表上衡量情感和语速等声学特征感知能力——StepAudio 得分为 82.18,而 GPT Realtime 1.5 为 80.46,Gemini Live 为 58.05。在人类评估测试中,StepAudio 的得分为 80.41,而 GPT Realtime 1.5 为 68.01、Gemini Live 为 67.16。StepFun 使用一个百万级角色画像数据集训练了该模型,并结合针对角色扮演的强化学习,以在长时间对话中保持角色一致性。
展开
02:13

OpenAI GPT-5.6 实现 UI 清理突破,在最新内部构建中生成极简设计应用

根据 Beating monitor,OpenAI 下一代模型 GPT-5.6(内部代号 iris-alpha)在 UI 设计生成方面取得了显著突破,解决了此前前端输出质量较差的问题。在其最新版本中,该模型生成了一款名为 Lumen Notes 的极简设计笔记应用,具备成熟的网格布局和精炼的审美风格——与生成式 AI 输出中常见的杂乱、程式化界面形成鲜明对比。该改进体现了 OpenAI 专注于克服前端代码生成限制的努力。预计 GPT-5.6 将于 6 月正式发布,并将与 Anthropic 的 Claude Artifacts 直接竞争高质量、可用于生产的代码生成。
09:29

Cloudflare 测试显示 Anthropic Mythos 预览可将漏洞串联为可运行的攻击

据 Cloudflare 称,安全模型 Mythos Preview 在今天对超过 50 个代码库的测试中展示了能够自主编写代码,并将多个低风险漏洞串联起来,形成可执行的概念验证攻击的能力。在测试中,该模型不仅识别了孤立的系统缺陷,还进一步生成了攻击链——编写并编译代码以触发漏洞,通过读取错误信息进行自我纠正,并反复迭代,直到成功突破完整攻击路径。与此前的模型(如 Opus 4.7 或 GPT-5.5)相比,这标志着能力的重大进步;这些模型通常停留在漏洞分析层面,而不会生成可运行的漏洞利用程序。
01:29

OpenClaw 在 Android 上推出 v2026.5.18,提供实时语音,增加对完整 GPT-5 的支持

根据 Beating,OpenClaw 于 5 月 18 日发布了 v2026.5.18 版本,为 Android 带来实时语音对话,并提供对 GPT-5.1、GPT-5.2、GPT-5.3 以及 openai-codex 模型的完整支持。Android 更新使开发者能够使用流式麦克风输入并进行实时音频播放,在语音会话期间通过工具结果桥接实现工具调用的即时同步,并提供实时字幕。该发布还为开发者引入了简化的 defineToolPlugin 接口,用于创建具备强类型支持的工具扩展。
02:37

Google Cloud 推出 Gemini 3.2 Flash Lite 模型,其推理成本比 GPT-5.5 低 95%

据 Beating.AI 监测,截至 5 月 17 日,一种名为 gemini-3.2-flash-lite-live-preview 的新模型选项已出现在 Google Cloud 的模型选择列表中。“lite”和“live”后缀表明,Google 正在打造一种针对超低延迟实时交互进行优化的专用版本。 Abacus.AI 首席执行官 Bindu Reddy 此前披露,Gemini 3.2 Flash 在保持推理成本仅为 GPT-5.5 的 1/20 的同时,实现了 GPT-5.5 编码与推理能力的 92%,且大多数查询的响应时间低于 200 毫秒。行业观察人士预计,这款注重成本优化的轻量模型将于 5 月 20 日在 Google I/O 上正式发布。
展开
09:16

OpenAI 为 ChatGPT Pro 用户推出金融管理服务

据 PANews 报道,OpenAI 于 5 月 16 日宣布了一项面向美国 ChatGPT Pro 用户的个人财务管理服务。该服务使用户能够将银行和投资账户安全连接到 ChatGPT,查看现金流仪表盘,并根据其个人情况接收由 AI 提供的财务指导,同时保持对数据的完全控制。OpenAI 表示,该功能并非专业理财建议的替代品,而是将复杂的个人理财问题与 GPT-5.5 的推理能力相结合,以提供量身定制的解决方案。公司计划逐步将该服务扩展至 Plus 及所有用户。用户可随时断开账户连接或删除财务数据;所有账户信息仅用于个性化财务服务,且不会被修改。
08:09

DeepSeek 数据泄露警报被证实为误报;特殊代币触发的是模型记忆,而非多租户泄露

根据 Beating 的监控,最近一则病毒式传播的说法声称,在 DeepSeek 的聊天框中输入诸如 这样的特殊标记,可能会暴露其他用户的对话,并被归类为 P0 级多租户隔离故障。实际上,这种现象与数据隔离无关。使用这些标记触发后,模型会进入其训练时的格式模式,并基于自身记忆和系统提示生成虚构对话——而不是从其他会话进行实时检索。这就是训练数据提取,这是所有大型语言模型中的共享漏洞,并非 DeepSeek 独有。Google DeepMind 在 2023 年发布的研究表明,特殊输入可以从 GPT 和 PaLM 中提取训练数据。ICLR 2025 的 Magpie 论文直接利用了这种机制。声称泄露内容包含今天日期的说法并不能证明存在多租户隔离故障,因为 DeepSeek 会在其系统提示中包含当前日期,而模型也会自然地将其融入生成输出中。
展开
DEEPSEEK-4.06%
19:51

Moonshot AI 发布 Kimi WebBridge 浏览器扩展,K2.6 模型在 SWE-Bench Pro 上以 58.6% 分数排名第一

Moonshot AI 于 2026 年 4 月发布 Kimi WebBridge,这是一款用于 AI 代理的浏览器扩展。该扩展完全在你的本地机器上运行,并使用 Chrome DevTools Protocol,这意味着登录会话和页面内容从不进入 Moonshot 的服务器。代理可以在网站上搜索、点击、输入并提取数据,同时为银行应用、电子邮件和内部工具保留隐私。Kimi WebBridge 官方支持 Claude Code、Cursor、Codex 和 Hermes,使其不依赖特定代理。底层的 Kimi K2.6 模型在 SWE-Bench Pro 上以 58.6% 的成绩排名第一,领先 GPT-5.4 的 57.7% 以及 Claude Opus 4.6 的 53.4%。
09:41

Vals AI 发布金融代理 v2 基准;GPT-5.5 得分 51.76%,在严格评分下所有模型均低于 40%

根据 Beating,AI 评估公司 Vals AI 于 5 月 14 日发布其第二代 Finance Agent v2 基准测试,通过 927 道经专家审核的问题来测试金融分析工作流。GPT-5.5 以 51.76% 的准确率领跑,其次是 Claude Opus 4.7(51.51%)和 Claude Sonnet 4.6(51.03%)。该测试要求模型能够在 10-K 和 10-Q 财务报表的数百页中独立定位相关部分,并使用精确的中间数值完成多步骤计算。 在要求完全正确答案的严格评分标准下,所有领先模型的准确率均降至 40% 以下,最难的类别——金融建模和先例分析——最高也仅达到 23%。在其他模型中,Kimi K2.6 以 44.87% 排名第五,随后是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。与上一版本中 Opus 4.7 得分 64.4% 相比,这种显著下滑表明:尽管 AI 能处理简单检索,但在金融领域这类需要严格数值精度的复杂场景中,它仍远未能取代人类分析师。
展开
ALL-2.85%