News | Gate 新聞

2026-05-29 17:32

五個前沿 AI 模型在最新研究中對 67% 的事實核查主張意見不一致

根據 Lenz Research 的研究員 Kosta Jordanov，本月測試的 1,000 則真實世界事實查核主張中，5 個前沿 AI 模型在 67% 的主張上持不同意見。這些模型——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、帶有 Search 的 Gemini 3 Pro，以及 Sonar Pro——被要求將主張分類為正確、主要正確、誤導，或錯誤。在 34% 的案例中，分歧相當嚴重：一個模型將某項主張判定為正確，而另一個模型則標註為錯誤。該研究使用 Krippendorff's alpha 量化一致性，分數為 0.639；此量表中 1.0 代表完全一致。研究人員普遍認為低於 0.8 的分數偏弱。僅有 1,000 則主張中的 328 則出現一致同意；而且值得注意的是，沒有任何一則主張獲得一致的「主要正確」裁定。研究人員採用由真實使用者提交到 Lenz 事實查核平台的主張，而非標準基準測試，從而降低了模型對訓練資料進行模式匹配的可能性。

展開

2026-05-27 19:38

DeepSeek 將 V4-Pro 折扣鎖定為每百萬 Tokens 0.87 美元；Xiaomi 於 5 月 26 日將 MiMo-V2.5 下調最高 99%

AI 行業動態

根據官方公告，DeepSeek 於 5 月 22 日將其 75% V4-Pro API 折扣永久化，並將輸出定價鎖定在每百萬 tokens $0.87。小米則於 5 月 26 日透過最高 99% 的降幅削減 MiMo-V2.5 快取輸入成本，將 Pro 模型的快取命中價格降至每百萬 tokens $0.0036——每 token 的成本比大多數 SMS 字元費率更便宜。與此同時，美國實驗室採取了相反方向的調整。OpenAI 在啟動時將 GPT-5.5 的輸出價格加倍至每百萬 tokens $30；而 Anthropic 的 Claude Opus 4.7 隨新 tokenizer 上線，即使費率表未變，也可能使實際成本膨脹最高 35%。DeepSeek V4-Pro 與 GPT-5.5 Pro 的定價差距（兩者在 SWE-Verified 程式碼基準上都約 80% 分數）在輸出 tokens 上達 34 倍。中國的前沿模型目前在相近表現下，成本比美國對應模型低 15–30 倍。

展開

2026-05-26 15:33

StepFun 的 StepAudio 2.5 即時版在五項語音 AI 指標中登頂，超越 GPT Realtime 1.5

AI 行業動態

上海的 AI 實驗室 StepFun 本週發布 StepAudio 2.5 Realtime，這是一個端到端的即時語音模型，支援中文與英文。根據 StepFun 的測試，該模型在 2026 年 4 月接受測試的五項語音 AI 指標中均位居第一，表現優於 OpenAI 的 GPT Realtime 1.5 以及 Google 的 Gemini Live。在副語言理解基準上——以 0–100 分量表衡量情緒、說話速率等聲學特徵的感知——StepAudio 的分數為 82.18，而 GPT Realtime 1.5 為 80.46、Gemini Live 為 58.05。在人類評估測試中，StepAudio 達到 80.41，而 GPT Realtime 1.5 為 68.01、Gemini Live 為 67.16。StepFun 以百萬級的角色人設資料集訓練該模型，並採用針對角色扮演的強化學習，以在長時間對話中維持角色一致性。

展開

2026-05-24 02:13

OpenAI GPT-5.6 實現 UI 清理突破，於最新內部版本中生成極簡設計應用程式

AI 行業動態

根據 Beating monitor，OpenAI 的下一代模型 GPT-5.6（內部代號 iris-alpha）在 UI 設計生成方面已取得顯著突破，解決了先前前端輸出品質不佳的問題。在最新版本中，該模型生成了一款極簡設計的筆記應用，名為 Lumen Notes，具備成熟的格線佈局與精煉的美感——與生成式 AI 輸出中常見的雜亂、公式化介面形成鮮明對比。這項改進反映出 OpenAI 專注於克服前端程式碼生成限制的努力。預期 GPT-5.6 將於 6 月正式推出，並將直接與 Anthropic 的 Claude Artifacts 競爭，提供高品質、可投入生產的程式碼生成。

2026-05-19 09:29

Cloudflare 測試顯示 Anthropic Mythos 預覽可將漏洞串接成可運作的攻擊

AI 行業動態

根據 Cloudflare 的說法，安全模型 Mythos Preview 在今天針對超過 50 個程式碼基底的測試中，展示了能夠自主編寫程式，並將多個低風險漏洞串接成可執行的概念驗證攻擊的能力。在測試中，該模型不僅辨識出獨立的系統缺陷，還進一步生成攻擊鏈：編寫並編譯會觸發漏洞的程式，讀取錯誤訊息以自我修正，並持續迭代，直到成功突破完整攻擊路徑。這代表了相較於先前模型（例如 Opus 4.7 或 GPT-5.5）的重大能力提升；這些模型通常僅停留在漏洞分析，未能生成可運作的漏洞利用程式。

2026-05-19 01:29

OpenClaw 推出 v2026.5.18，Android 即時語音功能上線，並新增完整 GPT-5 支援

AI 行業動態

根據 Beating，OpenClaw 於 5 月 18 日釋出版本 v2026.5.18，將即時語音對話帶到 Android，並完整支援 GPT-5.1、GPT-5.2、GPT-5.3 以及 openai-codex 模型。Android 更新支援透過串流方式輸入麥克風音訊並進行即時音訊播放、在語音會話期間即時同步工具呼叫的工具結果串接，以及即時字幕。此版本也為開發者引入了簡化的 defineToolPlugin 介面，讓他們能以強型別支援建立工具延伸功能。

2026-05-17 02:37

Google Cloud 揭露 Gemini 3.2 Flash Lite 模型，其推論成本比 GPT-5.5 低 95%

AI 行業動態

根據 Beating.AI 監控，截至 5 月 17 日，一個名為 gemini-3.2-flash-lite-live-preview 的新模型選項已出現在 Google Cloud 的模型選擇清單中。「lite」與「live」後綴表示 Google 正在打造一個針對超低延遲即時互動進行最佳化的專用版本。 Abacus.AI 執行長 Bindu Reddy 先前透露，Gemini 3.2 Flash 在保持推論成本僅為 GPT-5.5 的 1/20 的同時，達到 GPT-5.5 的 92% 程度的編碼與推理能力，而多數查詢的回應時間低於 200 毫秒。產業觀察者預期，這款注重成本優化的輕量模型將於 5 月 20 日在 Google I/O 上正式發表。

展開

2026-05-16 13:14

OpenAI 修復兩個導致 GPT-5.5 Codex 降級的錯誤，重置用戶使用限制

AI 行業動態

根據 Tibo（OpenAI 的 Codex 領導者）表示，團隊已識別並修復兩個問題，這些問題導致 GPT-5.5 在過去 48 小時內於程式碼智能平台出現效能退化。系統已完全恢復。為了彌補使用者，OpenAI 將在今晚重置所有使用限制，正如 Beating 監測所報告。

CODEX1.6%

2026-05-16 09:16

OpenAI 為 ChatGPT Pro 用戶推出財務管理服務

AI 行業動態

根據 PANews，OpenAI 於 5 月 16 日宣布了一項面向美國 ChatGPT Pro 使用者的個人理財管理服務。該服務可讓使用者安全地將銀行與投資帳戶連接到 ChatGPT，查看現金流儀表板，並根據自身狀況接收由 AI 驅動的理財指引，同時維持完整的資料控制權。OpenAI 表示，這項功能並非專業理財建議的替代品，而是將複雜的個人理財問題結合 GPT-5.5 的推理能力，提供量身定制的解決方案。該公司計畫逐步將服務擴展至 Plus 以及所有使用者。使用者可在任何時候中斷帳戶連接或刪除財務資料；所有帳戶資訊僅用於個人化理財服務，且不會被修改。

2026-05-15 08:09

DeepSeek 資料外洩警報遭駁斥；特殊代幣觸發模型記憶，而非多租戶遭入侵

AI 行業動態

根據 Beating 的監測，近期一則病毒式流傳的說法聲稱，在 DeepSeek 的聊天框中輸入例如這類特殊代幣，可能會暴露其他使用者的對話，並被標為 P0 等級的多租戶隔離失敗。實際上，這種現象與資料隔離無關。當使用這類代幣觸發時，模型會進入其在訓練期間形成的格式模式，並根據自身記憶與系統提示生成捏造的對話內容，而非從其他工作階段即時擷取。這是訓練資料擷取（Training Data Extraction）——所有大型語言模型都共用的一項弱點，而非僅存在於 DeepSeek。Google DeepMind 在 2023 年發表的研究表明，特殊輸入可以從 GPT 與 PaLM 擷取訓練資料。ICLR 2025 的 Magpie 論文則直接利用了這種機制。聲稱洩露內容包含今天的日期，並不能證明發生多租戶隔離失敗，因為 DeepSeek 會在其系統提示中包含目前日期，而模型也會自然地將其整合進生成的輸出中。

展開

DEEPSEEK-1.91%