"GPT"的搜尋結果
2026-05-29 17:32

五個前沿 AI 模型在最新研究中對 67% 的事實核查主張意見不一致

根據 Lenz Research 的研究員 Kosta Jordanov,本月測試的 1,000 則真實世界事實查核主張中,5 個前沿 AI 模型在 67% 的主張上持不同意見。這些模型——GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、帶有 Search 的 Gemini 3 Pro,以及 Sonar Pro——被要求將主張分類為正確、主要正確、誤導,或錯誤。在 34% 的案例中,分歧相當嚴重:一個模型將某項主張判定為正確,而另一個模型則標註為錯誤。 該研究使用 Krippendorff's alpha 量化一致性,分數為 0.639;此量表中 1.0 代表完全一致。研究人員普遍認為低於 0.8 的分數偏弱。僅有 1,000 則主張中的 328 則出現一致同意;而且值得注意的是,沒有任何一則主張獲得一致的「主要正確」裁定。研究人員採用由真實使用者提交到 Lenz 事實查核平台的主張,而非標準基準測試,從而降低了模型對訓練資料進行模式匹配的可能性。
展開
2026-05-27 19:38

DeepSeek 將 V4-Pro 折扣鎖定為每百萬 Tokens 0.87 美元;Xiaomi 於 5 月 26 日將 MiMo-V2.5 下調最高 99%

根據官方公告,DeepSeek 於 5 月 22 日將其 75% V4-Pro API 折扣永久化,並將輸出定價鎖定在每百萬 tokens $0.87。小米則於 5 月 26 日透過最高 99% 的降幅削減 MiMo-V2.5 快取輸入成本,將 Pro 模型的快取命中價格降至每百萬 tokens $0.0036——每 token 的成本比大多數 SMS 字元費率更便宜。 與此同時,美國實驗室採取了相反方向的調整。OpenAI 在啟動時將 GPT-5.5 的輸出價格加倍至每百萬 tokens $30;而 Anthropic 的 Claude Opus 4.7 隨新 tokenizer 上線,即使費率表未變,也可能使實際成本膨脹最高 35%。DeepSeek V4-Pro 與 GPT-5.5 Pro 的定價差距(兩者在 SWE-Verified 程式碼基準上都約 80% 分數)在輸出 tokens 上達 34 倍。中國的前沿模型目前在相近表現下,成本比美國對應模型低 15–30 倍。
展開
2026-05-26 15:33

StepFun 的 StepAudio 2.5 即時版在五項語音 AI 指標中登頂,超越 GPT Realtime 1.5

上海的 AI 實驗室 StepFun 本週發布 StepAudio 2.5 Realtime,這是一個端到端的即時語音模型,支援中文與英文。根據 StepFun 的測試,該模型在 2026 年 4 月接受測試的五項語音 AI 指標中均位居第一,表現優於 OpenAI 的 GPT Realtime 1.5 以及 Google 的 Gemini Live。 在副語言理解基準上——以 0–100 分量表衡量情緒、說話速率等聲學特徵的感知——StepAudio 的分數為 82.18,而 GPT Realtime 1.5 為 80.46、Gemini Live 為 58.05。在人類評估測試中,StepAudio 達到 80.41,而 GPT Realtime 1.5 為 68.01、Gemini Live 為 67.16。StepFun 以百萬級的角色人設資料集訓練該模型,並採用針對角色扮演的強化學習,以在長時間對話中維持角色一致性。
展開
2026-05-24 02:13

OpenAI GPT-5.6 實現 UI 清理突破,於最新內部版本中生成極簡設計應用程式

根據 Beating monitor,OpenAI 的下一代模型 GPT-5.6(內部代號 iris-alpha)在 UI 設計生成方面已取得顯著突破,解決了先前前端輸出品質不佳的問題。在最新版本中,該模型生成了一款極簡設計的筆記應用,名為 Lumen Notes,具備成熟的格線佈局與精煉的美感——與生成式 AI 輸出中常見的雜亂、公式化介面形成鮮明對比。這項改進反映出 OpenAI 專注於克服前端程式碼生成限制的努力。預期 GPT-5.6 將於 6 月正式推出,並將直接與 Anthropic 的 Claude Artifacts 競爭,提供高品質、可投入生產的程式碼生成。
2026-05-19 09:29

Cloudflare 測試顯示 Anthropic Mythos 預覽可將漏洞串接成可運作的攻擊

根據 Cloudflare 的說法,安全模型 Mythos Preview 在今天針對超過 50 個程式碼基底的測試中,展示了能夠自主編寫程式,並將多個低風險漏洞串接成可執行的概念驗證攻擊的能力。在測試中,該模型不僅辨識出獨立的系統缺陷,還進一步生成攻擊鏈:編寫並編譯會觸發漏洞的程式,讀取錯誤訊息以自我修正,並持續迭代,直到成功突破完整攻擊路徑。這代表了相較於先前模型(例如 Opus 4.7 或 GPT-5.5)的重大能力提升;這些模型通常僅停留在漏洞分析,未能生成可運作的漏洞利用程式。
2026-05-19 01:29

OpenClaw 推出 v2026.5.18,Android 即時語音功能上線,並新增完整 GPT-5 支援

根據 Beating,OpenClaw 於 5 月 18 日釋出版本 v2026.5.18,將即時語音對話帶到 Android,並完整支援 GPT-5.1、GPT-5.2、GPT-5.3 以及 openai-codex 模型。Android 更新支援透過串流方式輸入麥克風音訊並進行即時音訊播放、在語音會話期間即時同步工具呼叫的工具結果串接,以及即時字幕。此版本也為開發者引入了簡化的 defineToolPlugin 介面,讓他們能以強型別支援建立工具延伸功能。
2026-05-17 02:37

Google Cloud 揭露 Gemini 3.2 Flash Lite 模型,其推論成本比 GPT-5.5 低 95%

根據 Beating.AI 監控,截至 5 月 17 日,一個名為 gemini-3.2-flash-lite-live-preview 的新模型選項已出現在 Google Cloud 的模型選擇清單中。「lite」與「live」後綴表示 Google 正在打造一個針對超低延遲即時互動進行最佳化的專用版本。 Abacus.AI 執行長 Bindu Reddy 先前透露,Gemini 3.2 Flash 在保持推論成本僅為 GPT-5.5 的 1/20 的同時,達到 GPT-5.5 的 92% 程度的編碼與推理能力,而多數查詢的回應時間低於 200 毫秒。產業觀察者預期,這款注重成本優化的輕量模型將於 5 月 20 日在 Google I/O 上正式發表。
展開
2026-05-16 09:16

OpenAI 為 ChatGPT Pro 用戶推出財務管理服務

根據 PANews,OpenAI 於 5 月 16 日宣布了一項面向美國 ChatGPT Pro 使用者的個人理財管理服務。該服務可讓使用者安全地將銀行與投資帳戶連接到 ChatGPT,查看現金流儀表板,並根據自身狀況接收由 AI 驅動的理財指引,同時維持完整的資料控制權。OpenAI 表示,這項功能並非專業理財建議的替代品,而是將複雜的個人理財問題結合 GPT-5.5 的推理能力,提供量身定制的解決方案。該公司計畫逐步將服務擴展至 Plus 以及所有使用者。使用者可在任何時候中斷帳戶連接或刪除財務資料;所有帳戶資訊僅用於個人化理財服務,且不會被修改。
2026-05-15 08:09

DeepSeek 資料外洩警報遭駁斥;特殊代幣觸發模型記憶,而非多租戶遭入侵

根據 Beating 的監測,近期一則病毒式流傳的說法聲稱,在 DeepSeek 的聊天框中輸入例如 這類特殊代幣,可能會暴露其他使用者的對話,並被標為 P0 等級的多租戶隔離失敗。實際上,這種現象與資料隔離無關。當使用這類代幣觸發時,模型會進入其在訓練期間形成的格式模式,並根據自身記憶與系統提示生成捏造的對話內容,而非從其他工作階段即時擷取。這是訓練資料擷取(Training Data Extraction)——所有大型語言模型都共用的一項弱點,而非僅存在於 DeepSeek。Google DeepMind 在 2023 年發表的研究表明,特殊輸入可以從 GPT 與 PaLM 擷取訓練資料。ICLR 2025 的 Magpie 論文則直接利用了這種機制。聲稱洩露內容包含今天的日期,並不能證明發生多租戶隔離失敗,因為 DeepSeek 會在其系統提示中包含目前日期,而模型也會自然地將其整合進生成的輸出中。
展開
DEEPSEEK-1.91%