"ARENA"的搜尋結果
2026-05-19
10:12

阿里巴巴搶先預覽 Qwen3.7 AI 模型,將於 5 月 20 日推出,並在 LM Arena 排名前列

根據《南華早報》(South China Morning Post),阿里巴巴在原定於 5 月 20 日於杭州市舉行的阿里雲峰會(Alibaba Cloud Summit)之前,先行發布其即將推出的 Qwen3.7 AI 模型預覽版本。這些預覽模型在 LM Arena 上的全球頂尖 AI 系統之列,表現優於中國的 AI 實驗室,但仍落後於 Anthropic、Google 和 OpenAI 的模型。
04:17

阿里巴巴 Qwen3.7-Max 亮相,成為中國頂級模型,並在 Arena 上全球排名第 13 名

根據 Arena 排行榜,Alibaba 的 Qwen 團隊於 5 月 19 日推出 Qwen3.7-Max 與 Qwen3.7-Plus 預覽版本,並預設啟用深度推理模式,同時暫時停用網路搜尋。Qwen3.7-Max 在文字類別全球排名第 13 名,在國內排名領先;其數學項目得分第 7 名,專家提示與軟體 IT 分別第 9 名。Qwen3.7-Plus 在視覺類別取得第 16 名,也領先於中國模型。 新模型的推出距離 4 月 20 日發布 Qwen3.6-Max 預覽僅 28 天,體現出快速迭代。該發布將在 5 月 20 日於杭州舉行的 Alibaba Cloud Summit 2026 之前進行;屆時該公司將揭示新基礎模型的技術細節。
展開
08:21

三名核心 Grok 模型架構師在一週內離開 xAI,當馬斯克承諾每兩週發布新版本

根據 Beating 的監測,三位直接負責 Grok 模型開發的技術主管在過去一週內已從 xAI 離職。負責搜尋與事實性後訓練的 Tianyi Zhang 今日證實離職;預訓練團隊主管 Juntang Zhuang 早在本月初便已離開;而負責打造 Grok 語音代理能力的 David Haxton 則於 5 月 10 日離職。 這些人員流失鎖定了核心產品線——負責 Grok 下一代迭代能力的搜尋後訓練、預訓練與語音。Zhang 團隊將 Grok 的事實錯誤率降低了 70-80%,使得 Grok 4.2 能在 Search Arena 領導榜登上第一。時機更是加劇壓力:Musk 在 4 月宣稱,Grok 4.4(1T 參數)將於 5 月初推出,之後每兩週發布一次,但目前仍未宣布。Grok 4.3 目前已公開,僅是 0.5T 的訓練中間版本。
展開
CORE-3.06%
GROK0.7%
XAI-1.89%
TEAM2.9%
08:21

百度以相當於可比訓練成本的 6% 發布 Ernie 5.1 模型

根據《朝鮮日報》(Chosun Daily),百度今天發布其 Ernie 5.1 模型(5 月 11 日),以約為相似模型預訓練成本 6% 的代價,提供可比的效能。在 Arena 基準測試中,Ernie 5.1 在中國模型中排名第一、整體排名第四,位於 OpenAI 的 GPT-5.5 以及 Anthropic 的 Claude Opus 4.6 和 4.7 之後。