根據 Andon Labs 最新的 Vending-Bench 2 評估,GLM 5.2 在長期商業模擬測試中排名第二。該基準模擬了一家自動販賣機公司的 365 天營運,模型根據財務數據每天做出庫存和定價決策,以評估在長期任務中的決策連貫性。
GLM 版本展現出穩定的線性成長,平均每月利潤改善近 1000 美元(GLM 5 平均得分 4432 美元,GLM 5.1 達到 5634 美元)。相比之下,Kimi K2.7 Code 相對於 K2.6 表現不佳,而 Minimax M3 較 M2.5 有顯著改善,但整體盈利能力仍遠低於 Kimi 和 GLM 系列。