從論文到千卡生產落地,這速度不像學院派

查看原文
币 界 网
幣界網消息,智譜聯合馭馴網絡與清華大學提出下一代大模型推理網絡架構ZCube,旨在破解大模型PD(prefill-decode)分離部署中日益嚴峻的結構性網絡擁塞難題。ZCube架構已在GLM-5.1 coding千卡線上生產環境落地。該架構通過取消spine層交換機,採用全網扁平化拓撲(2跳網路直徑),結合單/多軌混合接入機制,實現了跨節點全網交換機之間的流量負載均衡。在基準測試中,ZCube架構相比傳統架構減少了33%的交換機與光模組硬體支出,同時GPU平均推理吞吐率提升了15%,首token時延(TTFT)P99分位數下降了40.6%。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆