PrfaaS這架構有意思,長上下文未命中才路由到獨立預填集群,短請求本地PD伺候,帶寬感知調度省得瞎擠

查看原文
ME News
月之暗面與清華新論文:LLM預填充可跨數據中心,1T模型吞吐升54%
ME News 報導,月之暗面與清華在 arXiv 提出 Prefill-as-a-Service,將大模型推理的預填充階段跨資料中心運行。通過混合注意力模型顯著降低 KV 緩存吞吐,使緩存可經以太網傳輸並回傳本地集群解碼。PrfaaS 架構組建獨立預填充集群,只路由長上下文未命中請求,短請求留本地 PD;並引入長度閾值路由、帶寬感知調度。實測 1T 參數混合模型,吞吐比同構 PD 提升 54%,比樸素異構提升 32%。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆