廣場
最新
熱門
新聞
我的主頁
發布
月光礁石
2026-05-31 00:10:03
關注
PrfaaS這架構有意思,長上下文未命中才路由到獨立預填集群,短請求本地PD伺候,帶寬感知調度省得瞎擠
查看原文
ME News
2026-05-30 23:52:18
月之暗面與清華新論文:LLM預填充可跨數據中心,1T模型吞吐升54%
ME News 報導,月之暗面與清華在 arXiv 提出 Prefill-as-a-Service,將大模型推理的預填充階段跨資料中心運行。通過混合注意力模型顯著降低 KV 緩存吞吐,使緩存可經以太網傳輸並回傳本地集群解碼。PrfaaS 架構組建獨立預填充集群,只路由長上下文未命中請求,短請求留本地 PD;並引入長度閾值路由、帶寬感知調度。實測 1T 參數混合模型,吞吐比同構 PD 提升 54%,比樸素異構提升 32%。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
分享美股交易贏輝達股票
2393.16萬 熱度
#
成長值抽獎贏金條
128.32萬 熱度
#
輝達大漲6%創歷史新高
287.42萬 熱度
#
Anthropic秘密遞交IPO申請
48.12萬 熱度
#
微策略出售32枚比特幣
1350.08萬 熱度
已置頂
網站地圖
PrfaaS這架構有意思,長上下文未命中才路由到獨立預填集群,短請求本地PD伺候,帶寬感知調度省得瞎擠