2026 開年,OpenClaw 的現(xiàn)象級爆發(fā)使大模型迅速邁入「超長上下文」時代。在幾乎人人手捧「龍蝦」穿梭于代碼、搜索、辦公自動化的當下,Token(詞元)消耗成本正在迅速累積。據(jù) OpenRouter 平臺數(shù)據(jù),2026 年 3 月單周 OpenClaw Token 消耗量占平臺總量的 20%。用戶實測單個會話的上下文可膨脹至 23 萬 Token;重度使用場景的月成本甚至高達 800-1500 美元。
這背后,是 Agent 架構(gòu)的全量記憶策略 —— 每一輪對話請求都必須攜帶歷史上下文,導致 Token 消耗隨輪次呈滾雪球式增長。
此時,KV Cache 的管理方式便成為影響推理效率與成本的關(guān)鍵變量。若無法有效復用歷史 KV Cache,系統(tǒng)將重復執(zhí)行 Prefill 計算 —— 不僅帶來了不必要的 Token 成本花銷,也會顯著拉長首 Token 時延(TTFT)。因此,通過提升上下文緩存命中率來降低用戶使用成本以及通過減少重復 Prefill 計算來降低 TTFT,成為 KV Cache 優(yōu)化的核心方向。
百度(K89888)智能云旗下百度(K89888)百舸團隊近日推出了一套自主研發(fā)的 KV Cache 系統(tǒng) —— AttentionStore,并基于昆侖芯 P800 在 DeepSeek 模型上完成系統(tǒng)驗證:在 8K+ 長上下文場景中,TTFT 實現(xiàn)了 2 至 5 倍的性能提升;而在 64K 長上下文場景下,TTFT 性能提升至 6.2 倍,顯著增強了大模型在長上下文歷史條件下的 Token 響應能力。
顯存瓶頸:長上下文推理的隱形天花板
在當前主流推理引擎(如 SGLang、vLLM 等)中,KV Cache 通常被視為一種僅存在于顯存中的短生命周期(883436)數(shù)據(jù)結(jié)構(gòu)。其設計目標很明確:在一次請求的解碼階段復用歷史 Key / Value,避免重復計算;一旦請求結(jié)束或被調(diào)度器回收,KV Cache 便會被整體釋放,以保證顯存能夠服務更多并發(fā)請求。
然而,隨著多輪對話等長上下文場景的興起,推理系統(tǒng)中所能容納的 KV Cache 體量逐漸成為了決定系統(tǒng)性能的核心變量。此時,僅依靠顯存承載的 KV Cache 體量遠遠不能滿足長下文推理場景下的會話響應要求。
要準確評估 KV Cache 存儲的瓶頸,就需要綜合分析「單個 Token 所需的 KV 緩存開銷」、「可存放 KV Cache 的顯存容量」、以及「長上下文的會話長度」。
當前,KV 緩存的計算公式與模型規(guī)模、模型層數(shù)、數(shù)據(jù)精度、以及所采用的注意力頭結(jié)構(gòu)相關(guān)。以 Qwen3-32B 模型為例,其采用 GQA 結(jié)構(gòu),在 FP16 精度下,單 Token 所需的 KV 緩存開銷約為 0.25MB,對于一個 80GB 顯存的加速卡來說,除去模型權(quán)重需占用的 60GB 以及 runtime buffer、臨時算子、并發(fā)數(shù)等占用的約 5g(885556)B~10GB 后,僅剩余的 10GB 顯存最多容納約 40K Tokens。
而以 LLaMA-13B 模型為例,其采用 MHA 結(jié)構(gòu),在 FP16 精度下,單 Token 所需的 KV 緩存開銷約為 0.8MB,在 80GB 顯存的加速卡中,僅剩余的 40GB 顯存最多容納約 48K Tokens。
然而,在諸如 OpenClaw 等長上下文的真實業(yè)務場景中,受到多輪對話、多并發(fā)用戶因素的影響,會話長度可達 64K,甚至 128K。此時,顯存容量的有限空間就使得系統(tǒng)經(jīng)常需要重新計算歷史 Token 的 KV 值,引起極大的推理時延。
為了解決顯存無法容納長上下文業(yè)務場景所需存放的 KV Cache 問題,業(yè)內(nèi)普遍采用了 KV Cache Offload 方案 —— 它提供了一種兼具性能與成本效益的技術(shù)路徑:將歷史 KV Cache 從昂貴的顯存中遷移至更具性價比的存儲介質(zhì)(如內(nèi)存、SSD 等),在會話延續(xù)時按需加載實現(xiàn)數(shù)據(jù)復用。然而,在將這一方案大規(guī)模落地到生產(chǎn)業(yè)務過程中,還需要解決三個關(guān)鍵問題:
首先,調(diào)度系統(tǒng)要如何匹配到最優(yōu)節(jié)點,避免昂貴的重復計算開銷:傳統(tǒng)調(diào)度系統(tǒng)無法感知緩存的全景分布與介質(zhì)狀態(tài),存在嚴重的調(diào)度盲區(qū)。這導致請求往往被分發(fā)至無緩存節(jié)點,觸發(fā)大規(guī)模重復計算與存儲冗余,難以發(fā)揮分布式緩存的集群效應。
其次,如何提升多級緩存間的數(shù)據(jù)搬運效率,加快響應速度:傳統(tǒng)方案難以針對異構(gòu)芯片的底層訪存特性進行深度優(yōu)化,在多級存儲介質(zhì)(HBM - DRAM - SSD)之間搬運動態(tài)數(shù)據(jù)時,數(shù)據(jù)通路效率低下,極易引入額外的傳輸時延,抵消掉復用緩存帶來的性能增益。
另外,會話中斷后,如何避免 KV Cache 丟失:傳統(tǒng)方案中,緩存管理與推理進程強耦合:一旦推理引擎進程退出或異常重啟,緩存數(shù)據(jù)即刻失效。
AttentionStore —— KV Cache 全局調(diào)度與高效流轉(zhuǎn)系統(tǒng)
正是由于上述問題的存在,KV Cache Offload 并不能僅停留在「存儲遷移」層面,而必須在調(diào)度、數(shù)據(jù)通路與緩存管理機制上進行系統(tǒng)性升級。
在這一背景下,百度(K89888)百舸構(gòu)建了 KV Cache 分布式緩存管理體系 AttentionStore,并基于昆侖芯硬件平臺進行了深度適配與調(diào)優(yōu)。
AttentionStore 通過在推理集群層面實現(xiàn)多維感知與精準調(diào)度,以及在執(zhí)行節(jié)點中加快緩存數(shù)據(jù)的傳輸效率,AttentionStore 可實現(xiàn)高達 80% ~ 90% 的 KV Cache 緩存命中率,大幅降低推理成本;并系統(tǒng)性減少重復 Prefill 計算開銷,顯著降低 TTFT。
為了保障 KV Cache 服務連續(xù)性,我們將 AttentionStore 與推理引擎解耦,以獨立進程的形式運行在每個推理節(jié)點上,當推理進程重啟、故障恢復或版本升級時,KV Cache 依舊可以穩(wěn)定保存在 AttentionStore 管理的存儲空間中,可在后續(xù)推理中重新加載使用。同時,AttentionStore 采用共享內(nèi)存和 SSD 作為主機緩存介質(zhì),其自身重啟后可通過本地索引表快速實現(xiàn)數(shù)據(jù)恢復,實現(xiàn)服務升級與維護期間業(yè)務無感切換。
KV Cache 全局感知,優(yōu)化推理調(diào)度決策鏈
在實際生產(chǎn)環(huán)境中,推理請求往往運行在多節(jié)點、多實例的分布式架構(gòu)之上。若推理調(diào)度器對緩存分布無感知,僅依據(jù)不同實例的狀態(tài)及負載等因素進行調(diào)度決策,極易出現(xiàn)「請求被調(diào)度至無緩存節(jié)點」的情況,從而觸發(fā)完整的 Prefill 重算,使得 Offload 帶來的性能收益被完全抵消。
為此,憑借行業(yè)領(lǐng)先的 KV Cache 多維感知,我們在推理集群內(nèi)構(gòu)建了實時 KV Cache 全局索引視圖;并將 KV Cache 納入調(diào)度決策,使調(diào)度從「只看資源」升級為「資源與緩存協(xié)同決策」。
全局 KV Cache 索引:我們在全局層面匯聚了各推理節(jié)點的 KV Block(XYZ) 信息,包括 Block(XYZ)Hash、所在存儲介質(zhì)(HBM / DRAM / SSD)等元數(shù)據(jù),并實時捕捉 KV Cache 的創(chuàng)建與銷毀事件,從而精準掌握最新的全局 KV Cache 索引,形成 Host → Block(XYZ)s 映射關(guān)系;
調(diào)度決策優(yōu)化:在具備全局感知能力之后,KV Cache 的命中情況被正式納入調(diào)度決策路徑。在原有基于負載與健康狀態(tài)篩選候選節(jié)點的基礎(chǔ)上,調(diào)度器會根據(jù)請求上下文,將調(diào)度目標先收斂到具備高緩存命中率的節(jié)點集合,并結(jié)合命中長度以及緩存所在存儲介質(zhì)(HBM / DRAM / SSD)的讀取效率,對候選節(jié)點進行綜合打分。
最終,推理集群調(diào)度不再僅以「是否可用」為標準,而是以「是否最優(yōu)」為目標 —— 將請求優(yōu)先分配至緩存命中率更高、數(shù)據(jù)加載速度更快的節(jié)點,在保障負載均衡的前提下,最大化 KV Cache 復用價值,系統(tǒng)性降低重復 Prefill 開銷,并顯著優(yōu)化 TTFT 表現(xiàn)。
KV Cache 多級緩存優(yōu)化,加速數(shù)據(jù)傳輸效率
實現(xiàn) KV Cache 的全局感知與精準調(diào)度,解決了長上下文推理中緩存「調(diào)度匹配」的核心問題;而在多級緩存體系中,跨介質(zhì)的數(shù)據(jù)傳輸效率與多數(shù)據(jù)傳輸?shù)牟⑿心芰?,是決定 KV Cache 復用性能的另一關(guān)鍵因素。為此,百度(K89888)百舸通過 AttentionStore 對 KV Cache 的全生命周期(883436)數(shù)據(jù)通路進行了深度優(yōu)化,構(gòu)建了高效的多級緩存體系,實現(xiàn)跨介質(zhì)數(shù)據(jù)傳輸?shù)娜婕铀佟?/p>
在典型的長文本推理場景下,KV Cache 在 HBM、DRAM、SSD 多級緩存體系中的數(shù)據(jù)流轉(zhuǎn)遵循以下邏輯:
請求到達時,Prefill 節(jié)點優(yōu)先嘗試從顯存 KV Cache 中匹配;
若顯存未命中,將借助節(jié)點間的 KV Cache 池化能力快速將緩存數(shù)據(jù)遷移至目標 Prefill 節(jié)點的主機內(nèi)存;仍未命中的部分則由 Prefill 節(jié)點即時計算生成;
Prefill 節(jié)點生成的 KV 傳輸至 Decode 節(jié)點,并異步回寫至主機內(nèi)存 / SSD;
Decode 節(jié)點在推理過程中新生成的 KV 增量,異步回寫至 Prefill 節(jié)點的主機內(nèi)存 / SSD。
針對上述鏈路中的讀取、寫入及傳輸環(huán)節(jié),我們實施了如下針對性優(yōu)化:
昆侖芯底層原生適配:面向昆侖芯 XPU 架構(gòu),進行了 AttentionStore 方案的深度適配 —— 針對 KV Cache 在顯存、內(nèi)存與 SSD 之間高頻流轉(zhuǎn)的特征,通過調(diào)用 XPU 原生 API,對數(shù)據(jù)搬運、緩存訪問及執(zhí)行調(diào)度等關(guān)鍵路徑進行專項優(yōu)化,從而充分發(fā)揮昆侖芯在帶寬與訪存效率上的硬件能力。同時,借助統(tǒng)一的硬件抽象與適配層,確保了底層指令集的無縫切換,由此,上層業(yè)務無需關(guān)注具體運行在何種硬件架構(gòu)之上,即可獲得一致的緩存復用能力與性能表現(xiàn),實現(xiàn)了跨硬件環(huán)境的平滑運行;
KV Cache 讀取加速:在 HBM、DRAM 與 SSD 混合命中的場景下,傳統(tǒng)的 KV Cache 讀取采用串行邏輯(如下圖左側(cè)「AttentionStore 優(yōu)化前」所示),這種方式的讀取耗時較長。對此,通過將 KV Cache 的讀取過程拆分為并行任務 —— 讓高速介質(zhì)與低速介質(zhì)同步發(fā)起傳輸(如下圖右側(cè)「AttentionStore 優(yōu)化后」所示),最大程度縮短全部 KV Cache 的讀取耗時。此外,將 AttentionStore 管理的共享內(nèi)存標記為大頁內(nèi)存,顯著減少頁表項數(shù)量,降低地址轉(zhuǎn)換開銷,提高內(nèi)存訪問效率;同時,通過全生命周期(883436)鎖頁操作,避免 KV Cache 數(shù)據(jù)在傳輸過程中被換出,減少額外的內(nèi)存拷貝與頁錯誤開銷,使數(shù)據(jù)能夠以更穩(wěn)定、更高帶寬的方式直達顯存。實測顯示,DRAM 到 HBM 的通信效率較基線提升了 4 倍,讓 DRAM 與 SSD 中的緩存數(shù)據(jù)能夠更快進入顯存參與計算;
KV 傳輸加速:為了提高 KV 在 Prefill-Decode 節(jié)點間的傳輸效率,首先在推理引擎之外,引入基于 C++ SDK 的高性能數(shù)據(jù)通路,對 KV Cache 的傳輸過程進行獨立管理與優(yōu)化。具體而言,通過 C++ SDK 擴展,將 KV 數(shù)據(jù)的序列化、打包與跨節(jié)點傳輸?shù)炔僮鲝耐评碇鬟M程中解耦出來,并交由獨立的異步線程池負責執(zhí)行,使 KV 傳輸與模型計算形成并行流水線,避免二者的相互阻塞。其次,在數(shù)據(jù)流傳路徑上,我們進一步對 KV 的回寫與 P、D 節(jié)點間傳輸流程進行了重構(gòu):傳統(tǒng)模式下,P 節(jié)點會先將 KV Cache 完整回寫至內(nèi)存 / SSD,再將其傳輸至 D 節(jié)點;在 AttentionStore 中,我們將這一過程拆分為多個細粒度任務,通過異步機制實現(xiàn)「寫回與傳輸同步進行」。借此,在保障推理任務連續(xù)執(zhí)行的同時,顯著提升 KV Cache 的跨節(jié)點傳輸效率。
實踐效果:超長上下文場景下的性能飛躍
在 PD 分離推理架構(gòu)中,我們基于 DeepSeek R1 671B 模型,在昆侖芯 P800 集群環(huán)境中對 AttentionStore 的 KV Cache Offload 方案進行了系統(tǒng)驗證。
環(huán)境及配置:2 臺 Prefill 節(jié)點,TP4 / DP4 并行配置。
驗證效果:
當上下文長度達到 8K 以上時,AttentionStore 的 TTFT 指標具有 50%~80% 的穩(wěn)定優(yōu)化收益;
多輪對話場景中,通過避免重復 Prefill 并提升 Prefill 節(jié)點的可復用性,系統(tǒng)整體吞吐量提升了 5.4 倍;
在 64K 長上下文場景中,相較于推理引擎默認 Chunk-Prefill 緩存策略,基于 AttentionStore 的 KV Cache Offload 方案顯著減少了歷史上下文的 Prefill 重算開銷,使 TTFT(首 Token 時延)降低 6.2 倍;
Agent 將大模型推理全面帶入長上下文與多輪交互時代,百度(K89888)百舸的 AttentionStore 讓 KV Cache 從「短暫的顯存數(shù)據(jù)結(jié)構(gòu)」演進為「可持久、可調(diào)度、可規(guī)?;瘡陀玫南到y(tǒng)資源」,通過對昆侖芯底層算力的深度調(diào)優(yōu)與推理框架的無縫集成。百舸這套系統(tǒng)成功實現(xiàn)了更優(yōu)的 TTFT 響應與更低的成本開銷,成為百度(K89888)智能云助力大規(guī)模國產(chǎn)化算力落地構(gòu)筑的堅實底座。
