国产欧美日韩一区,亚洲日本一区二区三区在线,一区免费在线观看,日一区二区,国产日韩欧美精品一区,一区二区在线免费观看,日韩在线播放一区

同花順 Logo
AIME助手
問財助手
百度百舸 x 昆侖芯加速 GLM-5.1 從開源發(fā)布到規(guī)模化應(yīng)用
2026-04-10 11:38:31
來源:IT之家
分享
文章提及標(biāo)的
智譜--
軟件開發(fā)--
新開源--
百度--
化工--

4 月8日,智譜(HK2513)正式開源新一代大模型GLM5.1。作為智譜(HK2513)GLM系列的最新力作,GLM-5.1的整體能力得到了全面提升。尤其在代碼能力上:在最接近真實軟件開發(fā)(881272)的SWE-bench Pro基準(zhǔn)測試中,GLM-5.1超過GPT-5.4、Claude Opus4.6,刷新全球最佳成績。此外,GLM-5.1還在長程任務(wù)(Long Horizon Task)處理能力上實現(xiàn)了顯著突破,有別于當(dāng)前以分鐘級交互為主的模型,GLM-5.1可在單次任務(wù)中持續(xù)、自主地工作長達(dá)8小時,憑借自主規(guī)劃、執(zhí)行與迭代進(jìn)化,最終交付完整的工程級成果。

百度(BIDU)百舸基于昆侖芯硬件平臺第一時間完成了GLM-5.1的模型適配與集群部署,助力最新開源(300109)大模型快速投入生產(chǎn)環(huán)境的大規(guī)模應(yīng)用。

百度(BIDU)百舸基于Prefill-Decode分離架構(gòu),使用CP(Context Parallelism)上下文并行策略有效降低128K以上序列的計算負(fù)載和顯存壓力,從而使得GLM-5.1能夠更好的支撐AI Agent、Coding場景的長上下文與高并發(fā)需求。

目前,百度(BIDU)百舸與昆侖芯已具備“極速模型適配-全鏈路性能提升-高效規(guī)模化部署-超大規(guī)模集群落地”的完備能力。

極速模型適配

為實現(xiàn)高性能模型的快速開發(fā)與適配,百度(BIDU)百舸聯(lián)合昆侖芯開發(fā)了vLLM-Kunlun Plugin,將vLLM社區(qū)版與昆侖芯XPU后端完全解耦。用戶通過vLLM-Kunlun Plugin,快速適配主流開源模型。

依托CUDA-like特性,vLLM-Kunlun Plugin在軟件層面“抹平”了硬件差異,使開發(fā)者能夠像使用通用GPU一樣便捷地使用昆侖芯。同時,vLLM-Playground已全面支持昆侖芯,即便是初學(xué)者也能通過直觀的Web UI一鍵完成模型配置與推理。

在適配效率上,基于昆侖芯成熟的高性能算子庫,針對無新增算子的新模型(如從GLM-5.0版本迭代至GLM-5.1)可實現(xiàn)Day0極速適配,針對有新增算子的新模型,也可在極短時間內(nèi)完成新算子的開發(fā)與模型適配。再配合torch_xray精度對齊工具與PyTorch Profiler性能分析工具,百度(BIDU)百舸為模型跑對與性能表現(xiàn)提供了全方位保障。

全鏈路性能提升

為了使國產(chǎn)模型充分發(fā)揮昆侖芯硬件算力,百度(BIDU)百舸從算子、Kernel Launch、框架及系統(tǒng)等不同維度開展全鏈路優(yōu)化——依據(jù)昆侖芯硬件單元特性為各類算子制定專屬優(yōu)化策略,借助CUDA Graph消除CPU調(diào)度開銷顯著降低Kernel Launch耗時,針對框架原生的性能瓶頸開發(fā)了昆侖芯定制算子,并在系統(tǒng)層面上大幅提升并行計算能力。

同時,在量化層面,百度(BIDU)百舸推出了“模型層-框架層-硬件層”的端到端的量化體系——通過昆侖芯自研量化工(850102)具鏈實現(xiàn)高精度、高效率的模型量化,對不同來源的INT8/INT4量化模型實現(xiàn)最佳模型部署與量化推理,并基于昆侖芯XPU的計算特性,定制化開發(fā)高性能量化專用算子庫。在實際部署時,采用INT4混合精度量化,僅用單機(jī)昆侖芯P800,即可實現(xiàn)754B超大參數(shù)模型的64K長序列支持,并將推理性能提升20%。

高效規(guī)?;渴?/strong>

在完成模型適配并實現(xiàn)性能提升的基礎(chǔ)上,百度(BIDU)百舸依托PD分離架構(gòu)進(jìn)一步優(yōu)化集群推理效能,并提供針對標(biāo)準(zhǔn)8卡與超節(jié)點(diǎn)硬件平臺的標(biāo)準(zhǔn)化部署方案。

在傳統(tǒng)8卡服務(wù)器場景中,通過TP/EP擴(kuò)展,僅需6臺昆侖芯P800便可實現(xiàn)GLM-5.0模型200K的超長序列推理;在超節(jié)點(diǎn)場景中,相較同卡數(shù)的單機(jī)8卡場景,Prefill階段性能提升超16%,Decode階段提升超17%。

同時,百度(BIDU)百舸構(gòu)建了精細(xì)化的KV Cache調(diào)度與加速引擎,實現(xiàn)高達(dá)80%~90%的緩存命中率,將64K序列的TTFT縮短6.2倍,為AI Agent及復(fù)雜Coding等高并發(fā)、極長文本業(yè)務(wù)提供了穩(wěn)健的響應(yīng)保障。

此外,針對業(yè)務(wù)流量波動,百度(BIDU)百舸對昆侖芯集群的彈性擴(kuò)縮容能力進(jìn)行了系統(tǒng)性優(yōu)化,將實例拉起時間從分鐘級壓縮至秒級。

萬卡集群與天池超節(jié)點(diǎn)百度智能云打造國產(chǎn)算力基礎(chǔ)設(shè)施

目前,百度(BIDU)智能云已自建完成多個大規(guī)模國產(chǎn)算力基礎(chǔ)設(shè)施。

2025年2月,百度(BIDU)智能云成功點(diǎn)亮昆侖芯P800萬卡集群,這是國內(nèi)首個正式點(diǎn)亮的自研萬卡AI集群。同年4月,該集群規(guī)模進(jìn)一步擴(kuò)展至3.2萬卡,并已支撐百度(BIDU)千帆、百度(BIDU)蒸汽機(jī)等多個千卡級大模型訓(xùn)練任務(wù)。

2025年4月,百度(BIDU)發(fā)布基于昆侖芯的天池超節(jié)點(diǎn)方案,采用32卡一層點(diǎn)對點(diǎn)全互聯(lián)架構(gòu),通信延遲低至1.5μs;方案兼容現(xiàn)有機(jī)房環(huán)境,支持單人運(yùn)維,并依托昆侖芯與百度(BIDU)百舸的持續(xù)軟硬協(xié)同優(yōu)化,實現(xiàn)極致的每Token成本。

截至目前,百度(BIDU)百舸基于昆侖芯完成了GLM、Qwen、DeepSeek、MiniMax、Kimi、MiMo等最新大模型的部署和應(yīng)用,讓頂尖AI能力轉(zhuǎn)化為產(chǎn)業(yè)發(fā)展動能。

免責(zé)聲明:風(fēng)險提示:本文內(nèi)容僅供參考,不代表同花順觀點(diǎn)。同花順各類信息服務(wù)基于人工智能算法,如有出入請以證監(jiān)會指定上市公司信息披露平臺為準(zhǔn)。如有投資者據(jù)此操作,風(fēng)險自擔(dān),同花順對此不承擔(dān)任何責(zé)任。
homeBack返回首頁
不良信息舉報與個人信息保護(hù)咨詢專線:10100571違法和不良信息涉企侵權(quán)舉報涉算法推薦舉報專區(qū)涉青少年不良信息舉報專區(qū)

浙江同花順互聯(lián)信息技術(shù)有限公司版權(quán)所有

網(wǎng)站備案號:浙ICP備18032105號-4
證券投資咨詢服務(wù)提供:浙江同花順云軟件有限公司 (中國證監(jiān)會核發(fā)證書編號:ZX0050)
AIME
舉報舉報
反饋反饋