火爆!量化巨頭出手即“王炸”
科技圈和資管行業(yè)同時沸騰。
近日,國內(nèi)全新大模型DeepSeek-V3首個版本上線,并同步開源。DeepSeek-V3背后并非互聯(lián)網(wǎng)大廠,而是國內(nèi)頭部量化機(jī)構(gòu)幻方量化。量化“大佬”進(jìn)軍AI大模型,引發(fā)關(guān)注。
前沿大模型“刷屏”
上一代模型DeepSeek-V2.5發(fā)布三個多月后,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(DeepSeek)近日發(fā)布公告,DeepSeek-V3正式上線。其迭代速度和性能表現(xiàn)令行業(yè)震驚,訓(xùn)練成本僅為557.6萬美元,整個訓(xùn)練只需要280萬個GPU小時。
DeepSeek-V3的更新上線,其模型API服務(wù)定價調(diào)整為每百萬輸入tokens0.5元(緩存命中)或百萬輸入tokens2元(緩存未命中),每百萬輸出tokens8元。其超低的定價引發(fā)科技圈轟動。
從性能來看,DeepSeek-V3多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet難分伯仲。
此外,通過算法和工程上的創(chuàng)新,DeepSeek-V3的生成吐字速度從20TPS大幅提高至60TPS,相比V2.5模型實現(xiàn)了3倍的提升,為用戶帶來更加迅速流暢的使用體驗。
對于訓(xùn)練成本較低的原因,DeepSeek-V3回復(fù)稱,主要歸功于算法優(yōu)化、模型架構(gòu)創(chuàng)新(如稀疏注意力機(jī)制、模型剪枝等技術(shù))、智能的數(shù)據(jù)采樣和增強技術(shù)、硬件加速、高效的分布式計算策略,以及通過知識蒸餾技術(shù),將大型模型的知識轉(zhuǎn)移到更小的模型中,小模型在保持較高性能的同時計算需求大幅降低。
量化中的“極致技術(shù)理想主義者”
值得關(guān)注的是,DeepSeek-V3背后并非互聯(lián)網(wǎng)大廠,而是國內(nèi)頭部量化機(jī)構(gòu)幻方量化。
作為國內(nèi)頂尖量化私募,幻方量化是目前最堅定向科技公司轉(zhuǎn)型的“異類”。2023年4月,幻方量化高調(diào)宣布將踏上新征程,“追尋一直以來的技術(shù)理想,超越投資去直面更大的課題”。
幻方量化在公告中表示,多年以來,幻方量化堅持把營收的一大部分投入人工智能領(lǐng)域,建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施,進(jìn)行大規(guī)模研究,探索人類未知的奧秘。
一位量化業(yè)內(nèi)人士表示:“幻方量化已將大模型當(dāng)作主攻賽道,大模型團(tuán)隊非常龐大,與其它量化機(jī)構(gòu)在戰(zhàn)略上明顯不同。”
幻方量化在算力方面的投入巨大,是除了頭部互聯(lián)網(wǎng)大廠外,國內(nèi)少數(shù)擁有超過1萬枚GPU的公司。DeepSeek曾多次強調(diào)其萬卡GPU訓(xùn)練集群的優(yōu)勢,并強調(diào)擁有在學(xué)術(shù)、競賽和工程圈的頂尖人才,將團(tuán)隊視為“一群極致的技術(shù)理想主義者”。
近年來,DeepSeek不斷招賢納士,擴(kuò)充團(tuán)隊。對于頂尖的AI人才,給出的待遇相當(dāng)可觀。此前,DeepSeek曾高薪招聘AGI大模型實習(xí)生。對于深度學(xué)習(xí)研究員,更是開出最高11萬元的月薪。
0人