DeepSeek開源周第二彈!
上周五,DeepSeek宣布連續(xù)五天開源五大軟件庫。今天DeepSeek選擇了先在GitHub上線,然后再在官推發(fā)布上新通知。該公司今日宣布將DeepEP向公眾開放。在宣布后的約20分鐘內(nèi),DeepEP已在GitHub、微軟(MSFT.US)等平臺上獲得超過1000個Star收藏。
據(jù)悉,DeepEP是MoE模型訓(xùn)練和推理的ExpertParallelism通信基礎(chǔ),可實現(xiàn)高效優(yōu)化的全到全通信,以支持包括FP8在內(nèi)的低精度計算,適用于現(xiàn)代高性能計算。DeepEP還針對從NVLink到RDMA的非對稱帶寬轉(zhuǎn)發(fā)場景進(jìn)行了深度優(yōu)化,不僅提供高吞吐量,還支持流式多處理器數(shù)量控制,從而在訓(xùn)練和推理任務(wù)中實現(xiàn)高吞吐量性能。
此外,券商中國記者在DeepSeek API開放平臺注意到,DeepSeek已重新開放API充值。DeepSeek-Chat模型優(yōu)惠期結(jié)束,調(diào)用價格已變更為每百萬輸入tokens 2元,每百萬輸出tokens 8元。此前因資源緊張,DeepSeek曾一度停止充值。
DeepEP向公眾開放
今天是DeepSeek開源第二天,他們一大早在官推上發(fā)布消息,開源DeepEP。
DeepSeek在官推上介紹,很高興介紹DeepEP第一個用于MoE模型訓(xùn)練和推理的開源EP通信庫。其特點包括:高效且優(yōu)化的全對全通信,通過NVLink和RDMA支持節(jié)點內(nèi)和節(jié)點間,用于訓(xùn)練和推理預(yù)填充的高吞吐量內(nèi)核,用于推理解碼的低延遲內(nèi)核,原生FP8調(diào)度支持,靈活的GPU資源控制,用于計算通信重疊。
資料顯示,使用混合專家(MoE)架構(gòu)的大型語言模型在計算量沒有相應(yīng)增加的情況下,顯著提高了模型容量。然而,這種方法也帶來了挑戰(zhàn)——尤其是在GPU之間的通信方面。在MoE模型中,對于任何給定的令牌,只有一部分專家處于活動狀態(tài),因此在設(shè)備之間高效交換數(shù)據(jù)至關(guān)重要。傳統(tǒng)的全對全通信方法可能會造成瓶頸,從而增加延遲并導(dǎo)致GPU資源利用不足。在對延遲敏感的設(shè)置中,例如實時推理,即使是很小的延遲也會影響整體性能。
專家認(rèn)為,DeepSeek推出的DeepEP,是一個專為MoE模型和專家并行(EP)設(shè)計的通信庫。DeepEP解決了在GPU之間調(diào)度和聚合令牌所固有的低效率問題。該通信庫提供高吞吐量、低延遲的全對全GPU內(nèi)核(通常稱為MoE調(diào)度和組合內(nèi)核),可簡化訓(xùn)練和推理過程中的數(shù)據(jù)交換。值得注意的是,DeepEP支持低精度操作(包括FP8),與DeepSeek-V3論文中詳述的技術(shù)一致。此版本直接應(yīng)對了在節(jié)點內(nèi)和節(jié)點間環(huán)境中擴展MoE架構(gòu)的挑戰(zhàn)。
DeepEP通過自適應(yīng)配置進(jìn)一步提高靈活性。用戶可以調(diào)整正在使用的SM數(shù)量等參數(shù),或設(shè)置環(huán)境變量來管理流量隔離。低延遲內(nèi)核目前支持的自適應(yīng)路由有助于在高負(fù)載下均勻分配網(wǎng)絡(luò)流量,從而提高穩(wěn)健性。
芯片需求大增
據(jù)路透社消息,中國企業(yè)推出低成本人工智能模型DeepSeek后,顯著推高了模型使用的英偉達(dá)人工智能芯片在中國市場的需求。路透社引述知情人士的消息說,多家互聯(lián)網(wǎng)巨頭對同款H20芯片的訂單激增。
與此同時,中國醫(yī)療保健、教育等領(lǐng)域規(guī)模較小的企業(yè)也開始采購備有DeepSeek人工智能模型和英偉達(dá)H20芯片的服務(wù)器。在這之前,只有財力較雄厚的金融和電信領(lǐng)域企業(yè)會采購人工智能計算系統(tǒng)。
報道說,雖然美國政府探討進(jìn)一步收緊對華出口芯片的限制,可能導(dǎo)致芯片訂單激增,但知情人士認(rèn)為,DeepSeek才是促使訂單增加的主要原因。
其實,除了DeepSeek之外,阿里Qwen團(tuán)隊今日早間在社交媒體宣布發(fā)布新推理模型——深度思考(QwQ)。這是在QWQ-MAX-PREVIEW支持下,一個基于Qwen2.5-Max的推理模型。QwQ可同時支持深度思考和聯(lián)網(wǎng)搜索,并會展示完整的思維鏈。Qwen團(tuán)隊稱,QWQ-MAX官方版本即將發(fā)布,同步會發(fā)布Android和iOS應(yīng)用程序,還會發(fā)布更小的可在本地設(shè)備部署的模型,如QWQ-32B等。
這些模型的推出,對于算力的需求也將是巨大的。今天,智算龍頭公司寒武紀(jì)一度大漲近5%,股價突破818元。GPU概念股也再度沖高,北京君正漲逾6%,龍芯中科漲逾3%。
校對:冉燕青?