2月27日,DeepSeek宣布開源Optimized Parallelism Strategies。與此同時,英偉達開源了首個在Blackwell架構上優化的DeepSeek-R1,實現了推理速度提升25倍,并且每token成本降低20倍的驚人成果。這一新模型的推出,標志著英偉達在人工智能領域的又一次重大進展。
開源周第三天,DeepSeek宣布開源Optimized Parallelism Strategies(優化并行策略)。
據悉,該策略是為了提高計算效率、減少資源浪費并最大化系統性能而設計的并行計算方案。這些策略通過合理分配任務、協調資源利用和減少通信開銷,實現在多核、分布式或異構系統中的高效并行執行。
最近,DeepSeek動作不斷。此前,該公司宣布將DeepEP向公眾開放。在宣布后的約20分鐘內,DeepEP已在 GitHub、微軟(MSFT.US)等平臺上獲得超過1000個 Star收藏。
據悉,DeepEP是MoE模型訓練和推理的Expert Parallelism通信基礎,可實現高效優化的全到全通信,以支持包括FP8在內的低精度計算,適用于現代高性能計算。DeepEP還針對從NVLink到RDMA的非對稱帶寬轉發場景進行了深度優化,不僅提供高吞吐量,還支持流式多處理器數量控制,從而在訓練和推理任務中實現高吞吐量性能。
稍早于2月26日,DeepSeek宣布,即日起,北京時間每日00:30至08:30的夜間空閑時段,DeepSeek開放平臺推出錯峰優惠活動。在此期間,API調用價格大幅下調:DeepSeek-V3降至原價的50%,DeepSeek-R1降至25%。
DeepSeek稱,鼓勵用戶充分利用這一時段,享受更經濟更流暢的服務體驗。
DeepSeek推出優惠措施之時,正值其“開源周”。首個開源的代碼庫為針對Hopper GPU優化的FlashMLA,第二日是首個用于MoE模型訓練和推理的開源EP通信庫DeepEP,26日則開源了一個支持密集和MoE GEMM的FP8 GEMM 庫,為V3/R1訓練和推理提供支持。
英偉達通過在Blackwell架構上應用TensorRT DeepSeek優化,讓具有FP4生產級精度的模型,在MMLU通用智能基準測試中達到了FP8 模型性能的99.8%。目前,英偉達基于FP4優化的DeepSeek-R1檢查點已經在Hugging Face上開源,并且可以通過以下鏈接訪問模型地址:DeepSeek-R1-FP4。
在后訓練量化方面,該模型將Transformer模塊內的線性算子的權重和激活量化到了FP4,適用于TensorRT-LLM推理。這一優化使每個參數的位數從8位減少到4位,從而讓磁碟空間和GPU顯存的需求減少了約1.6倍。
綜合自券商中國