97免费视频在线,国产精品免费小视频,中国一级免费毛片

DeepSeek，又有大消息！

來源：證券時報網2025-03-01 18:52

DeepSeek又有大消息。

3月1日，DeepSeek發表題為《DeepSeek-V3/R1 推理系統概覽》的文章，全面揭曉V3/R1 推理系統背后的關鍵秘密。

最為引人注目的是，文章首次披露了DeepSeek的理論成本和利潤率等關鍵信息。據介紹，假定GPU租賃成本為2美元/小時，總成本為87072美元/天；如果所有tokens全部按照DeepSeek R1的定價計算，理論上一天的總收入為562027美元/天，成本利潤率為545%。

根據DeepSeek官方披露，DeepSeek V3和R1的所有服務均使用H800 GPU，使用和訓練一致的精度，即矩陣計算和dispatch 傳輸采用和訓練一致的FP8格式，core-attention計算和combine傳輸采用和訓練一致的BF16，最大程度保證了服務效果。

另外，由于白天的服務負荷高，晚上的服務負荷低，因此DeepSeek實現了一套機制，在白天負荷高的時候，用所有節點部署推理服務。晚上負荷低的時候，減少推理節點，以用來做研究和訓練。

在最近24小時（2025年2月27日12:00至28日12:00）的統計周期內：GPU租賃成本按2美元/小時計算，日均成本為87072美元；若所有輸入/輸出token按R1定價（輸入1元/百萬token、輸出16元/百萬token）計算，單日收入可達562027美元，成本利潤率高達545%。

不過，DeepSeek官方坦言，實際上沒有這么多收入，因為V3的定價更低，同時收費服務只占了一部分，另外夜間還會有折扣。

DeepSeek的高利潤率源于其創新的推理系統設計，核心包括大規模跨節點專家并行（EP）、計算通信重疊與負載均衡優化三大技術支柱：專家并行（EP）提升吞吐與響應速度，針對模型稀疏性（每層僅激活8/256個專家），采用EP策略擴展總體批處理規模（batch size），確保每個專家獲得足夠的計算負載，顯著提升GPU利用率；部署單元動態調整（如Prefill階段4節點、Decode階段18節點），平衡資源分配與任務需求。

計算與通信重疊隱藏延遲，Prefill階段通過“雙batch交錯”實現計算與通信并行，Decode階段拆分attention為多級流水線，最大限度掩蓋通信開銷。

全局負載均衡避免資源浪費，針對不同并行模式（數據并行DP、專家并行EP）設計動態負載均衡器，確保各GPU的計算量、通信量及KVCache占用均衡，避免節點空轉。

簡單來說，EP就像是“多人協作”，把模型中的“專家”分散到多張GPU上進行計算，大幅提升Batch Size，榨干GPU算力，同時專家分散，降低內存壓力，更快響應。

DeepSeek在工程層面進一步壓縮成本。晝夜資源調配：白天高峰時段全力支持推理服務，夜間閑置節點轉用于研發訓練，最大化硬件利用率；緩存命中率達56.3%：通過KVCache硬盤緩存減少重復計算，在輸入token中，有3420億個（56.3%）直接命中緩存，大幅降低算力消耗。

綜合自券商中國

責任編輯：梁秋燕

聲明：證券時報力求信息真實、準確，文章提及內容僅供參考，不構成實質性投資建議，據此操作風險自擔

下載“證券時報”官方APP，或關注官方微信公眾號，即可隨時了解股市動態，洞察政策信息，把握財富機會。

網友評論

登錄后可以發言

發送

網友評論僅供其表達個人看法，并不表明證券時報立場