国产精品亚洲综合久久,久久精品re,激情五月开心婷婷,久久亚洲日本不卡一区二区,高清一区二区三区,欧美日本日韩aⅴ在线视频

剛剛!DeepSeek,硬核發布!
來源:證券時報網作者:時謙2025-02-27 12:45

DeepSeek又有大動作!

開源周第三天,DeepSeek宣布開源Optimized Parallelism Strategies(優化并行策略)。

Optimized Parallelism Strategies,該策略是為了提高計算效率、減少資源浪費并最大化系統性能而設計的并行計算方案。這些策略通過合理分配任務、協調資源利用和減少通信開銷,實現在多核、分布式或異構系統中的高效并行執行。

與此同時,英偉達開源了首個在Blackwell架構上優化的DeepSeek-R1,實現了推理速度提升25倍,并且每token成本降低20倍的驚人成果。這一新模型的推出,標志著英偉達在人工智能領域的又一次重大進展。

動作不斷

DeepSeek開源周第四天,今天早上,該公司再度開源優化并行策略,包括DualPipe、專家并行負載均衡器 (EPLB)、DeepSeek Infra 中的性能分析數據。優化并行策略需根據任務類型、數據規模、硬件環境靈活選擇,平衡計算、通信和存儲開銷,最終實現高效、可擴展的并行計算。該策略是為了提高計算效率、減少資源浪費并最大化系統性能而設計的并行計算方案。

最近,DeepSeek硬核不斷。此前,該公司宣布將DeepEP向公眾開放。在宣布后的約20分鐘內,DeepEP已在 GitHub、微軟(MSFT.US)等平臺上獲得超過1000個 Star收藏。

據悉,DeepEP是MoE模型訓練和推理的Expert Parallelism通信基礎,可實現高效優化的全到全通信,以支持包括FP8在內的低精度計算,適用于現代高性能計算。DeepEP還針對從NVLink到RDMA的非對稱帶寬轉發場景進行了深度優化,不僅提供高吞吐量,還支持流式多處理器數量控制,從而在訓練和推理任務中實現高吞吐量性能。

此外,2月26日,DeepSeek宣布即日起在北京時間每日00:30至08:30的夜間空閑時段,大幅下調API調用價格,其中DeepSeek-V3降至原價的50%,DeepSeek-R1更是低至25%,降幅最高達75%。該公司稱,這一舉措旨在鼓勵用戶充分利用夜間時段,享受更經濟、更流暢的服務體驗。

英偉達亦借機突破

近日,英偉達開源了首個在Blackwell架構上優化的DeepSeek-R1,實現了推理速度提升25倍,并且每token成本降低20倍的驚人成果。這一新模型的推出,標志著英偉達在人工智能領域的又一次重大進展。

根據媒體報道,DeepSeek-R1的本地化部署已經引起廣泛關注,英偉達也親自下場,開源了基于Blackwell架構的優化方案——DeepSeek-R1-FP4。這一新模型在推理吞吐量上達到了高達21,088 token每秒,與H100的844 token每秒相比,提升幅度高達25倍。同時,每token的成本也實現了20倍的降低。

英偉達通過在Blackwell架構上應用TensorRT DeepSeek優化,讓具有FP4生產級精度的模型,在MMLU通用智能基準測試中達到了FP8 模型性能的99.8%。目前,英偉達基于FP4優化的DeepSeek-R1檢查點已經在Hugging Face上開源,并且可以通過以下鏈接訪問模型地址:DeepSeek-R1-FP4。

在后訓練量化方面,該模型將Transformer模塊內的線性算子的權重和激活量化到了FP4,適用于TensorRT-LLM推理。這一優化使每個參數的位數從8位減少到4位,從而讓磁碟空間和GPU顯存的需求減少了約1.6倍。

使用TensorRT-LLM部署量化后的FP4權重文件,能夠為給定的提示生成文本響應,這需要支持TensorRT-LLM的英達GPU(如 B200),并且需要8個GPU來實現tensor_parallel_size=8的張量并行。這段代碼利用FP4量化、TensorRT引擎和并行計算,旨在實現高效、低成本的推理,適合生產環境或高吞吐量應用。

據報道,針對此次優化的成果,網友們表示驚嘆,稱「FP4 魔法讓 AI 未來依然敏銳!」有網友評論道,這次的優化使得美國供應商能夠以每百萬token 0.25美元的價格提供R1,并認為「還會有利潤」。

如今,DeepSeek的開源活動持續進行。周一,DeepSeek 開源了 FlashMLA,這是專為英偉達Hopper GPU打造的高效MLA譯碼內核,特別針對變長序列進行了優化。周二則推出了DeepEP,這是一個為混合專家系統(MoE)和專家并行(EP)設計的通信庫。周三開源的是 DeepGEMM,這是一個支持稠密和 MoE 模型的 FP8 GEMM 計算庫,為 V3/R1 的訓練和推理提供強大支持。

總體而言,無論是英偉達開源的 DeepSeek-R1-FP4,還是 DeepSeek 開源的其他三個倉庫,都是通過對輝達 GPU 和集群的優化,來推動 AI 模型的高效計算和部署。

校對:趙燕

責任編輯: 冉超
聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態,洞察政策信息,把握財富機會。
網友評論
登錄后可以發言
發送
網友評論僅供其表達個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換
    主站蜘蛛池模板: 69性欧美| 国产一区二区视频在线 | 欧美精品三区 | 可以免费观看的毛片 | 国产精品高清2021在线 | 久久久久综合中文字幕 | 久久免费视频3 | 精品久久久久久中文字幕无碍 | 国产成人精品视频一区 | 免费试看120秒 | 男女羞羞视频在线观看 | 天天操夜夜骑 | 五月天婷婷视频在线观看 | 国产人免费人成免费视频 | 丁香花在线影院观看在线播放 | 婷婷涩五月 | 日韩久久久精品中文字幕 | 五月婷婷伊人 | 日本国产欧美色综合 | 精品樱空桃一区二区三区 | 国产大学生真实在线播放 | 久久99精品久久久久久久不卡 | 人人狠狠综合久久亚洲 | 男人的天堂精品国产一区 | 久久婷婷激情 | 国产一级一片免费播放电影 | 久草综合在线观看 | 国产精品免费一区二区三区 | 美女在线免费视频 | 韩国福利视频一区二区 | 第七色男人天堂 | 手机香蕉网 | αv天堂 | 色婷在线 | gogogo免费视频观看 | av2014天堂网| 久久久久久久久久国产精品免费 | 五月婷婷久 | 国产精品免费视频网站 | 高清国产性色视频在线 | 国产手机自拍视频 |