亚洲久草视频,日本四虎影视,国产精品短视频

DeepSeek新論文再次引發熱議，它最重要的創新是什么？

來源：界面新聞作者：伍洋宇2025-02-19 14:54

DeepSeek V3和R1兩款模型帶來的熱度尚未平息，一篇新論文再次引來科技圈對其創新性的集體評估。

2月18日，DeepSeek的研究團隊發布了一篇新的技術論文，《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X（原推特）平臺上，DeepSeek這條推文在24小時內的閱讀量已達168萬。

這是一種可用于超快長上下文訓練和推理的稀疏注意力機制，并具有硬件對齊和本地可訓練的特性。其中最核心的內容就是NSA（Native Sparse Attention），一種全新的注意力機制。

簡單概括，憑借這套技術思路，大模型訓練將不僅對硬件要求更低，并且訓練效率更高，可能是一次相較MLA更高級別的創新。

稀疏注意力（Sparse Attention）是相對完全注意力（Full Attention）而言。在完全注意力機制的技術框架下，很多技術都是為了提高計算速度、減少運算成本，例如KV-Cache（鍵值緩存），但對于大模型訓練而言仍然可能導致恐怖的運算量。

此前，DeepSeek-V2的重要創新MLA——Multi-Head Latent Attention，多頭潛在注意力機制——就在保證模型性能的情況下，對KV-Cache進行了大幅優化。

其中一個很重要的思路是對KV矩陣進行了低秩分解，以低秩矩陣的形態來保存?？梢岳斫鉃閷⑦@個矩陣從“多維”壓縮至“一維”，這大大降低了對顯存的占用。

但到此為止，這些注意力機制依然存在一些局限。Monica.im產品合伙人張濤對界面新聞記者解釋稱，過去的矩陣“壓縮”技術是一種無差別壓縮。也就是說，那些有更重要含義的信息，其重要性也被平均降低了。

NSA針對性化解了這個問題。它提出了一個“三合一”方案，對token序列大致分為了三條注意力處理路徑：壓縮（Compression）、選擇性保留（Selection）和滑動窗口（Sliding Window）。

簡單理解，Compression跟過去所做的事情類似，即“壓縮”保留粗顆粒度的token模塊。

在Selection階段，該機制通過對已壓縮模塊引入qt（query token），得到這些模塊與當前要計算token的相關程度，以Top N（例如Top 2）的方式選出相關性最高的N個模塊，并對照原有的細顆粒程度token序列進行保留。

最后的Sliding Window是指一個滑動窗口，這個窗口僅獲取局部最近的一段完整token序列。張濤解釋稱，這個窗口是一個固定寬度，在時間軸上進行滑動，但永遠指向序列的最末尾處?！翱梢岳斫鉃楫斘乙梢痪湓挄r，離它最近的信息也可能提供額外的含義。”

也就是說，在這三條注意力處理路徑下，我們既得到了完整token序列在壓縮下的全局印象，也得到了經過篩選的最關鍵部分信息的細顆粒度token序列，以及離當前計算token最近的一段token序列。

NSA架構（圖片來源：DeepSeek）

“當三個特性結合到一起，整個過程就已經省了很多顯存占用和運算量，并且把壓縮損失掉的信息補充回來了?！睆垵硎?。

另外，NSA還引入了兩項創新機制，分別是硬件對齊系統，可保證算術強度平衡，以及訓練感知設計，可支持NSA進行高效部署和端到端訓練。

至此，這套全新注意力機制將要驗證自己的效果。在過去，很多注意力機制的調整可能導致模型表現下降，但NSA以稀疏注意力機制給模型“減負”的方式，不僅沒有造成性能下降，反而相較完整注意力機制在一些基準測試上實現了超越表現，包括通用和推理等等

更關鍵的是，它在解碼（Decode）速度上提升了11.6倍。張濤表示，這可以簡單理解為，運用這套機制的R1其推理速度也可能提升同樣倍數。

不過，MLA這一創新也可以優化解碼速度。在張濤看來，NSA更有意義的效率提升是對于正向和反向階段還將分別提速9倍和6倍。

其中，反向傳播是指模型訓練時，每完成一輪運行還要做一輪反向傳播，如此模型才能夠在這一輪迭代中學到“哪些做對了、哪些做錯了，以及哪些參數需要調整”。

這意味著NSA不僅對GPU的顯存要求降低，對卡間互聯通訊能力要求降低，甚至對于模型的訓練速度也加快了好幾倍。

“這才是這次創新的關鍵?！睆垵f，NSA有可能進一步解決了國產大模型在GPU芯片上被“卡脖子”的問題。

總體而言，張濤認為雖然這篇論文集中論述了技術思路，沒有完整披露其中的工程細節，但對于其他大模型公司來說復現并不難。

還有一個當前沒有被注意到的“彩蛋”。張濤指出，在這次論文中，DeepSeek運用到了一種叫做Triton的框架。這是由OpenAI開源的一套框架，屬于GPU的中間層語言，它既可以轉譯為英偉達的CUDA（其GPU并行計算平臺），AMD的ROCm（其開源計算平臺），也可以轉譯為華為昇騰的CANN（其AI芯片計算框架）。

雖然目前ROCm和CANN在Triton上表現還不夠好，但張濤認為這不是不能解決的。

“這不得不給大家留下一些想象空間。”張濤說，“這意味著從推理到訓練的算力，未來都有可能國產化了?！?/p>

責任編輯：陳勇洲

GPU

芯片

聲明：證券時報力求信息真實、準確，文章提及內容僅供參考，不構成實質性投資建議，據此操作風險自擔

下載“證券時報”官方APP，或關注官方微信公眾號，即可隨時了解股市動態，洞察政策信息，把握財富機會。

網友評論

登錄后可以發言

發送

網友評論僅供其表達個人看法，并不表明證券時報立場