DeepSeek V3和R1兩款模型帶來的熱度尚未平息,一篇新論文再次引來科技圈對其創新性的集體評估。
2月18日,DeepSeek的研究團隊發布了一篇新的技術論文,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X(原推特)平臺上,DeepSeek這條推文在24小時內的閱讀量已達168萬。
這是一種可用于超快長上下文訓練和推理的稀疏注意力機制,并具有硬件對齊和本地可訓練的特性。其中最核心的內容就是NSA(Native Sparse Attention),一種全新的注意力機制。
簡單概括,憑借這套技術思路,大模型訓練將不僅對硬件要求更低,并且訓練效率更高,可能是一次相較MLA更高級別的創新。
稀疏注意力(Sparse Attention)是相對完全注意力(Full Attention)而言。在完全注意力機制的技術框架下,很多技術都是為了提高計算速度、減少運算成本,例如KV-Cache(鍵值緩存),但對于大模型訓練而言仍然可能導致恐怖的運算量。
此前,DeepSeek-V2的重要創新MLA——Multi-Head Latent Attention,多頭潛在注意力機制——就在保證模型性能的情況下,對KV-Cache進行了大幅優化。
其中一個很重要的思路是對KV矩陣進行了低秩分解,以低秩矩陣的形態來保存??梢岳斫鉃閷⑦@個矩陣從“多維”壓縮至“一維”,這大大降低了對顯存的占用。
但到此為止,這些注意力機制依然存在一些局限。Monica.im產品合伙人張濤對界面新聞記者解釋稱,過去的矩陣“壓縮”技術是一種無差別壓縮。也就是說,那些有更重要含義的信息,其重要性也被平均降低了。
NSA針對性化解了這個問題。它提出了一個“三合一”方案,對token序列大致分為了三條注意力處理路徑:壓縮(Compression)、選擇性保留(Selection)和滑動窗口(Sliding Window)。
簡單理解,Compression跟過去所做的事情類似,即“壓縮”保留粗顆粒度的token模塊。
在Selection階段,該機制通過對已壓縮模塊引入qt(query token),得到這些模塊與當前要計算token的相關程度,以Top N(例如Top 2)的方式選出相關性最高的N個模塊,并對照原有的細顆粒程度token序列進行保留。
最后的Sliding Window是指一個滑動窗口,這個窗口僅獲取局部最近的一段完整token序列。張濤解釋稱,這個窗口是一個固定寬度,在時間軸上進行滑動,但永遠指向序列的最末尾處?!翱梢岳斫鉃楫斘乙梢痪湓挄r,離它最近的信息也可能提供額外的含義。”
也就是說,在這三條注意力處理路徑下,我們既得到了完整token序列在壓縮下的全局印象,也得到了經過篩選的最關鍵部分信息的細顆粒度token序列,以及離當前計算token最近的一段token序列。
NSA架構(圖片來源:DeepSeek)
“當三個特性結合到一起,整個過程就已經省了很多顯存占用和運算量,并且把壓縮損失掉的信息補充回來了?!睆垵硎?。
另外,NSA還引入了兩項創新機制,分別是硬件對齊系統,可保證算術強度平衡,以及訓練感知設計,可支持NSA進行高效部署和端到端訓練。
至此,這套全新注意力機制將要驗證自己的效果。在過去,很多注意力機制的調整可能導致模型表現下降,但NSA以稀疏注意力機制給模型“減負”的方式,不僅沒有造成性能下降,反而相較完整注意力機制在一些基準測試上實現了超越表現,包括通用和推理等等
更關鍵的是,它在解碼(Decode)速度上提升了11.6倍。張濤表示,這可以簡單理解為,運用這套機制的R1其推理速度也可能提升同樣倍數。
不過,MLA這一創新也可以優化解碼速度。在張濤看來,NSA更有意義的效率提升是對于正向和反向階段還將分別提速9倍和6倍。
其中,反向傳播是指模型訓練時,每完成一輪運行還要做一輪反向傳播,如此模型才能夠在這一輪迭代中學到“哪些做對了、哪些做錯了,以及哪些參數需要調整”。
這意味著NSA不僅對GPU的顯存要求降低,對卡間互聯通訊能力要求降低,甚至對于模型的訓練速度也加快了好幾倍。
“這才是這次創新的關鍵?!睆垵f,NSA有可能進一步解決了國產大模型在GPU芯片上被“卡脖子”的問題。
總體而言,張濤認為雖然這篇論文集中論述了技術思路,沒有完整披露其中的工程細節,但對于其他大模型公司來說復現并不難。
還有一個當前沒有被注意到的“彩蛋”。張濤指出,在這次論文中,DeepSeek運用到了一種叫做Triton的框架。這是由OpenAI開源的一套框架,屬于GPU的中間層語言,它既可以轉譯為英偉達的CUDA(其GPU并行計算平臺),AMD的ROCm(其開源計算平臺),也可以轉譯為華為昇騰的CANN(其AI芯片計算框架)。
雖然目前ROCm和CANN在Triton上表現還不夠好,但張濤認為這不是不能解決的。
“這不得不給大家留下一些想象空間。”張濤說,“這意味著從推理到訓練的算力,未來都有可能國產化了?!?/p>