国产精品亚洲综合久久,久久精品re,激情五月开心婷婷,久久亚洲日本不卡一区二区,高清一区二区三区,欧美日本日韩aⅴ在线视频

DeepSeek新論文再次引發熱議,它最重要的創新是什么?
來源:界面新聞作者:伍洋宇2025-02-19 14:54

DeepSeek V3和R1兩款模型帶來的熱度尚未平息,一篇新論文再次引來科技圈對其創新性的集體評估。

2月18日,DeepSeek的研究團隊發布了一篇新的技術論文,《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。在X(原推特)平臺上,DeepSeek這條推文在24小時內的閱讀量已達168萬。

這是一種可用于超快長上下文訓練和推理的稀疏注意力機制,并具有硬件對齊和本地可訓練的特性。其中最核心的內容就是NSA(Native Sparse Attention),一種全新的注意力機制。

簡單概括,憑借這套技術思路,大模型訓練將不僅對硬件要求更低,并且訓練效率更高,可能是一次相較MLA更高級別的創新。

稀疏注意力(Sparse Attention)是相對完全注意力(Full Attention)而言。在完全注意力機制的技術框架下,很多技術都是為了提高計算速度、減少運算成本,例如KV-Cache(鍵值緩存),但對于大模型訓練而言仍然可能導致恐怖的運算量。

此前,DeepSeek-V2的重要創新MLA——Multi-Head Latent Attention,多頭潛在注意力機制——就在保證模型性能的情況下,對KV-Cache進行了大幅優化。

其中一個很重要的思路是對KV矩陣進行了低秩分解,以低秩矩陣的形態來保存??梢岳斫鉃閷⑦@個矩陣從“多維”壓縮至“一維”,這大大降低了對顯存的占用。

但到此為止,這些注意力機制依然存在一些局限。Monica.im產品合伙人張濤對界面新聞記者解釋稱,過去的矩陣“壓縮”技術是一種無差別壓縮。也就是說,那些有更重要含義的信息,其重要性也被平均降低了。

NSA針對性化解了這個問題。它提出了一個“三合一”方案,對token序列大致分為了三條注意力處理路徑:壓縮(Compression)、選擇性保留(Selection)和滑動窗口(Sliding Window)。

簡單理解,Compression跟過去所做的事情類似,即“壓縮”保留粗顆粒度的token模塊。

在Selection階段,該機制通過對已壓縮模塊引入qt(query token),得到這些模塊與當前要計算token的相關程度,以Top N(例如Top 2)的方式選出相關性最高的N個模塊,并對照原有的細顆粒程度token序列進行保留。

最后的Sliding Window是指一個滑動窗口,這個窗口僅獲取局部最近的一段完整token序列。張濤解釋稱,這個窗口是一個固定寬度,在時間軸上進行滑動,但永遠指向序列的最末尾處?!翱梢岳斫鉃楫斘乙梢痪湓挄r,離它最近的信息也可能提供額外的含義。”

也就是說,在這三條注意力處理路徑下,我們既得到了完整token序列在壓縮下的全局印象,也得到了經過篩選的最關鍵部分信息的細顆粒度token序列,以及離當前計算token最近的一段token序列。

NSA架構(圖片來源:DeepSeek)

“當三個特性結合到一起,整個過程就已經省了很多顯存占用和運算量,并且把壓縮損失掉的信息補充回來了?!睆垵硎?。

另外,NSA還引入了兩項創新機制,分別是硬件對齊系統,可保證算術強度平衡,以及訓練感知設計,可支持NSA進行高效部署和端到端訓練。

至此,這套全新注意力機制將要驗證自己的效果。在過去,很多注意力機制的調整可能導致模型表現下降,但NSA以稀疏注意力機制給模型“減負”的方式,不僅沒有造成性能下降,反而相較完整注意力機制在一些基準測試上實現了超越表現,包括通用和推理等等

更關鍵的是,它在解碼(Decode)速度上提升了11.6倍。張濤表示,這可以簡單理解為,運用這套機制的R1其推理速度也可能提升同樣倍數。

不過,MLA這一創新也可以優化解碼速度。在張濤看來,NSA更有意義的效率提升是對于正向和反向階段還將分別提速9倍和6倍。

其中,反向傳播是指模型訓練時,每完成一輪運行還要做一輪反向傳播,如此模型才能夠在這一輪迭代中學到“哪些做對了、哪些做錯了,以及哪些參數需要調整”。

這意味著NSA不僅對GPU的顯存要求降低,對卡間互聯通訊能力要求降低,甚至對于模型的訓練速度也加快了好幾倍。

“這才是這次創新的關鍵?!睆垵f,NSA有可能進一步解決了國產大模型在GPU芯片上被“卡脖子”的問題。

總體而言,張濤認為雖然這篇論文集中論述了技術思路,沒有完整披露其中的工程細節,但對于其他大模型公司來說復現并不難。

還有一個當前沒有被注意到的“彩蛋”。張濤指出,在這次論文中,DeepSeek運用到了一種叫做Triton的框架。這是由OpenAI開源的一套框架,屬于GPU的中間層語言,它既可以轉譯為英偉達的CUDA(其GPU并行計算平臺),AMD的ROCm(其開源計算平臺),也可以轉譯為華為昇騰的CANN(其AI芯片計算框架)。

雖然目前ROCm和CANN在Triton上表現還不夠好,但張濤認為這不是不能解決的。

“這不得不給大家留下一些想象空間。”張濤說,“這意味著從推理到訓練的算力,未來都有可能國產化了?!?/p>

責任編輯: 陳勇洲
聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態,洞察政策信息,把握財富機會。
網友評論
登錄后可以發言
發送
網友評論僅供其表達個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點視頻
    換一換
    主站蜘蛛池模板: 91av亚洲 | 国产一区二区三区在线免费观看 | 欧美日韩国产高清 | 欧美爱爱视频 | 久久精品福利 | 九九久久精品国产 | 免费观看国产一区二区三区 | 午夜欧美成人 | 国产日韩欧美视频 | 私库在线视频看看 | 成人免费毛片一区二区三区 | 日本无遮挡 | 99香蕉精品视频在线观看 | 四虎四虎 | 黄色aa大片| 日本高清视频一区二区 | 日本美女老师 | 色一情一乱一伦一视频免费看 | 欧美高清视频在线观看 | 久久成人免费视频 | 99精品视频免费在线观看 | 免费靠视频完整版 | 国产毛片一区二区三区精品 | 开心色xxxx| 亚洲国产日韩成人综合天堂 | 欧美高清视频在线观看 | 国产精品久久久久影院嫩草 | 国产欧美精品一区aⅴ影院 国产欧美精品午夜在线播放 | 国产成人三级经典中文 | 久久中文字幕免费视频 | 精品成人久久 | 激情综合网五月天 | 免费国产成人高清网站app | 99re国产| 精品视频99 | 99视频在线免费看 | 久久最近最新中文字幕大全 | 精品久久国产老人久久综合 | 久久国| 五月婷六月婷婷 | 四虎国产精品成人永久免费影视 |