3月10日,字節豆包大模型團隊官宣開源一項針對MoE架構的關鍵優化技術,可將大模型訓練效率提升1.7倍,成本節省40%。
據悉,該技術已實際應用于字節的萬卡集群訓練,累計幫助節省了數百萬GPU小時訓練算力。
入選頂級會議MLSys 2025
據了解,MoE是當前大模型的主流架構,但其在分布式訓練中存在大量跨設備通信開銷,嚴重制約了大模型訓練效率和成本。以海外主流模型Mixtral-8x7B為例,其訓練過程中通信時間占比可高達40%。
針對這一難題,字節在內部研發了COMET計算-通信重疊技術,通過多項創新,大幅壓縮了MoE專家通信空轉時間。
相較DeepSeek近期開源的DualPipe等MoE優化方案,COMET可以像插件一樣直接接入已有的MoE訓練框架,支持業界絕大部分主流大模型,無需對訓練框架進行侵入式改動。該工作以5/5/5/4的高分入選全球機器學習系統頂級會議MLSys 2025 ,被認為“在大規模生產環境中極具應用潛力”。
COMET與Deepseek研發的DualPipe方案還可以聯合使用。在降低MoE通信開銷上,COMET采用了計算-通信融合算子的優化方式,DualPipe則通過排布算子來掩蓋通信,兩種方案并不沖突,結合使用或將更大幅度壓縮模型訓練成本。
目前,COMET支持多種MoE并行模式,部署靈活、方便。同時,COMET核心代碼已開源,并向開發者提供了一套友好的Python API,計劃兼容Triton等編譯生態。
近期國內大模型研發技術快速獲得突破,相關APP下載量也迅速增長。下載量排名成為外界觀察各家大模型實用能力最直接的窗口。截至發稿,DeepSeek在中國區蘋果應用商店免費APP下載排行榜首,第二名是豆包,第三名是騰訊元寶。
最新辟謠
3月10日,寒武紀(688256.SH)股價午后出現拉升,一度漲超5%,收漲3.87%,報779元/股,總市值3252億元。
有市場消息稱,字節跳動向寒武紀下單4萬顆580芯片,單價2.5萬元,總價值合計10億元。
對此,字節跳動相關負責人表示,消息不實。
近期一度大火的Manus也傳曾婉拒字節的投資。
據報道,開發出Manus的中國創業公司——Monica,在2024年年初曾經與字節進行過一輪收購談判。當時字節出價3000萬美元,但因為遠遠達不到創始人肖弘的心理價位,這次談判最終不歡而散。
接近Monica內部的從業者表示,字節收購的邏輯是以3000萬美金的價格收購團隊,將其團隊和產品整合到豆包體系中,但是Monica進入字節后就會跟字節大模型戰略綁定,就喪失了Monica產品上的獨特優勢。這也是肖弘及其團隊不看好這場收購的主要原因。目前Monica估值接近1億美元。
對此,截至目前,字節跳動并未給予回應。
傳抖音將接入豆包大模型
近期有消息稱,抖音App正在測試接入豆包App的AI能力,為用戶帶來更加豐富多元的智能體驗。
在測試版本中,抖音為豆包App開放了兩個超級入口:一個置于短視頻界面,與點贊、評論、轉發等功能并列;另一個則放在抖音的消息列表內,使AI技術與社交功能深度融合,進一步強化了用戶互動體驗。
此前,豆包App雖然具備對話、創作及圖像生成等功能,但用戶需要離開抖音App才能使用,這在一定程度上,也限制了豆包大模型的使用頻率。
而通過將豆包直接嵌入抖音的兩個重要入口,抖音App將直接打通豆包大模型中成熟的AI功能,用戶無需跳轉即可使用AI服務,這不僅能強化抖音自身的AI能力,實現流量與功能的深度綁定,還能通過抖音龐大的用戶基數為豆包導流,推動“AI生態閉環”的建設。
此外,抖音接入豆包還可以延長用戶在抖音的停留時間,增加流量和用戶粘性,為廣告、電商等傳統業務提供更大空間。