2月25日,OpenAI的最強勁敵、美國AI大模型初創公司Anthropic發布了首個混合推理模型Claude 3.7 Sonnet。與其他模型相比,Claude 3.7 Sonnet最特別之處在于集合了大語言模型和推理模型于一身,用戶可以選擇讓模型實時快速作答,也可以選擇讓其進行更深入的思考。
在發布新模型的同時,據華爾街日報日前報道,Anthropic正在洽談一輪35億美元的融資,這一規模遠遠超出最初計劃融資20億美元的預期。據了解,投資者對Anthropic表達了高漲的興趣,在談判過程中提高了融資規模。若新一輪融資完成,Anthropic最新的估值將達到615億美元,是此前180億美元估值的近4倍。
發布市場上唯一的“混合”模型
Anthropic認為,就像人類不會有兩個不同的大腦來分別處理可以立即回答的問題和需要思考的問題一樣,推理只是前沿模型應具備的能力之一,應與其他能力順暢融合,而不是一個完全獨立的模型。
因此,Claude 3.7 Sonnet將最先進的大型語言模型的功能與推理模型的功能相結合。雖然大語言模型通常生成文本并理解語言模式,但推理模型是一種特定類型的大語言模型,可以將復雜問題分解為幾個步驟,顯示其得出解決方案的“思路鏈”。Claude 3.7 Sonnet兼具“推理模式”與“傳統模式”,既可以思考復雜問題,也可以實時生成答案。
值得注意的是,這是市場上唯一的“混合”模型,也被Anthropic稱為迄今為止“最智能”的人工智能模型。具體而言,Claude 3.7 Sonnet將提供兩種思考模式——“標準”和“擴展”。用戶可以選擇希望采用哪種思考模式。“標準思考”是無需進行復雜的推理過程,就能立刻提供答案;“擴展思維”則需提供復雜的推理過程,會展示詳細的推理思維鏈。
在標準模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級版。在擴展思考模式下,它會在回答前進行自我反思,從而提高了它在數學、物理、指令執行、編碼以及許多其他任務上的表現。
除此以外,Claude 3.7 Sonnet具有卓越的編碼能力。測試數據顯示,Claude 3.7 Sonnet在編寫代碼能力方面大幅度超過了DeepSeek-R1、OpenAI的o1、o3模型等。Anthropic還推出了代理編碼工具Claude Code,可以搜索和讀取代碼、編輯文件、編寫和運行測試、提交和推送代碼到GitHub以及使用命令行工具。
新一輪融資規模遠超預期
在DeepSeek讓開源逐漸深入人心的同時,以OpenAI、Anthropic等為代表的閉源模型社區也不甘落后。值得注意的是,在OpenAI對于走閉源路線已不那么篤定的背景下,Anthropic正逐漸變成閉源社區中的“扛大旗者”。
在今年春節DeepSeek引發海外廣泛關注期間,Anthropic的聯合創始人Dario Amodei還發表了一篇長文,系統闡述對于DeepSeek的看法。他表示,DeepSeek的訓練成本遠沒有人們說的那么低,“600萬美元模型”的說法忽略了許多關鍵背景。更準確的說法應該是DeepSeek以更低的成本生成出一個接近7—10個月前美國模型水平的產品。言外之意是,閉源模型仍然處于領先的位置。
他還同時表示,大模型還處在擴展曲線的早期階段,只要有一個強大的預訓練模型作為基礎,幾家公司都能開發出這類模型。“我們正處在一個有趣的‘交叉點’,暫時出現了多家公司都能生產出優秀推理模型的情況。但隨著各公司在這些模型上繼續向上攀升擴展曲線,這種情況很快就會消失。”Dario Amodei表示。
事實上,當DeepSeek橫空出世后,外界普遍認為這將對Anthropic構成直接的沖擊,因為如果閉源模型不能夠證明自己大幅領先于開源模型,那么支撐其繼續走閉源路線的基礎便不復存在。Anthropic今日發布新模型,無疑也是在“秀肌肉”,向外界展現其在技術方面的領先性。
在新模型推出之際,據外媒報道,Anthropic即將完成一輪35億美元融資,估值達615億美元,是此前180億美元估值的近4倍。本輪融資的投資者包括風險投資公司Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners。此外,總部位于阿布扎比的MGX投資公司也在與Anthropic商談參與投資事宜。
35億美元的融資規模,已大幅超越其最初的20億美元融資計劃。這從側面表明盡管DeepSeek的崛起帶來了沖擊,但投資者仍對Anthropic這樣的閉源模型公司抱有信心。
校對:王朝全