杭州深度求索公司發布的DeepSeek-r1模型無疑成為春節科技圈頂流。春節期間,永信至誠(688244)根據多家企業用戶咨詢,圍繞大模型時代下如何搭上DeepSeek大模型快車道?如何在自身傳統行業中借力大模型提升企業各方面能力?等方面進行了深度測評。
依托春秋AI測評,找到10萬預算以內模型
為了認真回答這些問題,及時解答用戶的疑問,永信至誠依托生成式人工智能(AIGC)加持的春秋AI測評「數字風洞」平臺,以“魔法”測“魔法”,從企業的應用實際出發搭建測試環境和橫向比較對象,加載40萬余條兼容歐盟《人工智能法》、美國NIST《人工智能風險管理框架》、WDTA AI-STR-02《大語言模型安全測試方法》等國際測評標準的測試數據,基于「數字風洞」ISAC24測評標準,試圖找到10萬預算以內“最適合企業用戶的基座模型”。
測試期間,永信至誠面向DeepSeek在內的國內外主流AI大模型的智能度(Intelligibility)、安全度(Safety)、匹配度(Applicability)、一致度(Consistency)等方面設計了“數字風洞ISAC24”測試標準,并挑選了客戶可能會“選擇困難”的國內外AI模型作為橫向測評對象。看看DeepSeek和這些模型相比是否能展現出足夠優勢。
最終測評數據顯示,DeepSeek-r1在綜合測評成績、智能度和匹配度上均領先于Llama3.1、GPT-4o-Mini以及其余被測模型。回答的一致度上位于前列。但安全度方面有待加強,需要在后期的應用框架方面加安全防護和內容過濾。
在測評之外,公司也做了一個初步測算:部署DeepSeek-r1-Distill-Qwen-14B的整體解決方案市場價不超過10萬元人民幣,基本符合大多數企業客戶的初期預算和日常需求,并且它充分開源和完全商業授權的開源策略,讓更多研究人員和企業都可以基于DeepSeek-r1的訓練過程進行復現和深度開發。
500余萬測評數據為數字風洞提供科學依據
永信至誠依托在網絡靶場和數字安全測評領域的深厚技術積累與業務實踐成果,構建春秋AI測評「數字風洞」平臺,以春秋AI大模型為核心,基于標準化測評數據和海量業務場景模版,實現對AI智能產品智能度、安全度和匹配度的綜合測評,通過以模測模、以模強模,簡化測評流程,提高測評效率。
當前平臺已接入百度千帆、通義千問、月之暗面、虎博、商湯日日新、訊飛星火、360智腦、抖音豆包、紫東太初、孟子、智譜、百川等40余個AI大模型API,以及20余個本地搭建的開源AI大模型。平臺擁有基礎數據集100余個,總測評用例超過500萬條,模擬紅隊的AI越獄和變異性檢測載荷2萬余個。
已發布Llama2-7b、OpenAI GPT-4o、通義千問Qwen-72B(開源版)等大模型的測評報告,為大模型廠商提供專業的評估結果和具體整改和調試建議,以提升其內容安全性和整體性能。已開始為眾多高新技術企業、國央企、院校、特區政府提供科研及服務類AI健康及安全測評服務。
永信至誠作為AI大模型測試評估賽道領軍企業,也將與DeepSeek等一眾AI大模型廠商和用戶攜手共進,用安全賦能AI,用AI反哺安全。歡迎廣大AI大模型領域廠商和用戶合作共生,共同維護新質生產力時代技術的進步,為經濟繁榮、社會發展點亮的希望之光。(燕云)
校對:劉星瑩