虛假語料污染大模型,“AI嘴替”或演繹新型市場操縱鏈。
假如在納米AI搜索輸入“三六零(或360)投資過DeepSeek嗎?”的提示詞,其給出的答案令人吃驚。
答案顯示,在2023年首輪融資中,360集團作為早期投資方之一,聯合多家機構共同支持DeepSeek的AI技術研發。2024年新一輪融資中,DeepSeek完成新一輪數億美元融資,360集團繼續跟投,顯示出對DeepSeek技術前景的持續看好。同時,答案中還明確了包括技術協同、商業化潛力、技術合作與安全支持等在內的投資邏輯。
不僅只有三六零一家公司“投資過DeepSeek”。近期,慈星股份、華勝天成、并行科技、誠邁科技等多家公司,都成為AI問答截圖中的角色。以慈星股份為例,AI回答中明確,這家公司“早期投資了DeepSeek”,相關內容與涉三六零回答高度相似。
但這些答案明顯經不起檢驗。無論是比對工商信息,還是企查查等第三方平臺,這些所謂的“公司為DeepSeek股東”子虛烏有。
已有上市公司辟謠。比如,有投資者問慈星股份董秘:“網上都說子公司與深度求索前期有合關系而且有向DeepSeeK投資1億元是真實的嗎?”公司明確回復:關注到近期部分社交平臺上有傳言稱本公司或公司下屬分、子公司參與DeepSeek融資。經核實,上市公司及其子公司均未參與DeepSeek的投資。
此外,華勝天成董秘多次回復投資者提問強調:截至目前,公司未通過直接或間接方式持有DeepSeek所屬公司的股份。
既然上市公司明確辟謠,那么是什么原因導致這些錯誤回答呢?答案是與語料投喂有關。
記者查閱前述“360投資過DeepSeek嗎”中的參考資料,發現東方財富網財富號成為重要語料源頭。
在三六零股吧中,就有關于“360于2023年就參與DeepSeek 的投資”話題的相關文章,且不僅一篇,而是多日連續出現。細看此類文章的作者,全部為匿名,內容沒有明確官方信源,匿名作者也對內容的真實性不負責。
中國信通院相關負責人對記者分析說,這在業內稱為“語料污染”:“我們曾做過試驗,當在特定論壇連續發布百余條虛假信息后,主流大模型對對標問題的回答置信度就會從百分之十幾快速飆升。這就像在純凈水中滴入墨水,當污染源足夠密集,整個知識體系都會被扭曲。”
在這種情況下,如果沒有新的真實語料覆蓋虛假語料,就會帶來“劣幣驅逐良幣”。由此,則當投資者提出相同問題時,所得到的AI答案大概率就是失真的。
那么,是誰來發布相關這些偽造信息呢?從近期語料提供方來看,市場指向一批賬號“馬甲”。這些賬號多地、多次散布諸如“某公司入股DeepSeek”等謠言,喂養給AI大模型錯誤答案,給AI“洗腦”。
前述信通院人士對記者拆解了可能存在的“打法”:通常來看標準作業流程包含三個階段:首先通過自動化腳本在多個論壇同步投放虛假信息,接著利用爬蟲技術加速搜索引擎收錄,最后用污染后的AI回答進行社交媒體裂變傳播。按照業內慣例,完成整套操作的成本通常為萬元級別。
今日頭條就在將AI謠言進行“靶向打擊”。在2月24日今日頭條平臺治理開放日上,清華大學新聞與傳播學院副教授陸洪磊表示,AI正在重塑網絡信息的傳播生態,我們正面臨一場前所未有的信息真實性“戰爭”。謠言之所以能夠俘獲受眾,主要是因為受眾的認知和情緒。因此,投資者提升認知非常重要。
對此,慈星股份方面給出回應:網絡信息源頭非常重要。投資人也需要“注意甄別網絡信息源頭,理性判斷,謹慎投資,注意投資風險”。
涉及方也應積極作為。北京某家公司董秘對記者介紹,當謠言所涉及上市公司未主動澄清時,普通投資者幾乎難以甄別信息的真偽。這也說明上市公司及時關注股價表現、及時跟蹤輿情情況、及時給出準確回復的重要性。
隱秘利益鏈?
從近期案例來看,誤導大模型并非“黑嘴”炮制虛假內容的最后環節,他們往往再會將AI回復截圖作二次傳播,這樣AI大模型就成為這些黑嘴的“嘴替”。
那么,這些“語料污染”制造者,頻繁制造“假利好”的動機是什么呢?
北京某私募人士則對記者透露,背后可能存在利益鏈條,不排除有誘導出貨的可能。他舉例說,比如通過虛假語料投喂—模型污染—二次傳播—股價異動,倘若這個灰色產業鏈構成閉環,那么就有可能構成新型的市場操縱鏈條。
這一猜測并非無中生有。
此前,證券時報·e公司曾報道,抖音等短視頻平臺直播薦股,對于新投資者的誘導效用空前變強。從某些個股表現來看,以新投資者為代表的散戶合力,對股價產生的撬動作用,甚至堪比中等規模的游資。而在直播薦股背后,一些游資與主播的“合謀盈利模式”也暗流涌動。短視頻直播間由此可能成為個別游資找尋接盤者的新陣地。
針對“AI黑嘴”現象,已有媒體表示,在陽光照不到的陰暗角落,股市“黑嘴”們及幕后的不法之徒,在利用AI作惡,用虛假語料誤導大模型作出錯誤回答,再將這些“AI答案”傳播擴散坑騙散戶,以干擾甚至操縱個股的市場交易。
前述信通院人士表示,隨著技術的進步,“黑嘴”模式也在不斷變化。背后顯現出當前大模型在商業關系識別上存在的某些缺陷。比如,無法區分技術部署與商業合作、難以追溯股權多層穿透、對時間維度變化不敏感等。這些都有待技術層面在AI、在商業知識圖譜等方面補齊短板。
日前,監管部門發布2025年“清朗”系列專項行動通知。通知中就明確,將從整治AI技術濫用亂象、整治涉企網絡“黑嘴”等八個方面下手,嚴厲打擊各類侵權違法行為。
陸洪磊表示,AI謠言傳播具有新聞性、說服性、虛假性、非官方性、強傳播性、不可逆性等特點。要想治理AI謠言傳播,需要解構語境、遏制主體、阻斷投射、也需要協同治理?!霸谡嫦嗯c謊言的賽跑中,沒有人是旁觀者?!?/p>