1月13日,國家發展改革委等四部門聯合發布《關于促進數據標注產業高質量發展的實施意見》(以下簡稱《實施意見》)。本次印發的《實施意見》是國家層面首次對數據標注這一新興產業進行系統謀劃。
什么是數據標注?簡單理解,就是給文本、語音、圖片、視頻等各種各樣的數據“打標簽”。據悉,數據標注產業憑借為機器學習模型提供精準訓練數據、提升模型識別準確率以及優化模型性能等作用,成為人工智能產業發展的核心支撐領域。
記者注意到,近年來,一系列支持政策陸續發布,支持數據標注產業發展壯大。例如,《“十四五”數字經濟發展規劃》提出,強化高質量數據要素供給,支持市場主體依法合規開展數據采集,聚焦數據的標注、清洗、脫敏、脫密、聚合、分析等環節,提升數據資源處理能力,培育壯大數據服務產業。
據央視新聞報道,2023年我國數據標注產業規模達800億元左右。“未來,隨著技術的不斷進步和應用場景的拓寬,數據標注產業將迎來更加廣闊的發展空間。”中關村物聯網產業聯盟副秘書長袁帥向《證券日報》記者表示,隨著大數據時代的到來,數據已成為驅動AI進步的關鍵因素,數據標注作為連接數據與算法的重要橋梁,其市場需求將持續增長。
事實上,不少上市公司已積極布局該領域,其中不乏龍頭企業的身影。
例如,京東集團股份有限公司(以下簡稱“京東”)的京東數據標注產業園于近日正式落戶江蘇省宿遷市。據了解,京東數據標注產業園是京東研發的專業數據標注處理平臺,全部投入運營后,從業人員規模將突破2500人,預計實現年營業收入30億元、稅收2億元以上。
云鼎科技股份有限公司在投資者互動平臺上表示,目前公司累計標注能源行業數據百萬張,數據資產具有質量優、規模大和類別全的特點,能夠為大模型訓練和優化提供豐富多樣的樣本,使模型在礦山領域的訓練和調優更具針對性,從而有助于提高模型的精準度。
北京東方國信科技股份有限公司在投資者互動平臺上表示,在工業數據語料庫領域,公司專注于為客戶打造一站式解決方案,全力協助客戶開展工業數據集構建工作。公司推出的產品與服務覆蓋多個關鍵環節,包括數據治理咨詢服務、數據集建設咨詢服務、工業多源數據采集與整合服務、數據清洗與預處理服務、多模數據標注服務以及數據資產管理服務。
談及哪些企業將具備先發優勢,中國投資協會上市公司投資專業委員會副會長支培元在接受《證券日報》記者采訪時表示,隨著數據標注產業的進一步發展,擁有龐大用戶群體和海量數據資源的互聯網龍頭企業或具備先發優勢。此外,人工智能頭部企業長期致力于人工智能算法和模型的研究與開發,對標注數據的質量和需求有著深刻的理解,在技術研發和人才儲備方面具有顯著優勢;傳統數據服務企業在數據處理、管理和分析方面積累了豐富的經驗,這些企業可以迅速將業務延伸到數據標注領域,利用自身的專業能力和資源優勢,為客戶提供一站式的數據標注解決方案,從而在市場競爭中搶占先機。