中國(guó)人民大學(xué)科學(xué)研究處、中國(guó)人民大學(xué)信息資源管理學(xué)院:錢明輝、楊建梁
當(dāng)人工智能走出實(shí)驗(yàn)室、邁向產(chǎn)業(yè)化的深水區(qū),數(shù)據(jù)已不僅是模型訓(xùn)練的原材料,更是支撐智能系統(tǒng)不斷演進(jìn)的核心資源。隨著大模型、多模態(tài)、具身智能等新范式持續(xù)推進(jìn),傳統(tǒng)由單一機(jī)構(gòu)提供數(shù)據(jù)的方式已難以滿足對(duì)數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量、更新頻率和語(yǔ)義深度的多重需求。在這一背景下,以開放數(shù)據(jù)集為基礎(chǔ)、以多元主體協(xié)同機(jī)制為支撐的“開放數(shù)據(jù)集生態(tài)”逐漸成型。這一生態(tài)不僅推動(dòng)了人工智能技術(shù)的規(guī)?;瘧?yīng)用,也正在重塑數(shù)據(jù)治理模式與社會(huì)協(xié)同機(jī)制。
相關(guān)閱讀:
高響應(yīng)數(shù)據(jù)集:人工智能新時(shí)代的關(guān)鍵要素
高對(duì)齊數(shù)據(jù)集:人工智能新時(shí)代的文明守護(hù)
高密度數(shù)據(jù)集:人工智能新時(shí)代的進(jìn)化引擎

數(shù)據(jù)萃?。骸叭摺睌?shù)據(jù)集構(gòu)建的點(diǎn)睛之筆
知識(shí)蒸餾與數(shù)據(jù)萃?。洪_發(fā)人工智能訓(xùn)練所需的“動(dòng)態(tài)食譜”與“黃金食材”
分布式數(shù)據(jù)集與聯(lián)邦學(xué)習(xí):人工智能持續(xù)生長(zhǎng)的協(xié)作之道
數(shù)據(jù)與數(shù)據(jù)集:面向新一代人工智能“聚沙成塔”
多模態(tài)數(shù)據(jù)集構(gòu)建:為人工智能的世界模型筑基
一、開放數(shù)據(jù)集生態(tài)構(gòu)建:來(lái)源結(jié)構(gòu)與實(shí)踐探索
開放數(shù)據(jù)集是指在符合安全、隱私和倫理規(guī)范的前提下,向社會(huì)公眾開放訪問、使用、標(biāo)注和再開發(fā)的數(shù)據(jù)資源集合,涵蓋文本、圖像、音頻、視頻等多種模態(tài)。根據(jù)來(lái)源與用途可大致分為四類:一是政府開放數(shù)據(jù),包括地理信息、公共服務(wù)、政務(wù)文件、統(tǒng)計(jì)年鑒等,強(qiáng)調(diào)公共可治理性;二是科學(xué)研究數(shù)據(jù),涵蓋高能物理、基因組學(xué)、天文觀測(cè)等領(lǐng)域,注重可驗(yàn)證性與共享精神;三是行業(yè)運(yùn)行數(shù)據(jù),如制造流程、金融交易、物流配送等,體現(xiàn)行業(yè)知識(shí)密度與流程特性;四是社會(huì)眾包數(shù)據(jù),如用戶上傳圖片、開放問答、平臺(tái)交互日志等,富含社群認(rèn)知特征與場(chǎng)景多樣性。
在全球范圍內(nèi),開放數(shù)據(jù)生態(tài)建設(shè)已積累了較為豐富的經(jīng)驗(yàn)。美國(guó)通過Data.gov平臺(tái)集中發(fā)布環(huán)境、交通、教育等政務(wù)數(shù)據(jù)集,NASA、USGS等機(jī)構(gòu)則向科研人員開放遙感、氣象、地質(zhì)等高價(jià)值科學(xué)數(shù)據(jù)集。歐盟以《開放數(shù)據(jù)指令》為政策抓手,構(gòu)建了跨國(guó)數(shù)據(jù)共享機(jī)制,推動(dòng)成員國(guó)間數(shù)據(jù)互通。Kaggle、UCI等學(xué)術(shù)平臺(tái)則廣泛提供機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語(yǔ)言處理等標(biāo)準(zhǔn)數(shù)據(jù)集,支撐機(jī)器學(xué)習(xí)和算法驗(yàn)證。
中國(guó)的開放數(shù)據(jù)體系起步較晚但發(fā)展迅速。國(guó)家統(tǒng)計(jì)局、自然資源部、生態(tài)環(huán)境部等政府部門已上線多個(gè)數(shù)據(jù)平臺(tái),涵蓋統(tǒng)計(jì)、地圖、水文、氣象等領(lǐng)域;在科研領(lǐng)域,“國(guó)家科技資源共享服務(wù)平臺(tái)”“科創(chuàng)中國(guó)”等項(xiàng)目整合了高校和研究機(jī)構(gòu)的數(shù)據(jù)資源;產(chǎn)業(yè)方面,百度、阿里、華為等頭部企業(yè)陸續(xù)開放語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理等任務(wù)數(shù)據(jù)集,推動(dòng)AI基礎(chǔ)模型訓(xùn)練。然而,國(guó)內(nèi)數(shù)據(jù)平臺(tái)在標(biāo)準(zhǔn)規(guī)范、接口透明度、更新頻率等方面仍有改進(jìn)空間,高價(jià)值行業(yè)數(shù)據(jù)(如醫(yī)療、金融)受限于隱私與安全監(jiān)管,仍未實(shí)現(xiàn)有效開放。

這一生態(tài)系統(tǒng)的形成,是技術(shù)變革、資源配置與治理需求共同推動(dòng)的結(jié)果。從技術(shù)角度看,大模型需要從泛化智能走向行業(yè)智能,必須依賴真實(shí)、豐富的場(chǎng)景數(shù)據(jù);從資源角度看,數(shù)據(jù)分散存儲(chǔ)在政府、企業(yè)和個(gè)人中,單一機(jī)構(gòu)難以獨(dú)立完成高質(zhì)量數(shù)據(jù)供給;從治理角度看,數(shù)據(jù)壟斷與數(shù)據(jù)鴻溝問題日益突出,推動(dòng)建立以公共價(jià)值為導(dǎo)向的開放機(jī)制成為現(xiàn)實(shí)選擇。由此,也不難發(fā)現(xiàn)開放數(shù)據(jù)集生態(tài)在當(dāng)前的戰(zhàn)略價(jià)值。在國(guó)家層面,開放數(shù)據(jù)集生態(tài)是實(shí)現(xiàn)數(shù)據(jù)主權(quán)與技術(shù)自立的重要抓手;在產(chǎn)業(yè)層面,開放數(shù)據(jù)集生態(tài)連接算法能力與落地場(chǎng)景,是技術(shù)轉(zhuǎn)化為生產(chǎn)力的關(guān)鍵紐帶;在社會(huì)層面,開放數(shù)據(jù)集生態(tài)為提升治理效率和公共服務(wù)質(zhì)量提供了底層支撐。從全球來(lái)看,開放數(shù)據(jù)集生態(tài)也正成為國(guó)際合作、文化交流和治理對(duì)話的重要基礎(chǔ),體現(xiàn)出從資源共享走向制度共建的深層邏輯。
二、開放數(shù)據(jù)集生態(tài)框架:關(guān)鍵角色與分工定位
開放數(shù)據(jù)集生態(tài)的建設(shè)是一項(xiàng)系統(tǒng)性工程,需要多方參與、協(xié)同推進(jìn)。在開放數(shù)據(jù)集生態(tài)中存在關(guān)鍵角色:
第一類是數(shù)據(jù)提供者,主要包括政府部門、科研院所、醫(yī)療機(jī)構(gòu)、企業(yè)組織等,負(fù)責(zé)數(shù)據(jù)的產(chǎn)生、脫敏處理和基礎(chǔ)標(biāo)準(zhǔn)化,是開放數(shù)據(jù)集生態(tài)的源頭。
第二類是平臺(tái)運(yùn)營(yíng)方,如國(guó)家或地方的數(shù)據(jù)平臺(tái)、行業(yè)協(xié)會(huì)建設(shè)的數(shù)據(jù)湖、社區(qū)驅(qū)動(dòng)的開源數(shù)據(jù)集項(xiàng)目,承擔(dān)數(shù)據(jù)的整合、發(fā)布、接口設(shè)計(jì)和質(zhì)量控制,是連接供需的樞紐。
第三類是數(shù)據(jù)使用者,包括高校、科研團(tuán)隊(duì)、AI企業(yè)等,他們通過使用數(shù)據(jù)推動(dòng)技術(shù)研發(fā)與模型訓(xùn)練,同時(shí)提出反饋與改進(jìn)建議,促進(jìn)數(shù)據(jù)集迭代。
第四類是制度建設(shè)與監(jiān)管方,如立法機(jī)構(gòu)、數(shù)據(jù)治理委員會(huì)、隱私保護(hù)組織,制定相關(guān)政策標(biāo)準(zhǔn),確保數(shù)據(jù)開放合法合規(guī),維護(hù)各方權(quán)益。
第五類是公眾與眾包參與者,包括數(shù)據(jù)標(biāo)注人員、普通用戶、自愿上傳者等,他們通過參與標(biāo)注、驗(yàn)證和反饋等行為,激發(fā)數(shù)據(jù)生態(tài)的活力與持續(xù)性。

圖 1 開放數(shù)據(jù)集生態(tài)關(guān)鍵角色
以一個(gè)智能醫(yī)療影像診斷項(xiàng)目為例,當(dāng)某地區(qū)突發(fā)罕見傳染病時(shí),醫(yī)療機(jī)構(gòu)與科研單位作為核心數(shù)據(jù)提供者,可以率先開放匿名化處理的CT影像數(shù)據(jù),企業(yè)同步共享設(shè)備采集的歷史影像庫(kù),經(jīng)統(tǒng)一標(biāo)準(zhǔn)格式轉(zhuǎn)換后形成基礎(chǔ)數(shù)據(jù)集。

平臺(tái)運(yùn)營(yíng)方依托國(guó)家醫(yī)學(xué)數(shù)據(jù)中心打造專項(xiàng)平臺(tái),通過分級(jí)訪問接口、沙箱環(huán)境與自動(dòng)化質(zhì)檢系統(tǒng)連接供需兩端。例如,平臺(tái)運(yùn)營(yíng)方可以設(shè)置差異化權(quán)限機(jī)制——普通研究者僅能訪問部分樣本,授權(quán)機(jī)構(gòu)則可以獲得完整的數(shù)據(jù)支持。
數(shù)據(jù)使用者在實(shí)際應(yīng)用中持續(xù)驅(qū)動(dòng)生態(tài)優(yōu)化。例如,醫(yī)療AI企業(yè)在模型訓(xùn)練中發(fā)現(xiàn)兒童病例識(shí)別準(zhǔn)確率不足60%,隨即提出分年齡段數(shù)據(jù)增強(qiáng)訴求,促使平臺(tái)開辟兒童病例專用通道;高校團(tuán)隊(duì)研發(fā)的新型標(biāo)注工具提升肺泡病變標(biāo)注效率,并反向注入數(shù)據(jù),這可以進(jìn)一步強(qiáng)化數(shù)據(jù)集的價(jià)值密度。
監(jiān)管方通過動(dòng)態(tài)規(guī)則守護(hù)系統(tǒng)安全邊界。隱私保護(hù)組織開發(fā)的加密模塊確保數(shù)據(jù)查詢的最小單元量,避免個(gè)人身份泄露風(fēng)險(xiǎn)。醫(yī)療倫理委員會(huì)設(shè)置的智能熔斷機(jī)制,則能對(duì)異常數(shù)據(jù)訪問行為實(shí)施必要的實(shí)時(shí)干預(yù)。
公眾參與同樣賦予生態(tài)獨(dú)特活力。醫(yī)學(xué)院學(xué)生通過模擬診斷實(shí)踐課程貢獻(xiàn)標(biāo)注軌跡,康復(fù)患者自愿上傳隨訪影像完善療效評(píng)估體系,形成公眾智慧與專業(yè)知識(shí)的共振。尤為關(guān)鍵的是,當(dāng)放射科專家同時(shí)以數(shù)據(jù)使用者與提供者身份推動(dòng)“臨床反饋-模型迭代”的雙周循環(huán)機(jī)制時(shí),監(jiān)管方同步出臺(tái)《動(dòng)態(tài)更新規(guī)范》,在保障系統(tǒng)持續(xù)進(jìn)化的同時(shí)防控未知風(fēng)險(xiǎn)。這種多角色身份轉(zhuǎn)換與協(xié)同演化,最終催生出融合原始數(shù)據(jù)與群體智能的加密知識(shí)圖譜,既服務(wù)于診斷模型升級(jí),又反哺新一代醫(yī)療設(shè)備研發(fā)。
在開放數(shù)據(jù)集生態(tài)中,這些參與方的角色并非一成不變,而是多元身份并存、協(xié)同演化。例如,科研人員既可能作為數(shù)據(jù)使用者,也可能通過課題研究反哺高質(zhì)量數(shù)據(jù)集開發(fā);政府既是平臺(tái)建設(shè)者,也是規(guī)則制定者。當(dāng)前,開放數(shù)據(jù)集的生態(tài)架構(gòu)也正從“數(shù)據(jù)收集—平臺(tái)聚合—模型訓(xùn)練”線性路徑,轉(zhuǎn)向“數(shù)據(jù)共建—知識(shí)共創(chuàng)—智能共融”的網(wǎng)絡(luò)結(jié)構(gòu),形成數(shù)據(jù)流、知識(shí)流與價(jià)值流交織的閉環(huán)體系。
三、開放數(shù)據(jù)集生態(tài)演化:潛在挑戰(zhàn)與未來(lái)展望
盡管開放數(shù)據(jù)集生態(tài)前景廣闊,但其發(fā)展仍面臨諸多挑戰(zhàn)。我國(guó)南方某經(jīng)濟(jì)大省作為數(shù)據(jù)開放的先行省份,在開放數(shù)據(jù)集生態(tài)建設(shè)方面積累了寶貴的試點(diǎn)經(jīng)驗(yàn),同時(shí)也經(jīng)歷了諸多不易:
一是數(shù)據(jù)可得性與結(jié)構(gòu)性失衡。高價(jià)值數(shù)據(jù)大多集中在政府與大型企業(yè),受限于隱私、法律或利益因素難以廣泛開放;而對(duì)數(shù)據(jù)需求強(qiáng)烈的中小機(jī)構(gòu)與科研團(tuán)隊(duì),則難以獲取足量、結(jié)構(gòu)化、可用性高的數(shù)據(jù)資源,造成供需錯(cuò)位。很多省市大量存在數(shù)據(jù)集零下載問題,部分地方的零下載率超過50%。一些地方政府發(fā)布的“機(jī)構(gòu)權(quán)責(zé)清單信息”等數(shù)據(jù)集因缺乏實(shí)用價(jià)值而被長(zhǎng)期閑置,企業(yè)業(yè)務(wù)創(chuàng)新急需的交通、醫(yī)療等動(dòng)態(tài)數(shù)據(jù)卻未充分開放。
二是標(biāo)準(zhǔn)缺失與技術(shù)協(xié)同不足。當(dāng)前,不同平臺(tái)之間依然缺少統(tǒng)一的數(shù)據(jù)格式與接口標(biāo)準(zhǔn),不同數(shù)據(jù)集之間難以互通共享。數(shù)據(jù)脫敏不徹底、元數(shù)據(jù)缺失、版本追溯困難、質(zhì)量評(píng)估體系薄弱等問題制約了數(shù)據(jù)集的可信度與可用性。數(shù)據(jù)質(zhì)量參差不齊,缺乏完善的評(píng)估體系和追溯機(jī)制;平臺(tái)間互操作性差,制約了數(shù)據(jù)集的整合利用。此外,制度滯后也加劇了開發(fā)者的不確定性,限制了數(shù)據(jù)集的廣泛使用。在一些地方政府的數(shù)據(jù)開放平臺(tái)中,往往只有三、四成數(shù)據(jù)集采用可機(jī)讀的CSV格式,遠(yuǎn)低于國(guó)家要求的90%,大量XLS/XLSX文件需人工解析,增加了數(shù)據(jù)集利用的技術(shù)門檻。MIT研究顯示,全球主流AI訓(xùn)練數(shù)據(jù)集(如C4、Dolma)中,25%的網(wǎng)頁(yè)因robots.txt限制或服務(wù)條款矛盾,導(dǎo)致數(shù)據(jù)抓取合法性存疑,加劇了數(shù)據(jù)碎片化。
三是生態(tài)激勵(lì)與可持續(xù)性不足。在現(xiàn)有的框架下,缺乏對(duì)數(shù)據(jù)貢獻(xiàn)方的明確的激勵(lì)機(jī)制,也沒有形成“數(shù)據(jù)即資產(chǎn)”的價(jià)值認(rèn)知體系。與此同時(shí),平臺(tái)維護(hù)成本高、用戶活躍度不足等問題,可能導(dǎo)致生態(tài)“建而不用”“用而不養(yǎng)”,對(duì)平臺(tái)維護(hù)方缺乏可持續(xù)商業(yè)模式,易陷入“流量低迷—維護(hù)乏力—服務(wù)降級(jí)”的惡性循環(huán),影響生態(tài)粘性與整體質(zhì)量。在一些地方政府?dāng)?shù)據(jù)開放平臺(tái)中,有超過6成以上的數(shù)據(jù)集未被及時(shí)更新,部分地方因所發(fā)布的開放數(shù)據(jù)集維護(hù)成本高、維護(hù)不及時(shí)而導(dǎo)致數(shù)據(jù)時(shí)效性下降。國(guó)內(nèi)大多數(shù)的數(shù)據(jù)交易平臺(tái)中,往往是僅有小部分企業(yè)持續(xù)貢獻(xiàn)數(shù)據(jù)更新。
為此,未來(lái)開放數(shù)據(jù)集生態(tài)應(yīng)朝著更加智能化、制度化與普惠化的方向演進(jìn)。
首先,未來(lái)開放數(shù)據(jù)生態(tài)的智能化協(xié)同機(jī)制將構(gòu)筑數(shù)據(jù)要素流通的革新范式。依托聯(lián)邦學(xué)習(xí)架構(gòu)、多方安全計(jì)算協(xié)議與智能合約機(jī)制的復(fù)合技術(shù)矩陣,未來(lái)開放屬于生態(tài)將構(gòu)建起數(shù)權(quán)明晰且價(jià)值貫通的智慧協(xié)作網(wǎng)絡(luò),探索數(shù)據(jù)可用不可見的新型實(shí)踐路徑。這種技術(shù)融合不僅破解了傳統(tǒng)數(shù)據(jù)共享中隱私保護(hù)與價(jià)值釋放的二元對(duì)立,更通過分布式智能節(jié)點(diǎn)的有機(jī)協(xié)同,形成覆蓋數(shù)據(jù)萃取、知識(shí)沉淀與價(jià)值聚合的全鏈路增值體系。
其次,未來(lái)開放數(shù)據(jù)集生態(tài)的制度化運(yùn)作體系將鑄就生態(tài)治理的堅(jiān)實(shí)基座。為此,需要構(gòu)建起包含數(shù)據(jù)主權(quán)分級(jí)框架、質(zhì)量認(rèn)證體系、算法治理規(guī)范、倫理審查機(jī)制的四維制度架構(gòu),形成剛?cè)岵?jì)的治理范式。其中既涵蓋數(shù)據(jù)要素三權(quán)分置等產(chǎn)權(quán)制度改革,也包含動(dòng)態(tài)演進(jìn)的監(jiān)管沙盒機(jī)制。通過規(guī)范性與靈活性并重的制度設(shè)計(jì),在公共利益與私人權(quán)益之間探尋動(dòng)態(tài)平衡點(diǎn),使治理體系兼具制度剛性與實(shí)踐彈性。
最后,未來(lái)開放數(shù)據(jù)集生態(tài)的普惠化進(jìn)程將重構(gòu)數(shù)字社會(huì)的參與范式。借助分布式眾包平臺(tái)與社區(qū)共創(chuàng)機(jī)制,推動(dòng)公眾完成從“數(shù)據(jù)集消費(fèi)者”向“數(shù)據(jù)集共建者”的角色躍遷。這種轉(zhuǎn)變既體現(xiàn)在公眾通過可視化工具參與城市治理的數(shù)字民主實(shí)踐,也反映在區(qū)塊鏈賦能的貢獻(xiàn)確權(quán)體系之中。當(dāng)每位參與者的數(shù)據(jù)行為都能映射為可量化的價(jià)值坐標(biāo),當(dāng)專業(yè)知識(shí)與群體智慧在交互中持續(xù)反哺,最終將孵化出人機(jī)共生、多元共治的數(shù)據(jù)集生態(tài)共同體。

總結(jié)而言,開放數(shù)據(jù)集生態(tài)是未來(lái)人工智能技術(shù)演進(jìn)與治理創(chuàng)新的重要平臺(tái)。它不僅為模型訓(xùn)練提供高質(zhì)量數(shù)據(jù)資源,更通過協(xié)同機(jī)制連接起政府、產(chǎn)業(yè)、科研與社會(huì)的多方力量,構(gòu)建出一個(gè)有機(jī)生長(zhǎng)的智能共同體。誰(shuí)能率先建成高質(zhì)量、制度化、可持續(xù)的開放數(shù)據(jù)體系,誰(shuí)就將在智能時(shí)代搶占創(chuàng)新高地與治理主動(dòng)權(quán)。
基金項(xiàng)目:國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“基于數(shù)智融合的信息分析方法創(chuàng)新與應(yīng)用”;國(guó)家檔案局科技項(xiàng)目“基于生成式人工智能的檔案數(shù)據(jù)化關(guān)鍵方法及其應(yīng)用研究”。
致謝:感謝中國(guó)人民大學(xué)信息資源管理學(xué)院博士研究生郭姝麟在本文完成過程中所提供的資料收集與整理支持。


