中國網/中國發展門戶網訊 訓練數據的規模和質量決定了人工智能發展的高度。端側模子和具身智能等技術路線的演進,對高質量、多模態和規模化的數據資源提出了更高請求。優質數據的可得性、真實性和多樣性,已成為人工智能技術持續衝破的焦點基礎。
當前,我國人工智能在部門領域已獲得顯著進展,但整體機能與世界頂尖程度仍有必定差距。除算力、人才、資金等原因外,訓練數據的供給質量和暢通效力日益成為制約模子機能和行業創新的關鍵原因。我國訓練數據面臨“質量低、數量少、分布散”的凸起問題。優質中文語料積累缺乏、公共數據暢通不暢、垂直行業數據標注本錢高企,加之版權與個人信息保護等監管障礙,使訓練數據的獲取、應用和共享本錢居高不下。在此佈景下,分解數據逐漸成為主要補充手腕,但其在真實性和多樣性方面仍存在局限,難以周全緩解優質數據的結構性缺乏問題。
晉陞數據質量、促進數據暢通,是我國在人工智能競爭中取勝的關鍵。數據要素的復制本錢低、資產專用性強,對訓練數據的生產和暢通構成了諸多制約。只要充足考慮數據要素的基礎特徵,制訂針對性強的政策辦法,才幹為人工智能發展奠基堅實基礎,推動產業安康可持續發展。
商業生態對訓練數據的影響
人工智能技術的敏捷發展,使得相關企業對優質數據的需求不斷攀升。但與此同時,這一需求的增長遭到技術計劃、商業應用和資本市場的深入影響。
訓練數據具有較強的資產專用性,往往為特定領域和任務定制,難以跨場景通用。例如,ChatGPT-o1和DeepSeek-R1等推理模子,在強化學習階段需求高質量的思維鏈數據作為“冷啟動”素材,這與以往所需求的數據年夜不雷同。再如,一些國內的自動駕駛企業發現,訓練自動駕駛的端到端年夜模子,導致以前積累的路測數據只要年夜約2%可以應用,需求從頭考慮數據標注計劃。這些現象表白,技術計劃直接決定了訓練數據的搜集方法和標注流程,從而影響了訓練數據的市場需求。
應用場景的開發狀況直接影響訓練數據的質量。今朝,國內開放的年夜部門自動駕駛路測區域,難以涵蓋復雜路況,限制了數據的多樣性。此外,部門平臺企業在模子初步可用后,過度強調游戲、社交和廣告等場景的商業落地,導致模子逗留在低質量數據的循環中,使得機能難以進一個步驟優化。
平臺和初創企業所面臨的結構性限制,克制了摸索前沿技術和獲取優質數據的動力。部門平臺企業因組織惰性和股東干預,傾向于將資源投進低風險項目,導致訓練數據的低程度重復。初創企業則遭到風投資本短期趨利行為和“明股實債”對賭協議的影響,傾向于短期變現,忽視底層數據積累,形成總體技術程度始終落后于人工智能前沿程度的國家。
總體來看,商業生態不僅影響著訓練數據生產和暢通的市場需求,還影響著企業生產優質數據的動力。在監管合規壓力較年夜的環境中,只需技術標的目的明確、商業利潤可觀、資金投進預期清楚,即使優質數據自己的合規性較為含混,行業存在必定的灰色地帶,企業仍然有積極性從事這些數據的生產和買賣。
監管政策對訓練數據的影響
在技術發展遭受瓶頸、企業對技術和市場遠景預期不明確的情況下,監管政策的主要性就會凸顯出來,影響訓練數據的生產和暢通。監管政策帶來的不確定性,也會反過來影響數據行業的融資和市場規模。總體來看,國內外監管政策對訓練數據的關注點,重要集中在知識產權和個人信息保護等方面。
知識產權
2023年7月,國家互聯網信息辦公室等七部門發布的《天生式人工智能服務治理暫行辦法》中,第7條明確規定,“應用具有符合法規來源的數據和基礎模子”“觸及知識產權的,不得損害別人依法享有的知識產權”等。但是,依照現行的《中華國民共和國著作權法》(以下簡稱《著作權法》),相關企業必須事前獲得訓練數據中權利人的許可。假如堅持先許可后應用的原則,企業將面臨過高的許可本錢。《著作權法》第24條明確規定了版權作品公道應用的13種條件,但在人工智能模子訓練中應用版權作品的行為,仍處于法令適用的含混地帶,尚無明確的寬免依據。
一個惹人注視的案例是秘塔AI公司與中國知網(CNKI)的版權糾紛。秘塔AI公司在應用中國知網學術資源搭建搜刮系統時,未獲得中國知網的授權。中國知網認為秘塔AI公司侵略了其著作權,而秘塔AI公司則主張其行為僅觸及知網論文的題錄和摘要,屬于公道應用。最終,該事務以秘塔AI公司宣布不再收錄知網內容而告終。
部門國家都分歧水平放寬了訓練數據在版權問題上的請求。以色列和japan(日本)在版權問題上較為激進,兩國行政部門均曾公開聲明,人工智能應用版權作品進行訓練,屬于“公道應用”的范圍。歐盟和英包養行情國也在相關法案中,單獨定義了文本和數據發掘行為(text and data mining),并注明這一行為在版權法中的適用條件。japan(日本)和韓國的行政部門還出臺了詳細的合規指南,區分分歧市場主體的法令責任,并供給具體的合規建議。
個人信息保護
個人信息保護和數據平安的監管,能夠會增添數據采集、標注和人工智能等行業的合規本錢,影響數據生產和暢通的市場預期。在實際執行層面,數據企業重要面臨“難落實”和“缺細則”這兩個問題。
“落實難”。監管法規中的個別條款在當前階段落實難度較年夜。對中小企業來說,由于資源限制,很難樹立法規請求的內部風控和評估機制。當前法規對數據“匿名化”的請求過高且標準含混,算法處理后能夠遺漏極端情況,需求人工篩查,而中小企業難以負擔此類合規流程的昂揚本錢。在自動駕駛和機器人等領域,“匿名化”會下降圖像和視頻數據的質量,減弱人工智能模子的機能。訓練數據的生產鏈條尤為復雜,企業難以確保一切數據都獲得相關個人的知情批準,也難以判斷能否違反了數據搜集的“起碼需要”原則,這進一個步驟加劇了企業的合規風險。
“缺細則”。在“落實難”的情況下,企業急需加倍明確的細則,以減少合規過程中存在的不確定性。例如,針對數據采集、標注、買賣和應用等環節,“知情批準”和“起碼需要”原則應當有破例和免責條款。除汽車行業的數據平安治理規定,其他行業尚未明確“主要數據”范圍,個人信息“匿名化”也缺少明確的技術標準。此外,部門法規對“情節嚴重”的認定較為含混,導致法令責任的鑒定依賴法官的不受拘束裁量,也讓企業在實操中難以掌握合規邊界。
國內在監管法規方面的借鑒。歐盟。歐盟《通用數據保護條例》(GDPR)側重個人權利保護,企業搜集數據凡是徵引“正當好處”(legitimate interest)條款,但監管機構對“正當好處”鑒定較為嚴格。實證研討顯示,GDPR頒布后,企業的合規本錢上升,導致歐盟企業比北美地區企業均勻減少了將近1/4的數據要素投進強度。北美。北美地區的個人信息保護立法,以american加利福尼亞州最為典範。《加州消費者隱私法案》(CCPA)和《加州隱私權法案》(CPRA)以促進數據暢通為導向,采用“選擇-加入”(opt-out)機制,默認企業可以搜集、出售和共享個人信息,但用戶有權拒絕企業的出售和共享行為。此外,北美地區與個人信息保護相關的多部法案,請求企業對數據進行“往標識化”處理,整體合規義務相對較輕,有助于下降企業的合規本錢。其他國家。其他國家的監管也有值得借鑒的處所,例如:新加坡將“業務改進或研討目標”視為個人信息保護的破例情況;韓國則加強監管部門和好處相關者的溝通一起配合,通過司法解釋與合規指引等方法,推動個人信息保護與人工智能產業發展相協調。
公共數據開發應用
當前,各地公共數據買賣機制在軌制設計與實施環節均存在必定障礙,影響了數據暢通效力和市場活氣。體制內單位沉淀的數據,如醫療記錄、教導題庫、司法文書、工商登記、圖書史料等,具有較高的客觀性和準確性,是人工智能訓練數據的主要資源。2020年以來,各地紛紛樹立當局主導的數據買賣機構,作為公共數據授權運營產品的買賣場所,以及為企業之間的數據買賣供給撮合服務。但在實踐中,前置合規審查比較煩瑣,再加上相關法規仍有“難落實”和“缺細則”的處所,增添了場內買賣本錢。例如,某地數據買賣所實行“分歧規不掛牌,無場景不買賣”的原則,必定水平上阻礙了更多企業進場買賣。個別數據買賣機構出于特定技術請求或合規目標,請求企業將數據提早存儲在買賣所內,引發企業的不平安感,挫傷場內買賣的積極性。雖然高價值的公共數據需求通過合規認證來保證買賣標的的真實性,但當前場內買賣的合規審查機制亟待優化。
此外,公共數據的開發應用仍呈現孤島化的格式,阻礙了公共數據需乞降價值的晉陞。數據要達到必定規模,才幹創造足夠年夜的市場價值和需求。今朝,公共數據由各地疏散開發,授權定價碎片化,在監管上標準掌握紛歧致,相當于“高速公路上設置多個獨立經營的收費站”,增添了需求方整合各地公共數據的買賣本錢,會在無形中進步市場準進門檻,排擠能夠在全國范圍內產生創新的潛在優質企業。個別處所當局在數字服務采購和授權運營過程中,不難產生隱性腐敗和不正當競爭,也會導致技術標準和公共數據市場的朋分,構成數字經濟的“處所保護主義”。而今朝數據行業的技術人才、具備數字經濟思維的領導干部,以及對公共數據的市場需求,都高度集中在沿海經濟發達地區和中心層面。假如讓各地區繼續自行摸索,區域間差距將會越來越年夜。現在經濟發達地區的試點摸索已經有了必定成效,如事前統一授權、減少數源單位責任、樹立收益掛鉤機制等。假如能將這些經驗總結推廣,就無望推動構成公共數據的全國統一年夜市場。
促進訓練數據生產和暢通的政策建議
出臺產業政策和激勵辦法,推動優質數據的生產
鼓勵科教文衛機構生產開源數據,促進科研數據治理機構和開放平臺的統一。高質量的科研數據已成為人工智能模子訓練和科技競爭的關鍵資源。例如,獲得2024年諾貝爾獎、由英國DeepMind公司開發的人工智能模子AlphaFold,恰是依托全球開放的生物卵白質結構數據庫Protein Data Bank實現卵白質結構預測的嚴重衝破。與此同時,近期北美部門科研數據庫限制中國用戶的訪問權限,凸顯出科研數據在國際競爭中的戰略意義,也反應出我國建設自立科研數據體系的緊迫性。構建系統性的開放科研數據庫是一項長期任務,需求持續投進與軌制保證。科教文衛機構擁有大批專業人才,是生產優質開源數據的主要氣力。是以,建議在科教文衛機構的課題申請和考察中,增添數據集產出的考察權重,鼓勵科研人員原創、擴展和長期維護科研數據庫;并且,根據科研規律引進類似專利保護期的軌制,激勵科研人員在公道刻日內,依托原創數據產出科研結果。超過規定的保護期后,原則上包養應將數據庫向社會公開。此政策不僅適用于理工科,還應覆蓋人文社科領域的數據資源和課題結果,推動跨學科的數據共享和創新。此外,設立統一的科研數據治理機構,有助于規范數據的搜集、存儲和共享,從而確保數據資源在更廣泛的科研領域獲得有用應用。
持續打造人工智能技術的應用場景,培養物聯網和新型硬件終端市場。擴展和豐窮人工智能技術的應用場景,是積累優質數據資源的主要手腕。人工智能企業通過產品和服務的實際應用場景,不斷搜集用戶行為數據和反饋信息,為模子訓練和算法優化供給豐富的數據支撐。物聯網和新型硬件終端能夠超出文字、圖像、語音等傳統模態,搜集更多維度的數據,是下一代人工智能的基礎。產業政策應繼續通過有條件的稅費減免、財政補助等情勢,支撐自動駕駛、增強現實技術(AR)、虛擬現實技術(VR)和智能機器人等新型終端設備進進實際應用場景,積累數據資源,優化模子機能。此外,企業數字化和工業互聯網是人工智能數據積累的主要場景,要應用龍頭企業和產業鏈鏈主企業的示范效應,帶動中小企業和傳統制造業企業的數字化轉型。
完美數據平安的監管框架,促進優質數據的暢通
在監管調整方面,采取“寬進嚴出”的監治理念。促進數據要素生產和暢通,需求將立法、司法、行政監管和產業政策緊密結合,進行通盤考慮。政策出臺應遵守公道的邏輯順序,建議優先推進立法和司法任務,針對具體問題設立免責條款、出臺包養平臺推舉司法解釋,結合公眾、行業和當局的需求,對觸及數據要素的法規進行動態調整。隨后,再由行政監管機構和行業組織聯合推動,完美合規指南,從而使產業政策在促進數據生產和暢通方面,發揮更年夜的感化。我國對數據要素的監管政策較為周全,重視對下游要素和下流應用的監管,強調對事前、事中、事后環節的全鏈路監管。雖然對行業下游和事前環包養網心得節的監管可以減少監管本錢,可是我們需求審慎評估對技術和市場發展的影響。為了促進人工智能的創新發展,建議監管要采取“寬進嚴出”、包涵審慎的理念,適當放寬對行業下游的算法、數據等生產要素在輸進真個監管,把監管重點放外行業下流的應用場景和輸出真個應用環節,從而有利于晉陞人工智能模子的機能程度。監管應當考慮分歧市場主體的治理才能和無限責任,通過司法解釋、負面清單、合規指南等方法,適當放寬事前監管請求,落實事中事后監管,完美事后救濟辦法。
在訓練數據的著作權問題上,放寬“公道應用”原則的適用范圍,出臺司法解釋與合規指南。為進一個步驟推動數據的廣泛應用和創新,建議在《著作權法》中放寬“公道應用”原則的適用情況。例如,參考部門發達國家和地區在知識產權法規中的實踐,對“文本和數據發掘”的情況進行單獨定義,為版權作品的采集和應用供給破例和免責條款。司法機關可考慮對數據采集買賣和人工智能版權糾紛案件進行集中審理,出臺司法解釋和指導性案例;以促進人工智能技術創新發展為主旨,進一個步驟明確“公道應用”的邊界。在立法和司法任務的基礎上,建議知識產權相關的行政機構可以與企業座談,調研域外國家經驗,出臺詳盡的合規指南。在合規指南中,可以針對人工智能模子的分歧階段,區分版權持無方、模子開發者、服務供給商和模子應用者等分歧市場主體的法令責任,并供給相應的合規建議,穩定企業預期。
在個人信息保護和數據平安方面,設立免責條款和負面清單,強化事中事后監管,完美事后救濟辦法。針對“訓練通用型人工智能”這一特定目標,進一個步驟明確適用條款,放寬個人信息保護的限制。在匿名化技術尚未成熟的情況下,按照數據處理的難度和對模子機能的影響,可以允許訓練數據中包括部門個人信息,或許僅往除直接標識符,只需數據治理和模子輸出(包含由模子把持的機器行為)合適平安請求即可。假如包括主要數據,則需實行主要數據相關義務。開發者轉賣數據,應遵照普通市場主體的數據平安義務。與此同時,要加強人工智能平安技術的研發,以技術發展促進監管才能的晉陞。落實負面清單軌制,在全國范圍內加緊發布各行業的主要數據目錄,盡快明確“匿名化”等數據處理流程的國家標準與合規指南。當前已有《主要數據識別指南(征求意見稿)》《數據出境平安評估辦法》《數據分類分級規則》《匿名化技術應用指南》等政策文件,但年夜多屬于原則性的指導,沒有細化到具體的數據名稱和技術細節。建議各行業主管部門可以整合試點經驗和行業反饋,動態調整負面清單和數據處理技術標準,由國家數據局等部門進行統一梳理整合。假如行業主管部門沒有主要數據需求治理,也最好進行明確說明。盡快明確小型個人信息處理者的定義,并出臺相應的合規指南。可以模仿歐盟網絡平安局出臺的《中小企業個人數據平安處理指南》,從企業營收、雇員數量、主營業務等方面,明確劃分標準,對合規義務、操縱流程和具體監管案例進行梳理總結。制訂總體性數據合規指南,梳理上位法細則與含混條款。建議相關部門統一《中華國民共和國網絡平安法》《中華國民共和國數據平安法》《中華國民共和國個人信息保護法》《中華國民共和國刑法》等法令框架下的解釋口徑,廓清過往司法案例中語焉不詳、不難讓企業誤解擔憂的處所,穩定企業的預期。 推動發展數據平安保險機制,晉陞中小企業合規風險應對才能。《網絡數據平安治理條例》明確,“鼓勵保險公司開發網絡數據損害賠償責任險種”。考慮到數據平安保險的風險核算,需求大批網絡平安相關的數據,建議保險公司可以通過數據買賣、行業聯盟、兼并收購等方法,與網絡平安和云服務企業親密一起配合。在一起配合環節中,需求留心不正當競爭的能夠性。在法規調整到位的基礎上,可以模仿北美地區2016年提出的《數據泄露保險法案》,通過采購準進、稅收優惠等方法,促進數據平安保險疾速鋪開,幫助完美中小企業的數據平安內控機制,從長遠來看也有利于網絡平安技術的創新發展和中小企業的數字化轉型。
加速建設國家級公共數據平臺,匯總整合各地各部門數據資源
建設國家級公共數據平臺,實現公共數據開放和授權運營渠道的統一,構成數據要素的全國統一年夜市場。全國平臺能夠匯聚各地各部門的數據資源,晉陞公共數據價值,激發市場主體對公共數據的需求。需求量增添,單次授權價格就可以適當減少,企業進進市場的門檻就會下降。在授權機制上,建議各地各部門在平臺上公布高價值數據清單和字段。企業可以選擇全量數據,也可以選擇特定地區的部門數據或部門字段申請授權。統一份數據可以事前統一授權多個企業,發揮市場競爭的感化。繞過各地標準紛歧的事前審查環節,改為全國平臺的統一審查,也是一種減少事前監管的方法。事中和事后的監管,可以由企業地點地當局分別執行,落實屬地和行業監管責任。全國平臺相當于各方共建的“數據開放和授權運營渠道”,為此國家可以樹立基于數據要素貢獻的收益分派機制,調動各地各部門參與共建的積極性,中心在此中適當收取大批的“渠道價格”。同時,各地各部門仍可以保存本身建設的平臺,繼續進行政策層面的摸索。全國平臺也可以和其他部委的產業政策進行聯動。例如,可以在平臺上“揭榜掛帥”,吸引企業和高校等機構配合研發數據相關的技術;也可以通過價格扣頭等方法,對特定地區的公共數據授權運營進行政策傾斜。
在技術層面,可以應用開源框架,統一公共數據平臺的技術標準。各地建設的公共數據平臺,在數據格局、數據接口、授權協議、運維治理等方面并不互通。本文建議,國家數據局可以應用已有的成熟開源框架,自上而下統一數據平臺的技術標準。國際上已有勝利先例可供參考,例如:包含北美地區、英國、新加坡在內的30多個國家和地區,用“周全知識存檔網絡”(CKAN)或“基于Drupal的知識存檔網絡”(DKAN)等開源軟件,創建網站并發布公共數據集;北美地區的當局還自立開發了一系列轉換、處理和剖析數據的開源東西,供各地各部門應用。從中心到處所都用統一套開源軟件創建網站和發布數據,可以讓國家應用統一的數據接口,將各地各部門更換新的資料的數據集及時匯總到全國平臺。這有利于在未來對各地各部門開放數據的行為進行準確考察和評估。假如對平安有顧慮,當局也可以聯合多方氣力,自立開發開源框架;在開放平臺的基礎上,有條件地擴展支撐授權運營效能,嵌進基于隱私增強技術的閉源模塊,晉陞數據傳輸和買賣過程的平安性。
在當局內部權責關系方面,建議在各地各部門設立數據專員崗位,落實公共數據開放的行政責任。“數據專員”應當由各部門領導班子中熟習業務的主要成員擔任,并且部門領導和成員都要經過專門培訓,掌握數據處理剖析的理念和基礎框架,共同國家數據局和黨委分擔領導開展任務。國家數據局在公共數據平臺的基礎上,統計匯總社會公眾需求,對各地各部門的數據開放後果進行考察評估。數據開放的考察,也應當擴展到高校、圖書館、檔案館等國有企事業單位。
結語
訓練數據是影響人工智能發展的關鍵要素。優質數據的供給與開放水平決定了人工智能模子機能的下限,也關系到人工智能行業的創新潛力和市場遠景。只要通過技術、市場和政策的多方協力,才幹促進包養訓練數據的生產和暢通,夯實我國在全球人工智能競爭中的優勢,助力經濟社會高質量發展。
受篇幅所限,本文尚未討論隱私增強技術和數據跨境傳輸的問題。今朝,以隱私計算、區塊鏈、數據沙箱為基礎構建的“可托數據空間”已成為保證數據平安的主要技術路徑。但是,這一技術路線仍面臨資源耗費年夜、傳輸效力低、實施本錢高級瓶頸問題,且依賴統一的技術標準和跨行業協同機制,短期內難以年夜規模推廣。在此類技術成熟之前,數據要素的監管政策應當堅持靈活寬松,以及幫助企業下降數據相關的研發和應用本錢,促進人工智能技術的創新和普及。
數據跨境傳輸也是值得關注的議題。隨著我國企業國際化進程加快,跨境數據暢通將成為支撐人工智能等新質生產力“出海”的關鍵原因。根據DEPA和CPTPP等國際協定的請求,數據暢通需求兼具開放性與平安性,這就意味著我國必須理順國內政策體系,加速接軌和引領國際規則,不斷增強數字經濟的國際競爭力和話語權,為全球人工智能和數據管理貢獻中國計劃。
(作者:林韜,噴鼻港中文年夜學 american華盛頓年夜學政治學系。《中國科學院院刊》供稿)