近日,教導部、國家語委、中心網信辦配合印發《關于加強數字中文建設 推進語言文字信息化發展的意見》(簡稱《意見》),對加速推進以信息化促進語言文字事業高質量發展,以數字化賦能語言文字更好服務現代化建設等作出了周全安排。
當敦煌躲經洞的千年文書在數字世界中蘇醒,甲骨文的刻痕以數據躍動永駐云端……數字中文,正以代碼為筆、算法為墨,在虛實交織中聯結過往與未來。
數智賦能語言文字高質量發展
語言文字“日學而不察、日用而不覺”,廣泛存在于社會生產各個方面。
現在,中國已建成世界最年夜的規模語言資源庫和中國語言資源知識圖譜,集成120多種語言和方言資源。本年,全國語言文字應用情況調查將初次實施,打造集數據采集、傳輸、存儲、加工一體的集成化調查平臺,為深化教導綜合改造和綜合國力剖析供給年夜數據支撐。
為加速推進語言文字信息化,《意見》提出,將數字中文建設作為服務數字中國建設的主要任務和周全推進語言文字信息化發展的凸起重點,著力推進中文數字化與數據中文明,完美新型中文服務體系構建與語言文字管理體系。
教導部語言文字信息治理司司長劉培俊介紹,中國已發布100多項包養網價錢國家通用語言文字和平易近族語言文字信息化規范標準,為天然語言處理技術在人工智能、數字產品和信息產業領域的應用創新奠基規范基礎。
語言文字聰明化學習的廣泛開展,無力服務了教導改造創新。好比,高程度開展通俗話程度測試,全包養網面實現從人工到智能的通俗話測試方法轉變,制發電子證書9000多萬份。在廣東,已建玉成國首個通俗話程度測試聰明考場,考場首創“隨到隨考”測試形式,年夜幅晉陞了通俗話測試效力。
語言文明智能化傳播聯通世界,也無力服務了國際交通互鑒。通過數字賦能,書寫在古籍里的文字實現“活化”,建成中華思惟文明術語數據庫,面向國際傳播1200多條反應中華平易近族話語體系中最焦點最本質的思惟文明術語,并與40多個國家和地區開展多語種數字版權一起配合。
“中國已建包養網成集成化、智能化、國際化的全球中文學習平臺,用戶超1600萬人,覆蓋190多個國家和地區,深度一起配合樹立聯盟,中文學習聯盟云服務平臺供給3萬門在線課程,與中外1600多家機構一起配合,推動實現中文人人、時時、處處可學可用、易學易用。”劉培俊說。
建設新型國家語料庫
本年,教導部啟動布局了新型國家語料庫的建設任務。《意見》明確,到2027年,初步建成國家關鍵語料庫和國家戰略語言資源信息庫。
新型國家語料庫為什么這般主要?又將在語言文字信息化任務中發揮何種感化?
“當前以深度求索(DeepSeek)等為代表的人工智能技術創新不斷獲得衝破性進展,在這個年夜佈景下,國家提出這樣一個戰略安排,建設新型國家語料庫,凸顯了其主要性、需要性和緊要性。”教導部語言文字應用治理司副司長王暉如是說。
現階段,語身教育教學和研討領域存在多個語料庫,但良多語料庫還處于單一文本形式和領域應用階段。這些語料庫在建設的理念、技術和方式、規模,以及數據多樣性、時效性尤其是與人工智能相結合的年夜規模應用方面尚存在缺乏,難以滿足多元化、動態化尤其是智能化的語言數據需求。
找準這一難點,王暉介紹,建設新型國家語料庫安身人工智能時代年夜佈景,衝破傳統語料庫單一文本形式和領域應用壁壘,以年夜模子訓練及機能評測、智能計算為焦點,以新包養行情質態、多模態、多語言、年夜規模、全包養網價錢域性為凸起特徵,為通用領域和細分領域多場景應用及創新發展供給規范、可托、高質量的語言文明語料資源。
“重要包含兩方面:一是規范引領,重要是加強軌制的供給,研制語料庫建設規范,凸起價值導向、應用導向、創新導向,統籌質量和平安,為語料庫建設供給基礎原則和方式指引。二是示范引導,成熟先上,開發建設‘中華文脈新型語料庫’‘中華年夜閱讀體系語料庫’,以這兩個示范庫建設整體打造出標桿,‘中華文脈新型語料庫’也可以簡單懂得瞄準的是聰明教師,‘中華年夜閱讀體系語料庫’瞄準的是聰明學伴。”王暉說。
數字中文推動產業升級
20世紀80年月,北京年夜學王選團隊發明激光照排技術,并結合漢字編碼標準,衝破了中文數字化的空間限制,讓承載中華文明的中文在全球互聯網空間獲得重生。那是一場從“鉛與火”到“光與電”的變革,而現在,年夜語言模子技術對年夜規模高質量語料提出史無前例的需求,賦予了數據中文明新的歷史內涵和任務任務。
歷史階段分歧,但機遇和挑戰類似。
北京年夜學王選計算機研討所所長湯幟認為,當前,中文信息處理技術的發展從以往解決漢字輸進輸出的基礎性問題,進階到當先釋放語言文字數據要素價值的全方位衝破。
《意見》提出,實施數字中文推動產業升級行動。支撐語言文字信息技術新產品、新職業和新業態發展,鼓勵傳統語言產業數字化轉型升級,培養基于數字中文的新型語言產業。推動語言資源、語言翻譯、智能機器人、中文內容服務等軟硬件產品研發應用,支撐圍繞語音、語料、語言應用生態構成產業湊集,鼓勵創建語言產業應用示范brand。
“新形勢下,語言文字將從實現‘靜態符號’向‘動態數字資產’,從‘信息載體’向‘生產要素’的轉型,要重點推動語料庫、數據標注與評價等標準的研制,支撐文本天生與懂得、語言翻譯、感情剖析等各種任務。”湯幟表現,人工智能發展敏捷,語言文字信息處理技術創新應用正經歷從“GB2312字符集”到“萬億參數年夜語言模子”的范式變革,語言文字未來將實現與信息技術的深度融會,構成“技術衝破—場景落地—生態繁榮”的良性循環。(記者 孫亞慧)