中華(huá)經典資源庫、古漢語大言語模型等效果出現。
生僻字更易輸入 文言文更快釋讀(dú)。
“頔”涵義誇姣、“燊(shēn)”表明熾盛、“鋆”意為金子……古籍裏的這些生僻字,曾因無(wú)法輸入電腦,給文明傳承、學術研究,甚至人(rén)們日(rì)常(cháng)日子帶來(lái)不方便。數字年代,怎麽(me)讓漢言語文字更完整地活潑在“雲”端?
日前,教育部環繞推動言語文字信(xìn)息化(huà)開展舉行新聞發布會。“從‘鉛與(yǔ)火’到‘光與電’,中文信息處理技能不(bú)斷立異開(kāi)展。”北京大(dà)學王選(xuǎn)研究所所長湯幟介紹(shào),北京(jīng)大學作為國家語委中文文字字體(tǐ)規劃與研究中(zhōng)心的依托(tuō)單位,規劃開發國家嚴重基礎性規範《通用規範漢字表》的配套字庫,研製人口信息生僻字超大字庫處理方案,在第二代居民身(shēn)份證、護照(zhào)上使用,幫忙處理銀行、稅務等社會使用體係的人(rén)名、地名缺字問題。
言語文字信息(xī)化是經濟社會信息化的重要組成部分,是數字(zì)我國建造的基礎性作業。記者了解到,近年(nián)來,教育部聯合有關部門發布了(le)國家通用言語文字(zì)和民族言語文字信息化規範規(guī)範100多項,推(tuī)動建成(chéng)國家語委媒體言語語料庫、冬奧會(huì)多言語術語庫等,上線國家言語資源服務渠道、我國言語文字(zì)數字博物館等,繼續推動言語文(wén)明資源共建同享。
跟著才智化學習的廣泛開展,言語文明優質資源惠及更多人。教育部言語文字信息管理(lǐ)司司長劉培俊介紹,為推動語教交融,教育部打造“中華經典資源庫”,總(zǒng)瀏覽量超6000萬;打(dǎ)造“中小學語文演示吟誦庫”,惠及全國約1.6億中小學生和上千(qiān)萬教師及社會群眾;上線我國言語文字數字博物館,收納海量資源,構建全民學習(xí)新(xīn)講堂(táng)。
此外,數智(zhì)賦能也讓國家通用言語文字推行遍及功率不斷提高。現在,普通話測驗方法已實現從人工到智能的改變,機輔(fǔ)測驗已服務超(chāo)越9200萬人次。廣東省教育廳副廳長朱建華介紹:“咱們(men)支撐(chēng)研(yán)製普通話水平智能測驗艙、聲紋剖析體係等,打(dǎ)造了全國首個以智(zhì)能(néng)化(huà)為中心的普通話水平測驗才智考場,可以做到‘隨到隨考’。”。
言語文(wén)字信息化讓古籍裏的(de)文字展示出新的生機。翻開“AI太炎”古漢語大言語模型,輸入待剖析的古籍文本,體係便能依據用戶挑選進(jìn)行(háng)釋讀,包(bāo)含字詞釋義(yì)、文白翻譯、句讀標點(diǎn)、用典剖析等。北京師範大(dà)學黨委常委、副校長康震介紹,“‘AI太炎’依托自主可控、安全可(kě)信(xìn)的技能道路,了解力(lì)強、準確率高,可以高質(zhì)量完結多種文言文了解使命,現在已廣泛使用於學術科研、基礎教育、編輯出版等多個範疇(chóu)。”。
近來,教育部、國家(jiā)語委、中心網信辦一起印發《關於加強數字中文建造 推動言語文(wén)字(zì)信息化開展的定見》。定見提出立異(yì)使用自然言語處理、大言語模型、多模態信息(xī)處理、常(cháng)識(shí)圖譜、語料加工(gōng)等5項前沿技能。
“咱(zán)們要將數字(zì)中文建造作為全麵推動言語文字信息化開(kāi)展的突出重點,服務大言語模型等人工智能技能立異使用‘製高點’,夯實國家要害語料基礎設施‘新基建’,全方位開釋言語文字在經濟社會(huì)開展(zhǎn)中的數(shù)據要素價值。”劉培俊說。(記(jì)者 丁雅誦)。