2024-10-09 15:37:32來源:中國新聞網(wǎng)
從青海師范大學(xué)省部共建藏語智能信息處理及應(yīng)用國家重點實驗室獲悉,該實驗室已初步建成600TF算力的智算平臺和面向多領(lǐng)域多用途的大規(guī)模藏語數(shù)據(jù)資源庫。
青海師范大學(xué)省部共建藏語智能信息處理及應(yīng)用國家重點實驗室2021年2月經(jīng)中國科技部批準(zhǔn)建設(shè),是中國唯一的藏語信息處理領(lǐng)域國家重點實驗室。實驗室擁有5000平方米的科研用房和1.5億元人民幣的專業(yè)研發(fā)設(shè)備。
該實驗室主任趙海興介紹,近年來,實驗室構(gòu)建了藏文百科知識、新聞、經(jīng)濟、文化藝術(shù)等多領(lǐng)域文本語料40G以上,藏語語音數(shù)據(jù)15000小時、各類文化資源近2萬件,規(guī)模達(dá)到1600GB,是目前國內(nèi)外最大的基于國標(biāo)的大型標(biāo)注語料庫,對中國涉藏地區(qū)教育、語言研究以及社會文化發(fā)展起到積極推動作用。
同時,該實驗室還構(gòu)建了大規(guī)模藏漢平行語料庫,并通過迭代式回譯策略等進行數(shù)據(jù)增強及質(zhì)量評價,訓(xùn)練了融合單語語言模型和注入雙語詞典信息的深度神經(jīng)網(wǎng)絡(luò)翻譯模型,在新聞、法律等領(lǐng)域準(zhǔn)確率達(dá)90%以上。
此外,該實驗室還搭建藏文文獻(xiàn)資源數(shù)字化協(xié)同工作平臺,構(gòu)建文獻(xiàn)圖文對照數(shù)據(jù)150余萬文本行,復(fù)雜場景圖文資源220萬個,開展藏文印刷字體、復(fù)雜場景藏文區(qū)域檢測研究,自動檢測視頻幀中的文字區(qū)域,并將其分割成單個字符或行文本。利用深度學(xué)習(xí)對分割處理后的文本進行識別,實現(xiàn)了藏文文獻(xiàn)標(biāo)準(zhǔn)體和手寫體掃描識別系統(tǒng)、藏語視頻流復(fù)雜場景中的藏文識別。
責(zé)任編輯:標(biāo)簽:
8月3日消息,近日上海家化聯(lián)合股份有限公司(以下簡稱“上海家化”)發(fā)布公告稱,公司副總經(jīng)理葉偉敏因個...
今年的東海第一口鮮來啦! 8月1日東海開海日,浩浩蕩蕩的船隊分別從江蘇連云港、南通,浙江舟山、寧波等...
百潤股份(002568 SZ)發(fā)布的2024年上半年財報顯示,公司實現(xiàn)營業(yè)收入16 28億元,同比減少1 38%;實現(xiàn)凈...
2024年8月2日,甘肅皇臺酒業(yè)股份有限公司(以下簡稱“公司”)公告,基于審慎性原則,經(jīng)過與交易對方充分...
7月26日,一場別開生面的應(yīng)急消防科普體驗活動在位于北京市海淀區(qū)的“必勝客消防科普主題活動宣傳基地”...