北京擬整合現(xiàn)有開源中文預(yù)訓(xùn)練數(shù)據(jù)集和高質(zhì)量互聯(lián)網(wǎng)中文數(shù)據(jù)


【資料圖】

北京商報訊(記者 楊月涵)5月16日,據(jù)北京市科委官網(wǎng),北京出臺《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025年)(征求意見稿)》,針對目前大模型訓(xùn)練高質(zhì)量中文語料占比過少,不利于中文語境表達及產(chǎn)業(yè)應(yīng)用的問題,征求意見稿提到,整合現(xiàn)有開源中文預(yù)訓(xùn)練數(shù)據(jù)集和高質(zhì)量互聯(lián)網(wǎng)中文數(shù)據(jù)并進行合規(guī)清洗。同時持續(xù)擴展高質(zhì)量多模態(tài)數(shù)據(jù)來源,建設(shè)合規(guī)安全的中文、圖文對、音頻、視頻等大模型預(yù)訓(xùn)練語料庫,通過北京國際大數(shù)據(jù)交易所社會數(shù)據(jù)專區(qū)進行定向有條件開放。

(責(zé)任編輯:冀文超 )
關(guān)鍵詞:
圖片版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系我們,我們立刻刪除。
新化月報網(wǎng)報料熱線:886 2395@qq.com

相關(guān)文章

你可能會喜歡

最近更新

推薦閱讀