近幾年,機器寫作不再是紙上談兵的技術(shù),已然滲透到了我們的生活之中。今日頭條、騰訊、百度、360等公司,以及新華社、南方都市報、第一財經(jīng)等傳統(tǒng)媒體單位均開展了機器寫作技術(shù)的研究與應(yīng)用。
不久前,在北京大學(xué)科技成果發(fā)布會暨北京市科技成果轉(zhuǎn)化統(tǒng)籌協(xié)調(diào)與服務(wù)平臺系列項目路演中,北京大學(xué)計算機科學(xué)技術(shù)研究所研究員萬小軍的AI寫作機器人頗受關(guān)注。
據(jù)介紹,這項成果已應(yīng)用于多家媒體單位,研發(fā)單位與各媒體單位合作推出了小明、小南、小柯等多款寫作機器人,各類機器人已經(jīng)自動撰寫新聞稿件十萬多篇。
除了新聞寫作,還能應(yīng)用于這些領(lǐng)域
機器寫作,又稱自然語言生成,是自然語言處理領(lǐng)域的重要研究方向和研究熱點之一, 也是人工智能走向成熟的重要標志之一。
目前,機器寫作在傳媒、出版、文娛、廣告等多個行業(yè)均具有廣闊應(yīng)用場景。歐美等地較早成立專注于機器寫作技術(shù)應(yīng)用的多家公司,例如ARRIA、AI、NarrativeScience等基于行業(yè)數(shù)據(jù),通過機器寫作生成行業(yè)報告或新聞報道,從而節(jié)省大量人力。同時,不少國外知名媒體單位紛紛采用機器寫作技術(shù)進行新聞稿件創(chuàng)作,以節(jié)約人力成本,提高效率。
“與人類作者相比,機器寫作具有效率高、時效性好、覆蓋性強、無偏見等優(yōu)勢。今日頭條的線上測試表明,機器人撰寫新聞稿件的閱讀率與人工稿件的閱讀率基本相同,這說明機器稿件的質(zhì)量不錯,能夠被廣大用戶所接受。”萬小軍告訴記者。
萬小軍說,我們希望計算機同時具有讀與寫的能力,除了掌握閱讀和理解語言文字的本領(lǐng)之外,還能夠掌握文字創(chuàng)作的本領(lǐng),從而像人類一樣寫出高質(zhì)量的文字作品,例如新聞資訊、報告、詩歌、小說、作文等。
然而,計算機不能憑空寫作,必須根據(jù)所輸入的數(shù)據(jù)與素材進行創(chuàng)作。據(jù)介紹,根據(jù)輸入的不同類型的信息,計算機一般采用不同的寫作方式進行創(chuàng)作。例如,計算機根據(jù)輸入的結(jié)構(gòu)化數(shù)據(jù)(報表、RDF數(shù)據(jù)等)進行文字創(chuàng)作,從而能夠生成稿件。這是目前機器寫作應(yīng)用的主要方式,適用于天氣預(yù)報、醫(yī)療報告、賽事簡訊、財經(jīng)報道等文本的生成。
萬小軍介紹說,近幾年機器寫作除了用于撰寫新聞、報告等實用型文本之外,還被用于創(chuàng)作古詩、現(xiàn)代詩、散文等文學(xué)作品,例如微軟小冰、清華九歌等系統(tǒng)分別能夠創(chuàng)作現(xiàn)代詩和古詩,在文字表現(xiàn)形式上的總體效果還不錯,但在意境上有所欠缺。
深度學(xué)習(xí)生成模型,但還難保準確性和可讀性
近幾年,深度學(xué)習(xí)發(fā)展迅速,機器寫作技術(shù)也受到其深刻影響。
據(jù)萬小軍介紹,基于深度學(xué)習(xí)技術(shù)進行文本生成,不依賴于模板或規(guī)則。然而,這樣的寫作方式雖然在研究上取得一定進展,但目前還不能保證所生成稿件的準確性與可讀性,難以滿足很多應(yīng)用場景下對稿件的質(zhì)量要求。此外,深度學(xué)習(xí)生成的模型訓(xùn)練需要大量的平行語料,而在很多領(lǐng)域內(nèi)較難獲取到這樣的大規(guī)模語料。
計算機根據(jù)已有的文字素材(例如已經(jīng)發(fā)表的新聞)進行二次文字創(chuàng)作時,能夠基于已有稿件創(chuàng)作出不一樣的稿件,主要依賴于兩類自然語言處理技術(shù):自動文摘與文本復(fù)述。其中自動文摘用于對單篇文本或多篇文本進行內(nèi)容提煉與綜合,形成摘要或綜述。
萬小軍指出,多文檔自動文摘比單文檔自動文摘更具有挑戰(zhàn)性,原因在于不同文檔內(nèi)容的冗余性、片面性與弱連貫性。因此,對多篇新聞報道進行長篇綜述生成極其困難,其研究團隊在這方面進行了嘗試,提出基于段落排序與融合的方法為多篇新聞報道進行綜述生成,取得一定效果。
文本復(fù)述則用于對現(xiàn)有文字進行改寫,在主題與意思基本不變的前提下產(chǎn)生另一種文字表述,從而避免原文照抄,也可實現(xiàn)文本風(fēng)格化的目的。文本復(fù)述可以看作是一種單語言機器翻譯問題,因此在平行語料充足的前提下,各種統(tǒng)計機器翻譯方法(包括神經(jīng)網(wǎng)絡(luò)機器翻譯)均可應(yīng)用于此問題。但現(xiàn)實中卻難以獲得大規(guī)模的此類平行語料,因此針對文本復(fù)述的研究需要另辟蹊徑,最新的研究主要集中在如何有效利用少量的平行語料和大規(guī)模的非平行語料進行復(fù)述模型的學(xué)習(xí)。(華 凌)
新化月報網(wǎng)報料熱線:886 2395@qq.com
相關(guān)文章
最近更新
- 全省法院實現(xiàn)訴訟費繳退費“線上辦” 傳統(tǒng)線下繳退費功能為何仍保留?2022-01-15
- 受疫情影響西安部分區(qū)縣蔬菜滯銷,亟需各方助力解決2022-01-15
- 恩施州6個重大交通運輸項目集中開工!總投資32億元2022-01-15
- 【15號用】3崗招聘若干人!45歲以下可報!五險一金+包食宿!2022-01-15
- 國際科技合作助推湖南優(yōu)勢領(lǐng)域提升國際競爭力2022-01-15
- 延安城區(qū)新增車位3100個 有效破解停車難2022-01-15
- 鴻星爾克入選2021年“誠信之星”!2022-01-15
- 菏澤農(nóng)商行新興支行開展包片行政村信貸產(chǎn)品推介活動2022-01-15
- 鞏義市:黨員“雙報到”進社區(qū) 為民服務(wù)“不打烊”2022-01-15
- 廣東珠海1月15日新報告1例本土確診病例2022-01-15
- 大降價!阜陽即將啟動2022-01-15
- 北京專報丨國家衛(wèi)健委:天津疫情仍在持續(xù)發(fā)展,西安疫情進入收尾階段2022-01-15
- 陜西對符合解除隔離條件人員 落實后續(xù)7天居家健康監(jiān)測措施2022-01-15
- 信陽消防聯(lián)合多部門 開展應(yīng)急實戰(zhàn)演練2022-01-15
- 城西區(qū):“紅色存折”讓社區(qū)志愿服務(wù)更有溫度2022-01-15
- 乘動車忘帶身份證 可開電子證明2022-01-15
- 陜西組建2400人的省級醫(yī)療團隊 支援本土確診病例救治工作2022-01-15
- “德爾塔”與“奧密克戎”,救治有何不同?2022-01-15
- 手拉手共成長 長沙清水塘北辰小學(xué)孩子“牽手”湘西娃2022-01-15
- 抓整改 提標準 縣住建局全力提升城市精細化管理水平2022-01-15
- 破防了!這家山東科技企業(yè)的暖心行動2022-01-15
- 臨潼區(qū):多措并舉助力農(nóng)業(yè)復(fù)工復(fù)產(chǎn)2022-01-15
- “這個嘉賓思路厲害”,市消保委委員張兆安做客《海波熱線》特別節(jié)目2022-01-15
- 福州市副市長、公安局長王錫章帶隊到莆田市公安局考察調(diào)研疫情防控工作2022-01-15
- 合肥這家知名書店,新年再出發(fā)2022-01-15
- 崔同富到武定縣開展春節(jié)走訪慰問2022-01-15
- 北京:迎接冬奧會和冬殘奧會長安街開始布置花壇2022-01-15
- 洋碼頭首家文旅免稅直購店落地重慶十八梯景區(qū)2022-01-15
- 每戶將分到70斤!更多物資送達……直擊杭州西溪雅苑封控現(xiàn)場2022-01-15
- 本土確診+104,其中河南+52,天津+39,珠海新增感染者均系奧密克戎2022-01-15