近日,由我國智能科學技術領域權威學會中國人工智能學會主辦的“第三屆中國‘AI+’創(chuàng)新創(chuàng)業(yè)大賽”完美收官。在“自然語言處理技術創(chuàng)新大賽——中文文本糾錯比賽”賽道中,力維智聯Sentosa團隊從眾多企業(yè)和高校團隊中脫穎而出,獲得了大賽第三名,前兩名分別是蘇州大學&阿里巴巴達摩院聯合團隊、清華大學團隊。
在新聞出版行業(yè),由于出版種類和數量的大幅增長、傳播渠道的多樣化、知識替代和更新的日益加速,以及中國語言文字的靈活性等原因,審校工作難度越來越大。而內容質量又是出版物的靈魂所在,如果完全由人工進行編校質量把關,勢必影響工作效率。
此次文本校對任務主要是針對文本中出現的錯誤進行檢測和糾正,屬于綜合性的自然語言處理研究子方向,能夠比較全面地體現自然語言處理的技術水平。賽題主要選擇互聯網上中文母語寫作者撰寫的網絡文本作為校對評測數據,從拼寫錯誤、語法錯誤、語病錯誤等多個方面考察機器的認知智能能力。
針對比賽任務,力維智聯依托Sentosa數據科學與機器學習平臺(DSML),以預訓練模型BERT和ELECTRA為基礎,通過對拼寫、語法、標點錯誤的任務分解與模型串聯進行訓練與預測。在這個過程中,Sentosa團隊針對語法與標點錯誤,提出兩種不同的數據增????方式,提升了數據質量,也提高了模型的泛化能力。
力維智聯基于Sentosa平臺,依據行業(yè)規(guī)范、標準和業(yè)務知識,開發(fā)出智能審校產品,輔助用戶快速準確發(fā)現文稿中的字詞錯誤、語法錯誤、標點錯誤等問題,幫助用戶提升校對質量及審稿效率,確保內容安全生產。后續(xù),力維智聯將充分利用人工智能大數據技術,在文本糾錯、知識提取、古文句讀等方面持續(xù)發(fā)力,促進中文自然語言技術發(fā)展,助力出版行業(yè)數字化轉型。

