科技

百度釋出 NLP 預訓練模型 ERNIE,多項中文 NLP 任務超越Google BERT

雷鋒網 AI 科技評論按,NLP(自然語言處理)被譽為人工智慧「皇冠上的明珠」,其發展備受學術和產業界關注,而今 NLP 領域再次迎來重大突破。2019 年 3 月,百度提出知識增強的語義表示模型 ERNIE(Enhanced Representation from kNowledge IntEgration),併發布了基於 PaddlePaddle 的開原始碼與模型。ERNIE 模型在中文 NLP 任務上表現非凡,百度在多個公開的中文資料集上進行了效果驗證,在語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上,超越了Google的語義表示模型 BERT 的效果。

近年來,基於海量無監督文字的深度神經網路預訓練模型大幅提升了各個 NLP 基準任務的效果。早期的工作聚焦於上下文無關的詞向量建模,而之後提出的 Cove,ELMo,GPT 等模型,構建了語句級的語義表示遷移模型。Google在去年 10 月提出 BERT 模型,當時媒體盛讚「最強 NLP 模型」、「NLP 歷史突破!Google BERT 模型狂破 11 項紀錄,全面超越人類!」。

不難發現,無論是稍早提出的 Cove、Elmo、GPT, 還是能力更強的 BERT 模型,其建模物件主要聚焦在原始語言訊號上,較少利用語義知識單元建模。這個問題在中文方面尤為明顯,例如,BERT 在處理中文語言時,通過預測漢字進行建模,模型很難學出更大語義單元的完整語義表示。

設想如果能夠讓模型學習到海量文字中蘊含的潛在知識,勢必會進一步提升各個 NLP 任務效果。因此百度提出了基於知識增強的 ERNIE 模型。ERNIE 模型通過建模海量資料中的實體概念等先驗語義知識,學習真實世界的語義關係。具體來說,百度 ERNIE 模型通過對詞、實體等語義單元的掩碼,使得模型學習完整概念的語義表示。相較於 BERT 學習原始語言訊號,ERNIE 直接對先驗語義知識單元進行建模,增強了模型語義表示能力。

舉個例子:

Learned by BERT:哈 [mask] 濱是 [mask] 龍江的省會,[mask] 際冰 [mask] 文化名城。

Learned by ERNIE:[mask] [mask] [mask] 是黑龍江的省會,國際 [mask] [mask] 文化名城。

在 BERT 模型中,通過『哈』與『濱』的區域性共現,即可判斷出『爾』字,模型沒有學習『哈爾濱』本身的任何知識。而 ERNIE 通過學習詞與實體的表達,使模型能夠建模出『哈爾濱』與『黑龍江』的關係,學到『哈爾濱』是 『黑龍江』的省會以及『哈爾濱』是個冰雪城市。為驗證 ERNIE 的知識學習能力,百度利用幾道有趣的填空題對模型進行了考察。實驗將段落中的實體知識去掉,讓模型推理其答案。

可以看到 ERNIE 在基於上下文知識推理能力上表現的更加出色。

ERNIE 模型在多個公開中文資料集上進行了效果驗證,與 BERT 模型相比,在自然語言推斷 XNLI 任務測試集準確率提升 1.2PP,語義相似度 LCQMC 任務測試集準確率提升 0.4PP,命名實體識別 MSRA-NER 任務測試集 F1 提升 1.2PP,情感分析 ChnSentiCorp 任務測試集準確率提升 1.1PP,問答匹配 NLPCC-DBQA 任務測試集 MRR 提升 0.5PP。詳細實驗資料見 ERNIE 開源專案(點選 https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE即可檢視)。

隨著大資料和基於神經網路的深度學習的發展,NLP 發展進入到新階段,成為巨頭們搶灘的重要戰場。百度在自然語言處理領域有著深厚積累,將以「理解語言,擁有智慧,改變世界」為使命,研發自然語言處理核心技術,未來必將在技術上取得更大的突破。

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題