科技

Google將AutoML應用於Transformer架構翻譯結果飆升,已開源

【新智元導讀】為了探索AutoML在序列域中的應用是否能夠取得的成功,Google的研究團隊在進行基於進化的神經架構搜尋(NAS)之後,使用了翻譯作為一般的序列任務的代理,並找到了Evolved Transformer這一新的Transformer架構。Evolved Transformer不僅實現了最先進的翻譯結果,與原始的Transformer相比,它還展示了語言建模的改進效能。

自幾年前推出以來,Google的Transformer架構已經應用於從製作奇幻小說到編寫音樂和聲的各種挑戰。重要的是,Transformer的高效能已經證明,當應用於序列任務(例如語言建模和翻譯)時,前饋神經網路可以與遞迴神經網路一樣有效。雖然用於序列問題的Transformer和其他前饋模型越來越受歡迎,但它們的架構幾乎完全是手動設計的,與計算機視覺領域形成鮮明對比。AutoML方法已經找到了最先進的模型,其效能優於手工設計的模型。當然,我們想知道AutoML在序列域中的應用是否同樣成功。

在進行基於進化的神經架構搜尋(NAS)之後,我們使用翻譯作為一般的序列任務的代理,我們找到了Evolved Transformer,這是一種新的Transformer架構,它展示了對各種自然語言處理(NLP)任務的有希望的改進。Evolved Transformer不僅實現了最先進的翻譯結果,而且與原始的Transformer相比,它還展示了語言建模的改進效能。我們是將此新模型作為Tensor2Tensor的部分發布,它可用於任何序列問題。

開發技術

要開始進化NAS,我們有必要開發新技術,因為用於評估每個架構的“適應性”的任務——WMT'14英語-德語翻譯——計算量很大。這使得搜尋比在視覺領域中執行的類似搜尋更加昂貴,這可以利用較小的資料集,如CIFAR-10。

這些技術中的第一種是溫啟動——在初始進化種群中播種Transformer架構而不是隨機模型。這有助於在我們熟悉的搜尋空間區域中進行搜尋,從而使其能夠更快地找到更好的模型。

第二種技術是我們開發的一種稱為漸進動態障礙(PDH)(Progressive Dynamic Hurdles )的新方法,這種演算法增強了進化搜尋,以便為最強的候選者分配更多的資源,這與先前的工作相反,其中NAS的每個候選模型被分配相同的評估時的資源量。如果模型明顯不好,PDH允許我們提前終止對模型的評估,從而使有前途的架構獲得更多資源。

Evolved Transformer簡介

使用這些方法,我們在翻譯任務上進行了大規模的NAS,並發現了Evolved Transformer(ET)。與大多數序列到序列(seq2seq)神經網路體系結構一樣,它有一個編碼器,將輸入序列編碼為嵌入,解碼器使用這些嵌入構造輸出序列;在翻譯的情況下,輸入序列是要翻譯的句子,輸出序列是翻譯。

演化變壓器最有趣的特徵是其編碼器和解碼器模組底部的卷積層,在兩個地方都以類似的分支模式新增(即輸入在加到一起之前通過兩個單獨的卷積層)。

Evolved Transformer與原始Transformer編碼器架構的比較。注意模組底部的分支卷積結構,它獨立地在編碼器和解碼器中形成。

這一點特別有趣,因為在NAS期間編碼器和解碼器架構不共享,因此獨立發現該架構對編碼器和解碼器都很有用,這說明了該設計的優勢。雖然最初的Transformer完全依賴於自我關注,但Evolved Transformer是一種混合體,利用了自我關注和廣泛卷積的優勢。

對Evolved Transformer的評估

為了測試這種新架構的有效性,我們首先將它與我們在搜尋期間使用的英語-德語翻譯任務的原始Transformer進行了比較。我們發現在所有引數尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,擁有最大增益與移動裝置相容(約700萬個引數),證明了引數的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上達到了最先進的效能,BLEU得分為29.8,SacreBLEU得分為29.2。

不同尺寸的WMT'14 En-De Evolved Transformer與原Transformer的比較。效能的最大提高發生在較小的尺寸上,而ET在較大的尺寸上也顯示出強度,優於最大的Transformer,引數減少37.6%(要比較的模型用綠色圈出)。

為了測試普遍性,我們還在其他NLP任務上將ET與Transformer進行了比較。首先,我們研究了使用不同語言對的翻譯,發現ET表現提升,其邊緣與英語-德語相似; 再次,由於其有效使用引數,對於中型模型觀察到了最大的提升。我們還比較了使用LM1B進行語言建模的兩種模型的解碼器,並且看到效能提升近2個perplexity。

未來工作

這些結果是探索體系結構搜尋在前饋序列模型中應用的第一步。Evolved Transformer 作為Tensor2Tensor的一部分已開源,在那裡它可以用於任何序列問題。為了提高可重複性,我們還開源了我們用於搜尋的搜尋空間,以及實施漸進動態障礙的Colab。我們期待著看到研究團體用新模型做了什麼,並希望其他人能夠利用這些新的搜尋技術!

參考連結:

https://ai.googleblog.com/2019/06/applying-automl-to-transformer.html

論文地址:

https://arxiv.org/abs/1901.11117

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題