科技

近900000條if-then關係圖譜,讓神經網路“懂”常識推理

編譯整理 | 一一

出品 | AI科技大本營(ID:rgznai100)

“神經網路能學習日常事件的常識推理嗎?能,如果在 ATOMIC 上訓練的話。”

ATOMIC(原子) 是一個機器常識圖集,一個用自然語言建立的 870, 000 個 if-then 關係的圖譜。這一專案的研究者是來自華盛頓大學艾倫人工智慧研究所的學者,近日,他們在 AAAI 2019 上對外公開了這一研究專案並發表了論文。

與 9 種 if-then 關係關聯的 ATOMIC

根據論文摘要介紹,與以分類學知識為中心的現有資源相比,ATOMIC 關注的是被組織為 if-then 關係的推理知識(例如,“如果 X 給 Y 給與讚美,則 Y 可能會回贊”)。他們提出了 9 種 if-then 關係型別來區分原因 vs.效果,代理 vs. 主題,自願 vs.非自願事件,以及行為 vs. 心理狀態。

通過對 ATOMIC 中描述的豐富的推理知識進行生成式訓練,他們證明了神經模型可以獲得簡單的常識能力,並推理以前無法預見的事件。實驗結果表明,與通過自動和人工評估測量的單獨訓練模型相比,結合 if-then 關係型別層次結構的多工模型會有更準確的推理結果。

如果給出對一個事件的快速觀察情況,在一個觀察事件中,人們可以輕鬆地預測和推理的相關未觀察到的原因(causes)和影響(effects):之前可能發生的事情,接下來可能發生的事情以及不同事件如何通過原因和影響進行連結。

如上圖所示,這是 ATOMIC 的一個小子集,是日常事件、原因和結果的機器常識圖譜。如果我們觀察“X 擊退 Y 的攻擊”事件,可以立即推斷出圍繞該事件的各種可信事實。就事件背後的合理動機而言,X 可能是想要保護自己。至於事件發生前合理的前提條件則是,X 可能已經有自衛訓練能力來成功抵禦 Y 的攻擊。我們還可以推斷出 X 的合理特徵:她可能很強壯、技術嫻熟且勇敢。對於這一事件的結果,X 可能會感到憤怒並可能想要報警;另一方面,Y 可能會害怕被抓住並想逃跑。

在官網上,研究者給出了一個關於該專案的知識圖譜瀏覽器,可以選擇一個事件並檢視相關注釋。

上面的例子說明如何通過密集連線的推理知識來實現日常的常識推理。正是通過這種知識,我們可以觀看一部兩小時的電影,並瞭解一個跨越幾個月的故事,因為可以推斷出大量的事件、原因和影響。

此外, ATOMIC 還能使我們能夠發展關於他人的心智理論(Theories of Mind)。雖然這種能力對於人類而言是普遍而微不足道的,但卻是當今人工智慧系統所缺乏的。部分原因是絕大多數人工智慧系統都針對特定任務的資料集和目標進行了訓練,從而使模型能夠有效地找到任務特定的相關模式,但缺乏簡單且可解釋的常識推理。

ATOMIC 如何收集事件中的常識?

既然 ATOMIC 專注於 if-then 的知識推理,他們的研究目標是建立一個滿足三個要求的知識庫:規模、覆蓋範圍和質量。因此,他們專注於眾包實驗而不是從語料庫中提取常識,因為後者受到語言中明顯的報告偏差影響,這會挑戰所提取知識的覆蓋範圍和質量。

他們的眾包框架以對簡單問題的自由文本回答的形式收集註釋,從而實現大規模、高質量的收集關於事件的常識。

我們提出了 if-then 推理型別的新分類法 ,對該型別進行分類的一種方法是基於預測內容:(1)If-Event-Then-Mental-State,(2)If-Event-Then-Event,以及(3)If-Event-Then-Persona。另一種分類方法是基於它們的因果關係:(1)“原因(causes)”,(2)“影響(effects)”,(3)“穩定(stative)”。使用這種分類法,他們收集了超過 877K 的推理知識例項。

然後,他們研究了神經網路模型,通過嵌入 Atomic 中描述的豐富的推論知識,可以獲得簡單的常識能力並推理以前無法預見的事件,以便用自然語言生成它們可能發生的原因和影響。

常見疑問

某些事件的註釋是多種多樣的,這是否意味著資料是雜亂的?

重要的是,有些事件引發了高度選擇性的常識預期(commonsense anticipations),而其他事件則引發了更多樣化的預期。關於這種不同程度的不確定性的知識(即在不同推理上的相對寬泛的分佈),這是我們常識知識中很自然且重要的一部分。因此,對於某些事件,看到不同的註釋是沒問題的。

ML 模型(如神經網路)可以從潛在的多樣化註釋中進行學習嗎?

當然! 這與為什麼可以訓練“語言模型”的原因相同。儘管語言變化很大,但有可能將語言中的可歸納模式作為概率模型進行學習。我們將常識視為隨機建模的問題。

協議級別是什麼?

為了闡明所有維度的資料質量,我們對 100 個事件的隨機子集進行了單獨的資料質量驗證研究,要求五個 MTurkers(眾包平臺上的眾包工人) 根據事件和維度驗證單個註釋是否正確。我們發現,平均而言,註釋在86% 的時間內都有效,每個維度的研究如上圖所示。

資料下載:

https://homes.cs.washington.edu/~msap/atomic/data/atomic_data.tgz

論文連結:

https://homes.cs.washington.edu/~msap/atomic/data/sap2019atomic.pdf

(本文為 AI科技大本營編譯文章,轉載請微信聯絡 1092722531。)

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題