科技

看一眼就知手感,北大學神聯手朱儁彥讓機器人「想象」觸感

機器之心報道

參與:shooting、一鳴、杜偉

我們可以通過視覺、聽覺和觸覺來感知物體,而且這幾種感知是可以同時進行且互相感受的。但是機器人卻很難做到這一點,它也許能“看”,也可以“觸控”,但是這些感知資訊卻無法交換。

最近,來自MIT CSAIL的博士、曾經的北大學神李昀燭(一作)聯合朱儁彥(二作)等人提出一種預測性的人工智慧,使機器人能夠通過觸控來“看”物體,並且反過來通過視覺影象來預測觸控的感受。

加拿大作家瑪格麗特•阿特伍德曾在小說《盲刺客》中寫道:「觸覺先於視覺,先於語言。它是第一語言,也是最後的語言,它不會騙人。」

的確,有時候眼見未必為真,耳聽也未必為實。但你用手去觸控的感知總不會騙人。

不過,雖然觸覺讓我們可以直接感受物理世界,但眼睛卻可以幫助我們立即理解這些觸覺訊號的全貌,讓我們快速獲得關於物體的認知。

但對我們來說很簡單的一件事,對機器人來說卻並不容易。帶有攝像頭的機器人可以直接看世界,帶有觸覺系統的機器人可以直接感知。但具有觸覺或視覺的機器人無法互換這些訊號。

為了縮小這種感官差距,麻省理工計算機視覺和人工智慧實驗室的研究人員提出了一種預測性的人工智慧,可以通過觸覺來「看」世界,再通過「看」來感受。

下面,我們來看一下具體研究(先上動圖感受下):

綠色:真實結果;紅色:預測結果

更多實驗動圖,請參考:http://visgel.csail.mit.edu

這篇論文到底做了什麼?

人類感知世界的方式有很多種,包括視覺、聽覺和觸覺。在這項研究中,研究人員探索了視覺和觸覺之間的跨模態聯絡。

這項跨域建模任務的主要挑戰在於兩者之間顯著的比例差異:當我們的眼睛同時感知整個視覺場景時,只能感受到物體的一小部分。

為了將視覺和觸覺聯絡起來,研究人員引入了兩個跨模態任務:1)從視覺輸入中合成可信的觸覺訊號,2)從視覺輸入中直接預測哪個物體和哪個部分正在被觸控。

為了完成此目標,研究人員構建了一個機器人系統來自動化收集大規模視覺-觸覺對的過程。如圖 1a 所示,機器人手臂裝有一個觸覺感測器,稱為 GelSight。

他們還設定了獨立的網路攝像機來記錄物體和機械臂的視覺資訊。研究人員總共記錄了對 195 個不同物體的 12000 次觸控。每個觸控動作包含 250 幀的視訊序列,最後產生了 300 萬個視覺和觸覺對影象。

為了縮小影象資料和觸控資料之間的資料量比例差距,他們提出了新的條件對抗模型,該模型結合了觸覺的比例和位置資訊。人類的感知研究表明,該模型可以根據觸覺資料生成逼真的視覺影象,反之亦然,即它也可以根據視覺資料生成觸覺感知。

最後,研究人員給出了關於不同系統設計的定性和定量實驗結果,並可視化了模型學習到的表徵,以幫助我們理解它捕捉到的東西。

這項研究可以幫助機器人更好的理解物體的性質,而相關的拓展甚至可以協助盲人更好的通過觸控感知環境。

機器人如何通過觸覺來「看」世界,或者通過視覺影象來「想象」觸覺

在模型層面,研究人員構建了一個跨模型的預測系統,以根據觸覺預測視覺,反之亦然。他們首先將觸覺中的程度、規模、範圍和位置資訊結合在模型中。然後,使用資料平衡的方法多樣化其結果。最後,通過考慮時間資訊的方法進一步提高準確性。

研究中的模型基於 pix2pix 方法,是一個用於影象到影象任務的條件 GAN 框架。

在任務中,生成器接受視覺影象或觸覺影象作為輸入,並生成一個對應的觸覺或視覺影象。而判別器觀察輸入的影象和輸出的影象。

在訓練中,判別器分辨輸出和真實影象的區別,同時生成器生成真實的,可以迷惑判別器的影象。

在實驗中,研究人員使用視覺-觸覺影象對來訓練模型。在從觸覺還原視覺的任務中,輸入觸覺影象,而輸出是對應的視覺影象。而在視覺預測觸覺的任務中,則輸入和輸出對調。

模型

圖 3:視覺-觸覺的模型結構。生成器包括編碼器和解碼器兩個部分。輸入使用了視覺影象和參考視覺-觸覺影象一起編碼,併產生觸覺影象作為輸出。對觸覺-視覺的任務上,使用同樣的結構,但是交換視覺影象和觸覺影象的輸入輸出位置。

模型使用編碼器-解碼器架構用於生成任務。在編碼器上分別使用兩個 ResNet-18 模型用於輸入影象(視覺或觸覺影象)和參考的視覺-觸覺影象。

將來自編碼器的兩個向量合併後,研究人員將其輸入解碼器。解碼器包括五層標準的卷積神經網路,因為輸出和一些參考影象相似,研究人員在編碼器和解碼器之間其中加入了一些跨層連線。對於判別器,研究人員使用了 ConvNet。

為防止模式崩塌,研究人員採取資料重均衡策略來幫助生成器生成不同的模式。評估包括關於結果真實感的人類感知研究以及觸控位置的準確性和 GelSight 影象中變形量等客觀度量。

機器人設定

研究人員使用 KUKA LBR iiwa 工業機械臂來實現資料收集過程的自動化。機械臂上安裝的 GelSight 感測器用以收集原始觸覺影象。

他們還在機械臂背面的三腳架上安裝了一個網路攝像頭,以捕捉機械臂觸控物體的場景視訊。此外,研究人員還利用時間戳記錄來同步視覺和觸覺影象。

資料集和方法

圖 2: 參與實驗的物品集合。使用了很多日用品和食品。

表 1: 資料集的劃分。

研究的資料集是 YCB(Yale-CMU-Berkeley)資料集,一個標準的日用品資料集,被廣泛用於機器人操作研究。研究人員在研究中使用了 195 個物品,其中 165 個作為訓練集,並使用 30 個已訓練的和 30 個模型未見過的物品進行測試。

訓練

模型使用 Adam 學習器,學習率 0.0002。L1 loss 的λ為 10。使用 LSGAN 而非標準 GAN 的損失函式。同時對影象採用了一些資料增強機制,如隨機剪裁,或影象亮度、對比度、飽和度和色調微調。

實驗創新

為了提高模型的表現,研究人員在實驗上採取了一些創新措施:

使用參考觸覺-視覺影象,幫助機器人定位觸控位置,減少從視覺到觸覺任務中需要判斷觸控位置的困難。平衡大量的沒有材質和起伏的平面觸覺資料,避免模型崩潰而使機器人在空氣中做無謂的物體觸控動作。考慮時間資訊(何時觸摸了物體表面),避免輸入和輸出序列不同步。實驗結果

圖 5:模型和其他基線結果的視覺化對比。模型可以更好地根據視覺影象預測物體表面的觸覺資訊,也能夠更好地根據觸覺資訊還原影象表面。

表 2:真假測試中的模型表現。模型可以更好地分辨真實和虛假的觸覺訊號,不管是對已知的物體還是未知的物體。

圖 6:從視覺到觸覺的量化評測結果。上圖:測試機器人是否已經認知到觸摸了物體表面的錯誤數。下圖:根據影象還原觸覺點位置的失真錯誤情況。實驗模型表現基本上比其它模型好。

圖 7:從視覺還原觸覺的情況。上圖:模型是否能夠及時檢測到已經觸摸了物體表面的曲線。下圖:根據影象還原的觸覺點陣資訊。

一作介紹

李昀燭

不看不知道,一看嚇一跳。

一作小哥哥也是枚妥妥的學神。

本科畢業於北京大學,被選入拔尖人才培養計劃,曾獲學院十佳畢業論文、北京大學優秀畢業生等榮譽。

本科期間在北京大學和斯坦福大學的多個實驗室進行科研活動,並以一作身份發表多篇計算機視覺和機器學習頂級會議論文。

李昀燭發表論文列表,我們只截取了部分。

不愧是學神,在這麼多頂級大會上發表過論文。而且仔細看,有好幾篇都是和朱儁彥合作的。一個出自清華,一個出自北大,妥妥的強強聯合。

李昀燭現為麻省理工學院電腦科學與人工智慧實驗室博士二年級學生,師從計算機視覺科學家安東尼奧·托拉爾巴(Antonio Torralba)和 Atlas 機器人設計團隊負責人羅斯‧泰得瑞克(Russ Tedrake)。

他的專業領域是計算機視覺、機器學習和機器人技術,尤其是基於深度學習的機器人動力學建模和多模態感知。他希望自己的研究能夠使機器人更好地感知環境,並在動態環境中做出更好的決策。

此前機器之心報道的一篇關於可伸縮觸覺手套的論文,李昀燭也參與其中。

參考內容:

http://news.mit.edu/2019/teaching-ai-to-connect-senses-vision-touch-0617

http://visgel.csail.mit.edu/visgel-paper.pdf

市北·GMIS 2019全球資料智慧峰會於7月19日-20日在上海市靜安區舉行。本次峰會以「資料智慧」為主題,聚焦最前沿研究方向,同時更加關注資料智慧經濟及其產業生態的發展情況,為技術從研究走向落地提供借鑑。

本次峰會設定主旨演講、主題演講、AI畫展、「AI00」資料智慧榜單釋出、閉門晚宴等環節,已確認出席嘉賓如下:

大會早鳥票已開售,我們也為廣大學生使用者準備了最高優惠的學生票,點選市北·GMIS 2019全球資料智慧峰會_精彩城市生活,盡在活動行!!即刻報名。

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題