科技

Facebook最新黑科技:在虛擬世界中復刻一個“真實”的你

編譯/小夥計、ZJ

近日,Facebook CEO 扎克伯格透露公司正在研究一款可用於AR眼鏡的腦機介面技術,但該技術並非將AR眼鏡以植入性晶片的形式進行,而是希望能開發成可量產的可穿戴技術。

類似《刀劍神域》中那般腦機介面被認為是虛擬現實的最終形態,也是最理想的形態,然而這個離我們似乎還有些遙遠。

一直想要發展VR社交的Facebook,一邊在規劃幾十年後的未來,同時也在踏踏實實地走好每一步。比如剛剛公佈的Codec Avatars技術,就讓VR社交中的虛擬人物表情動作達到了非常真實的狀態,彷彿在虛擬世界中復刻了一個“真實”的你。

研究助理Autumn Trimble正坐在“Mugsy”裡面,Mugsy正是Facebook位於匹茲堡的Facebook Reality Lab(FRL,原來Oculus 研發實驗室Oculus Research),用於建立“codec avatars”的捕獲設施之一。

視訊畫面中有一名年輕女子,她的眼睛閃爍著光芒說:“門口站著一個大塊頭的傻瓜。然後他說:‘你以為你是誰,蓮娜·荷恩(上世紀美國超級黑人巨星)嗎?’我說雖然我不是荷恩,但我就像姐姐一樣瞭解荷恩。”

上面這段獨白來自沃頓·瓊斯的戲劇《1940年的廣播時刻》的開場白。畫面中的年輕女子繼續說著這段臺詞,能看出來她很清楚自己在做什麼。當她詳細講述門衛的聲調變化時,臉上盪漾出笑容,就像在跟你講笑話一般。她咬字準確時,嘴脣的形狀會發生恰到好處的變化,聲音抑揚頓挫。她的表情經過如此精細的校準,朗讀臺詞時如此地胸有成竹,再加上黑色背景,恍然之中你會覺得自己彷彿正置身於百老匯劇院,眼前在上演的正是上世紀70年代後期的百老匯戲劇。

唯一的不足之處就是:她脖子以下的身體都消失不見了。

Yaser Sheikh伸出手停止了視訊的播放。剛剛畫面中的年輕女子實際上是一個看上去極其逼真的VR虛擬化身,她令人驚豔的表現背後是收集的資料在運作。Sheikh是FRL的負責人,他還拿出了另一個令人印象更加深刻的視訊。在該視訊中,剛剛的那個女子和一個男子都戴著VR頭顯。在螢幕的左側,真實世界中的他們正戴著頭顯在聊天; 而與此同時,在螢幕右側,他們的虛擬化身正在聽著精彩絕倫的音樂會。他們聊天的話題卻很稀鬆平常,聊的是熱瑜伽——這樣的場景是對未來生活的驚鴻一瞥。

Facebook的新黑科技:

Codec Avatars

多年以來,人們在虛擬現實中一直都是通過電腦生成的虛擬化身來代表我們進行互動。VR頭戴裝置和手持控制器都是可追蹤的,所以我們在現實世界中的頭部動作和手部動作可以出現在這些虛擬對話場景中,這些無意識的習慣動作也為虛擬世界中的對話平添了至關重要的一點——和諧感。

然而,即使我們的虛擬互動變得更加自然,由於技術限制,虛擬互動在視覺上只能保持在很簡單的程度——就像Rec Room和Altspace這樣的社交VR App一般,只能將我們的形象抽象成漫畫,基本不會(如果有的話)映射出我們在真實世界的表情。但Facebook的新技術Spaces能夠用社交媒體照片生成一個形象逼真的動畫形象,但有些表情仍然依賴於按鈕或手柄來觸發。即使像技術要求更高的平臺,如高保真領域,它的確可以讓使用者匯入自己的3D掃描模型,但如果要求虛擬形象感覺像你一樣栩栩如生,道阻且長。

最初,Yaser Sheikh和他的團隊在匹茲堡市區東部的自由社群租了一間小辦公室開始進行這項技術的研發工作,目前他們已搬到卡內基梅隆校園內,空間更大,並計劃在未來一兩年內再次擴充套件。FRL稱這項技術為CodecAvatars,是用機器收集、學習和重建人類社交表情的結果。目前,他們還沒有準備好正式推出這項技術。最好的情況是,還需要花上幾年時間,前提是他們最後能夠成為Facebook部署計劃中的一部分。但是FRL團隊已經準備好開始大展拳腳了。

Sheik說:“如果我們真的能把這件事做好,絕對是非常轟動的。我們想把它做出來,聊聊它的用武之地。”他臉上帶著胸有成竹的笑容,對於團隊能完成這項技術顯得信心十足。

1927年,美國人類學家、語言學家愛德華·薩丕爾發表了一篇文章《無意識的社會行為模式》。在文章中,薩丕爾提到人類對姿態的反應是“一種複雜又神祕的程式碼,沒有文字描述,無人得識,卻眾人皆知” 。92年之後,薩丕爾所說的精密“程式碼”成為了Sheikh為之不斷努力的任務。

在Sheikh進入Facebook之前,他是卡內基梅隆大學的一名教授,負責研究計算機視覺與社交感知之間的交集。2015年,當OculusVR首席科學家邁克爾·阿布拉什(Michael Abrash)與他聯絡,討論AR和VR未來的方向時,Sheikh毫不猶豫地分享了自己的願景。現在,Sheikh手裡總是端著一杯咖啡,他說:“VR的真正承諾是戴上頭顯進行像視訊中這樣的對話,而不是飛來親自見到我。你能看到的形象,不是卡通版本也不是怪物版本,而是你在真實世界裡的行為舉止和音容笑貌。”

在Sheikh為該設施撰寫的原始檔案中,他將其描述為“社交實驗室”,指的是大腦對虛擬環境和互動做出反應的現象,如同對真實環境做出的反應一般。然後,他還寫道他們認為在7-8名員工的努力下,能夠在五年內開發出照片級程度的虛擬化身。這項專案雖然保留下來了,但對此的期望卻發生了改變。這也同樣反映在其實驗室的名稱上:Oculus Research去年改名為FacebookReality Labs。

Codec Avatars的原理很簡單,是一種雙重測試,Sheikh稱之為“自我測試”和“母測試”:你應該愛你的形象,被你所愛的形象也應該愛你。啟用虛擬化身的過程要複雜得多。第一次使用是在一個名為Mugsy的圓頂狀房間裡,房間中的牆和天花板上鑲嵌著132個現成的佳能鏡頭和350個燈光,均聚焦在椅子上。坐在房間中心的感覺就像是置身於一個由狗仔隊組成的黑洞裡。 Sheikh還說:“我之前給這個地方取名叫“Mugshooter(臉部狙擊)”,但是之後我們覺得到這是一個挺可怕的名字,不太好。” 不過Mugsy早已經歷了幾次更新,Mugsy的攝像頭變多了,能力也變得更強,把那些老早的裝置(比如在一根繩子上綁上乒乓球,讓參與者的臉保持在合適的位置上,就像車庫裡的車一樣擺正)淘汰了。

在Mugsy中,研究參與者花了大約一個小時坐在椅子上,製作了一系列超大的面部表情和大音量的朗讀聲線,而另一個房間的員工通過網路攝像頭指導他們如何做出適當的表情。“像魚那樣活動臉頰,”技術專案經理Danielle Belko說道。

另一個名為Sociopticon的捕獲設施會更好地應用於第二個捕獲區域(在加入Oculus/Facebook之前,Sheikh在Carnegie Mellon建立了它的前身Panoptic Studio)。Sociopticon看起來很像微軟的MR捕捉工作室,雖然有著更多的相機(180到106)、更高的解析度(2.5K)和更高的幀速率(90Hz)。當Mugsy集中捕獲面部表情時,Sociopticon幫助Codec Avatar系統瞭解我們的穿著,以及我們的身體如何進行移動。因此,人們在那裡的時間並不僅僅是活動面部表情,還要搖晃四肢,四處跳躍,通過網路攝像頭與Belko玩耍。

這一切的關鍵是儘可能多地捕獲資訊,Mugsy和Sociopticon每秒可以收集180千兆位元組的資訊,以便神經網路儘可能學習從每個可能的角度將表情和運動對映到聲音和肌肉。它捕獲的資訊越多,其“深度外觀模型”就越強大,從而更好地將資訊編碼為資料,然後在另一端,另一個人的頭顯將其解碼為虛擬化身,這就是Codec Avatars中的編解碼的過程。

這不僅僅是原始的測量。正如研究科學家Jason Saragih告訴我那樣,他們還必須將資料解釋出來。畢竟普通使用者的起居室裡並沒有Mugsy和Sociopticon,他們只有AR/VR頭顯。雖然今天的VR可穿戴裝置被稱為頭戴式顯示器,但FRL的研究人員已經建立了一系列HMC或頭戴式捕捉裝置。這些HMC在面部各個區域設定了紅外LED和相機,允許軟體將資料重新融入到人的形象中。

在不久的將來,Sheikh和他的團隊希望能夠將面部掃描擴充套件到整個身體,因此軟體需要能夠解決Saragih所謂的“外在性”,否則虛擬互動將不會那麼逼真。例如當人們處於黑暗狀態時,系統需要進行補償。如果你將手放在背後,系統需要解決這個問題,這樣如果你的朋友在VR中走到你背後,他們就可以看到你的手在做什麼。還有一些其他的東西,比如預測使用者的移動方式,從而保證虛擬化身的運動能儘可能順利,但它們都旨在消除變數,讓你的虛擬形象成為一個不受約束、純粹的代表。

體驗:效果驚豔,略有瑕疵

把人的形象栩栩如生的展現出來很難,這才是事實。即使是超級大片一般的電子遊戲也會在頭髮、眼睛、鼻子和嘴巴內部等細節上掙扎,總會有一些部分讓它們看起來並不像是完全的人類。根據我對捕獲過程的經驗,當我戴上頭顯與Sheikh和研究員Steve Lombardi進行實時聊天時,我預想在VR中會出現同樣的情況。

但事實上並沒有。Sheikh的化身雖然沒有他現實生活中那樣的鬍鬚或圓形眼鏡,但這就是他,並且是完全的他。當他邀請我靠近並仔細觀察他臉上的胡茬時,感覺非常具有侵略性。Steve Lombardi也是這樣,當後來他的真人走進房間時,我覺得我早就認識他了,儘管我只在VR中見過他。雖然結果並不完美,例如當人們興奮地說話時,他們虛擬化身嘴巴的動作並沒有和語調相統一,此外頭髮雖然根根分明,但周圍總有一個模糊的光環,舌頭看起來也有些模糊,但總體看來,效果是令人感到不可置信的好。

這次的體驗是一個很了不起的經歷,同時也很麻煩。雖然Codec Avatars還是一個研究專案,但我們現在已經對它有了一定了解。

之前大火的AI換臉程式Deepfakes可以憑空創造面孔,人們的資料隱私、錯誤資訊活動和惡性行為已經成為當下網際網路上非常真實的問題。隨著VR和AR出現併成為人類主流的通訊平臺,這些問題將會變得更加嚴重。你覺得網路上的騷擾很糟糕嗎?你認為能增加體現個人空間的VR會令人不安嗎?人們對此還沒有足夠的瞭解。

Sheikh理解這種擔憂。“真實性不僅對Codec Avatars的成功至關重要,對於保護使用者也很重要,”他說道。“如果你接到你母親打來的電話,你聽到了她的聲音,那麼你不會產生任何疑問,因為她說的就是你所聽到的對嗎?我們必須建立這樣的信任,並從一開始就保持。”他引用HMC上的感測器作為認證的重要手段:我們的眼睛、聲音甚至習慣都是一種生物識別技術。在過去幾年中,圍繞資料隱私和虛擬現實的對話越來越多,而這樣的突破可能會使他們的熱度達到一個新高度。

對於VR在過去十年間所取得的所有進步,像Codec Avatars這樣的技術代表了我們正在向全新體驗階段過渡。每年在Oculus Connect開發者大會上,邁克爾·阿布拉什都會上臺演講,並公佈公司的最新研究和創新專案的狀態。隨著時間的推移,他更看好VR的一些突破。他說道:“我不是在打賭說四年內就一定能開發出令人折服的虛擬形象,但這也不是完全不可能的事。”

現在和Yaser Sheikh坐在一起,我問他對當時阿布拉什的宣言有何感受?

“他是對的,”他微笑著喝著咖啡說道。

本文為一點號作者原創,未經授權不得轉載

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題