科技

刷臉支付“牛”在哪裡?這3大技術是關鍵

作者 | 孟靖 1963 年,來自 MIT 的 Larry Roberts 基於計算機視覺領域發表博士論文“Machine Perception of Three-Dimensional Solids”,至此,CV 技術作為一項新興的人工智慧開始出現在人們的視線當中。50 年後的今天,隨著智慧時代的來臨,越來越多的人工智慧已然走入人們的日常生活,為衣食住行帶來意想不到的便利。

當警方多次通過人臉識別在張學友演唱會現場抓捕逃犯時,當人們走進便利店只用“靠臉吃飯”時,當凌晨 2:30 還有智慧客服解答售後問題時,你是否還是會有這樣的疑問:人臉識別在應用的安全性上如何保證?智慧零售如何獲取感知分析能力?AI 演算法如何與硬體結合?終端硬體的計算能力不足問題該如何解決?伴隨著資料量的迅猛增長,頻寬和儲存倍增的壓力又該如何釋放?

帶著對這些問題的解答,來自騰訊優圖、騰訊雲、騰訊 AI LAB、英特爾的五位技術講師,圍繞著智慧零售、智慧硬體、人臉核身、語音識別等產品技術,基於實際業務場景的落地與使用者痛點開始了這場佈道。

計算機視覺技術的落地 智慧零售是以消費體驗過程為核心,以資料驅動的泛零售業態。其主要包括場景資料化和資料網路化兩個結構。以電商為例,當消費者入店時,其形成的客戶畫像,以及整個流動軌跡,與商品的互動行為,購買,復購,到最終的離店。全閉程的環節都可以以資料的形式呈現出來,這也是零售中所談到的非常重要的概念叫做人 - 貨 - 場的關係。

而原本需要依靠門店運營者人眼觀察進行的分析,現在就可通過計算機視覺技術的應用實現資料從非結構化到結構化的轉變,並可以實時準確的幫助門店運營者分析統計資料,為門店實現降本增效。因此,計算機視覺技術也成為了建立人 - 貨 - 場三者聯絡的天然紐帶,並幫助商家提升全鏈路運營效率,優化客戶體驗,創造新的商業機會。

那麼 CV 技術是如何線上下指導實踐與應用?騰訊優圖嘗試將 CV 技術運用到線下門店運營的問題解決上,基於影象識別技術,人臉識別技術等計算機視覺技術,幫助商家將線下的場景做到數字化的分析。此解決方案分為到店——>逛店——>購買三大模組,通過對各個環節的分解和洞察,為零售商打造知人知面更知心的智慧門店。

首先在影響營銷銷售額的 10 大因素中過店客流、進店客流是非常重大的因素。因此在到店模組中,客流從過店到進店的轉換分析下,CV 技術能力可幫助商家分時分段的實時統計過店客流,以及過店到進店的客流轉換,以此來指導零售商分析店鋪的高峰期和冷淡期。同時,按照性別、年齡等特徵維度,也可描繪出店家過店客流的人群畫像。這些資料一方面可以指導店家調整櫥窗陳列,另外一方面還可幫助營銷活動的決策。如果是一個大型 Mall 的業態,或者連鎖店的業態,還可通過進店客流對所有店鋪進行排名,對比分析不同店鋪客流量好與不好的影響因素,進行更加全面的分析與優化。

在完成了第一層漏斗轉換的分析,接下來就是使用者進店後,逛店到購買的轉化。

啤酒尿布這個經典營銷案例的背後就隱含著人 - 貨 - 場關係對營銷的影響,並體現著零售業中非常重要的一個指標:連帶率。它反應了顧客購物的深度和廣度。影響連帶率的因素非常多,人的方面像銷售技巧,比如客戶在麥當勞中買了薯條,售貨員可能會詢問客戶是否需要可樂;在貨的層面,商品的 SKU 是否豐富,擺放是否具備吸引力;在場的層面,貨架之間是否有關聯,場內的遊逛軌跡是否合理。所以如果說,第一環節從過店 - 進店是粗力度的客流統計和畫像刻畫。那麼,第二環節,在逛店模組就需要對客流做非常細粒度的統計,幫助提升連帶率的指標。

在逛店模組中,CV 技術再次幫助使用者實現客流軌跡和全場熱力的解決方案。

第一步,場內精細客流的統計。從客流進店後,可以做到精確到每一分鐘,每幾小時客流分佈情況,以一個服裝店為例,可以精確到男裝、女裝區域的客流分佈情況,進行一個細粒度的客流統計;第二步,刻畫客流軌跡。精確到進店後人流行走路線,客流整個的軌跡遊逛的動線是怎麼樣的;第三步,實現區域熱力的統計。熱力分析的業務價值主要體現在零售 KPI 中的“坪效”的指標(通常是店長和陳列師的 KPI),表徵單位面積區域對客戶的吸引能力。

通過實現對場內精細客流的統計、客流軌跡的刻畫和熱區的分析,刻畫場內使用者行為,給到商家科學的視覺化的資料,幫助商家合理規劃顧客行走路線、洞察品類、洞察商品相關性,從而實現品類調換,佈局優化,以及更加精準的定位人貨場關係。

人臉核身技術的實踐 在零售的場景中,客流統計、屬性分析以及 VIP 客戶識別的過程跟安防不太一樣,安防大多是區域網的環境,從攝像頭到處理單元基本上都在同一網路內。但零售場景的遍佈全國各地線下商家非常多,攝像頭佈置在門店中,資料處理則一般放在雲端,這勢必會產生這樣的問題:攝像機的視訊如果上傳時頻寬不夠該如何解決?常規的處理思路一般是使用 AI 攝像頭,在攝像頭側進行 AI 預處理。對於沒有智慧的傳統碼流機,騰訊優圖會提供盒子類的解決方案。

在當今這個人工智慧惠及生活的時代,大部分使用者都有這樣的疑問:刷臉支付除了考驗人臉識別技術以外,它的安全性如何保證?

首先使用者需瞭解刷臉支付的開通流程。使用者需在終端上先進行人臉檢測,再進行端和雲兩側都需要驗證的活體防攻擊檢測,驗證後會進行人臉核身,就是上傳人臉並與從公安拿到身份證圖片進行比對,驗證本人身份。如果確認,即可開通免密刷臉支付。刷臉支付的使用過程與開通區別不大,但由於使用者規模過大,使用上億人臉庫用來做支付的準確率和風險較大,所以在進行人臉檢測後,通常會要求使用者輸入手機號進行二次確認。但從長遠來看,輸入手機號的過程最終將會淘汰。

對於人臉支付硬體,其中有兩個十分重要的特性,一個是 3D 攝像頭,它主要是進行活體檢測。第二,是在流程當中進行檢測、跟蹤、優選、活體演算法的前項計算過程。最早騰訊優圖推出互動式的活體,通過搖頭、眨眼動作驗證真人身份,緊接著推出針對手機的應用場景推出光線活體檢測,以及針對通用裝置的紅外活體檢測以及 3D 活體檢測。

紅外雙目活體檢測方案採用的是雙目攝像頭,檢測過程中輸出一張 RGB 圖與一張紅外圖,其演算法原理是利用人的面板與紙張對紅外光的反射不同,以此保證檢測精度。但如若找到一種與面板相類似的材料進行檢測,就不能保證識別的安全性,所以紅外雙目活體多用於刷臉開門等場景。

針對有著更高安全要求的刷臉支付,通常會使用 3D 攝像頭配合檢測,並輸出一張 RTB 的圖與一張人臉深度圖,紙張等平面不存在深度資訊,但人臉是有三維深度資訊的,其輸出的人臉深度圖就可以用來做活體檢測。

除了深度的要求以外,在實際應用中 RTB 攝像頭的成像質量也至關重要。其實,技術人員是很難判斷人臉支付 POS 機所處的具體環境,比如,若 POS 機放置於窗邊,識別時人臉處於背光的場景,從而無法進行識別,這些都會給 RTB 成像帶來巨大挑戰。這時通常需要與 3D 攝像頭的廠商明確,要求攝像機需優化到適配不同場景都能進行正常識別工作。

有了硬體之後,為了保證演算法的流暢執行,還需進行效能加速。NCNN 是目前騰訊優圖已經開源的移動端高效能前向計算框架,它支援卷積神經網路,支援多輸入和多分枝的結構,支援多核並行加速,可擴充套件的模型設計,8bit 而量化半精度的儲存,記憶體佔用率比較低,計算速度較快。

而為解決維護成本高、網路不斷加深、使用者規模龐大等問題,騰訊優圖在 NCNN 框架的基礎上推出擁有跨平臺、高效能、模型壓縮、程式碼裁剪的 RapidNet 深度學習推斷框架。它可以在各個平臺上提供統一的介面,在效能優化上更加極致。但由於 CPU/GPU 互動延遲高,引數傳輸、資料拷貝耗時過多;網路中部分層運算量小,GPU 並行度不足;多路處理 CPU 效能不足,負載過大等原因,異構多核 CPU/GPU 加速技術成為了 RapidNet 主要的核心特性之一。其深度融合了基於 AMD 平臺的 OpenCL GPU 平行計算加速技術和基於 IOS 平臺的 Metal 加速技術,完美解決以上問題。

在零售方案中,由於線下門店遍佈全國,裝置以及服務的可靠性也是至關重要的。騰訊優圖在終端上設計了分層架構,無論前端裝置是什麼,其接入取流是獨立的一層。把 AI 相關的處理包括檢測、跟蹤、優選以及軌跡處理放於演算法層。在演算法層之上是服務監控層,監控包括裝置的監控、服務的監控。在裝置層監控服務基礎之上是網路監控層,通過分離架構的設計相容多個終端裝置,保證服務的可靠性。

語音識別技術的應用 現如今,語音合成若不侷限於時效性,完全可以做到與人類相似,語音合成技術也多被運用到導航、智慧客服等場景。

語音和聲音其實並不相同,聲音包括大家所能聽到的聲音包括風聲、水聲、車聲、動物生,語音是指人的發生器官發出具有一定社會意義的聲音。語音是人的聲音,機器可以理解的訊號通常使用的是音訊訊號,音訊訊號是一個有規律聲波的訊號變化和載體,其特點是取樣率、量化位數和編碼演算法。其中,量化位數是每個點採集的資訊量,最常見的是 16 位元;在語音識別領域通常使用未壓縮無損的編碼演算法進行儲存。

以智慧客服為例,從人開始說話到傳輸音訊訊號到雲端,再做語音檢測、語音識別,之後進行意圖識別,由於通話不僅是一句話就可以完成,所以還需進行任務決策與目標引導,引導完成後再進行播報。其中,當用戶在說話時,從電話裡可能會夾雜很多噪聲,這時語音活動檢測能準確的把關注的話語內容挑選出來,從而進行語義理解。

其中,語音識別技術是把人類語音中的詞彙內容轉換成計算機可讀的輸入,簡單來說就是把語音轉為文字。當音訊訊號產生後,被傳輸至雲端,也就是解碼器。而解碼器中的聲學模型會把音訊訊號轉化成建模單元,建模單元通常為拼音,之後接入詞典,通過詞典把拼音轉化為文字,把發音相近的字或詞挑選出來;語言模型部分,把最有可以的字或詞按照時序組合出來,顯示為識別結果文字。

最為常見的聲學模型網路包括 DNN 網路以及 CLDNN 網路。其中,基礎的 DNN 網路,下層為輸入層,中間包含若干隱層,上層為輸出層。而較為通用的 CLDNN 網路,C 就是卷積網路,L 是 LSTM 網路,D 就是 DNN,其特點為快速收斂,可快速達成較好的識別效果。

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題