科技

再一次驗證!華為面向AI時代的智慧無損資料中心網路效能全面領先

什麼樣的快遞物流會被使用者認可?毫無疑問,一個不丟包裹、沒有暴力分揀、送貨速度快的企業會成為使用者的首選。

如果我們把快遞物流所發揮的作用放到資料中心看,那麼同樣,一個零丟包、低時延、高吞吐的網路更顯得十分重要!

眾所周知,資料中心有“三大件”:計算、儲存和網路。儲存主要用於儲存業務應用的各類資料,計算從儲存裝置獲取資料並對資料進行處理。網路則建立了計算和儲存資源的通道,它是一條高速路、國道還是省道直接影響了資料中心的執行效率

所以,業內的所有網路廠商都在不遺餘力建好這條運送資料的“物流通道”。例如RDMA的出現,就是新型網路的成功探索,它可以實現業務應用直接訪問網絡卡而不需經過CPU核心,從而減少時延又提升CPU利用率。

但是RDMA就是那條最佳的“物流”嗎?雖然它有相比TCP/IP的諸多優點,但也存在一個很大的缺點:對網路丟包異常敏感。傳統乙太網0.1%的丟包,會導致RDMA協議處理能力下降50%,進而使得如今越來越熱的AI訓練的計算能力下降50%。

其實現行網路存在網路丟包和時延的矛盾點,單獨解決某一個問題並不難,難點在於同時解決這兩個問題,如何找到這個“蹺蹺板”的平衡點需要創新的技術。

這項創新技術被華為攻克,其提出的CloudFabric智簡資料中心網路面向AI時代的子方案AI Fabric智慧無損資料中心網路解決方案,首次解決了網路傳輸耗時和容易丟失資料這個兩難的問題

近日,AI Fabric所體現的創新與價值得到國際權威測試機構Tolly Group的認可,在其進行的對比測試驗證結果表明,華為AI Fabric由CloudEngine系列資料中心交換機組網,相比業界其他主流廠商的組網方案,效能表現卓越,優於Tolly進行的對比測試驗證的思科同等款型交換機的相同組網

具體從高效能運算、人工智慧/機器學習和分散式儲存三大典型應用場景來看,Tolly對華為AI Fabric解決⽅案進⾏了效能評估,並與思科Nexus交換機組⽹效能進⾏了對比。華為和思科的⽅案均基於RDMA over Converged Ethernet(RoCEv2)。在所有三大場景中,華為AI Fabric解決方案的效能均優於思科。

AI訓練效率對比高於27%

首先以大熱的人工智慧來說,在深度學習的AI訓練模型中,為了滿足處理海量非結構化資料的要求,計算單元從CPU發展到了GPU,儲存介質從HDD機械硬碟演進到了SSD快閃記憶體盤,它們的效能均提升了100倍以上。然而,網路通訊時延卻成為整體效能提升的瓶頸。

即使逐漸興起的RDMA網路,如同前文所說,也沒有有效解決這個難題。

Tolly測試驗證華為AI Fabric智慧無損資料中心網路可以完美地解決此問題。經過嚴苛測試,在伺服器通過AI演算法深度學習識別圖片的100Gbps時,AI Fabric可以完全做到0丟包,使得GPU每秒可以學習識別478個圖片,這個結果高出思科27%。測試結果如下圖所示:

通訊時延對比縮短30%

其次以高效能運算來看,由於HPC系統的MPI AllReduce模型常常導致網路中傳輸的資料量會瞬間撐爆網路管道。也就是網路會週期性爆發多打一的Incast流量,瞬間超過網路裝置的承受能力,造成擁塞和丟包。

傳統乙太網為了防止資料丟失,會把這些資料放入快取佇列排隊,並反覆不斷地重新傳送,大大延長了網路傳輸時間,進而導致計算任務完成時間也被延長。如何平衡好網路丟包和時延成為令人頭痛的難題。

Tolly測試驗證華為AI Fabric可以很好地解決這個問題。高效能運算一般會把任務分解成8位元組或者16位元組的子任務。此時,AI Fabric不僅沒有丟包,而且完成一次All Reduce計算任務的時間比思科縮短了30%。測試結果如下圖所示:

分散式儲存IOPS效能對比高於30%

最後再從分散式儲存來看,如同前文多次表述,儲存介質從HDD到SSD,介質訪問時延縮短了100多倍,然而傳統乙太網的通訊時延上升到儲存處理時間的50%以上。

通訊時延大,儲存訪問I/O埠的時間就長,每秒可以訪問的I/O埠數就少,儲存訪問I/O埠的IOPS效能就會受到嚴重製約,資料的實時儲存也就無法實現。如何降低網路時延進而提升儲存IOPS效能成為極大挑戰。

Tolly測試再次驗證,AI Fabric可以很好地使儲存介質的IOPS效能發揮到極致。測試結果表明,相同的儲存介質,部署AI Fabric後儲存的IOPS效能相比思科提高了30%以上。測試結果如下圖所示:

AI Fabric為何能做到“更快、更高、更強”?

其實此前,華為AI Fabric已經通過國際權威第三方獨立測試機構EANTC的資料中心高效能測試,此次Tolly測試再一次表明,AI Fabric使資料中心“大腦”處理速度(HPC高效能運算)更快了,比以思科為代表的業界頂級水平提高了30%;“記憶”能力(儲存IOPS)更高了,對比提高30%;“認知”能力(分散式AI訓練)更強了,對比提高27%。

如果要問,AI Fabric為何能做到“更快、更高、更強”?這就不得不說到其所具備的幾大關鍵技術:華為首次給CloudEngine資料中心交換機裝上了智慧的“芯”,並獨創了iLossless智慧無損演算法,實現定時採集流量特徵和動態基線智慧調整,最終帶來0丟包、低時延、高吞吐的極致網路效能。

無論是硬體上的“芯”升級,還是軟體演算法上的突破,這些技術創新得以讓華為AI Fabric智慧無損資料中心網路解決方案效能表現卓越。

並且,華為AI Fabric在網際網路和金融領域已有了成功實踐。它讓某網際網路巨頭無人駕駛應用的計算效率提升了40%,讓招行儲存的IOPS效能提高了20%。以資料說話,可以想見AI Fabric一定會吸引越來越多的企業選用。

新的機遇,AI Fabric正在引領資料中心邁向智慧無損網路,推動企業加速邁向AI時代!

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題