科技

Azure升級3大服務 拔高雲端資料分析能力

微軟Azure雲平臺近日宣佈針對3項資料服務展開升級,包括推出正式版資料湖儲存服務Data Lake Storage Gen2,資料完全託管服務Data Explorer,以及預覽版的混合資料整合服務Data Factory,來滿足使用者對於高性價比+安全的雲端資料分析服務需求。

據悉,資料湖儲存服務Data Lake Storage Gen2適用於大型資料分析,其結合了Azure非結構化儲存服務Blob Storage的可擴充套件性、安全模型和豐富的功能於一身,再加上為分析所設計的高效能檔案系統,能與Hadoop分散式檔案系統相容,讓使用者選擇雲端資料湖服務時,無需在成本和效能中取捨。

微軟指出,自家資料湖儲存服務其中一項主要目標,即是要與Apache生態系統相容。為了做到這點,微軟開發Azure Blob檔案系統驅動程式,該驅動程式正式成為Apache Hadoop和Spark的一部分,並且附於許多Hadoop的商業版本中。

為了進一步提升Data Lake Storage Gen2的分析能力,微軟用分層名稱空間,收集檔案集合並整理成分層目錄和巢狀子目錄,此種名稱空間對巨量資料分析架構相當重要,由於Hive或是Spark等工具經常將輸出寫入暫時位置,並在操作結束時重新命名該位置,若沒有分層名稱空間,重新命名所花費的時間通常會比分析流程本身更長。因此,分層名稱空間可用較少的計算資源,來加速任務執行並降低成本。

而Data Explorer是一個快速且具有高擴充套件性的完全託管資料分析服務,能夠針對大量的流資料進行即時分析。在不需要修改資料結構的情況下,一秒內能夠查詢10億筆記錄。此外,該服務能與微軟雲端其他服務相連,像是Data Lake Storage、SQL Data Warehouse、Power BI。為了提升速度和簡化操作,Data Explorer由兩個分別的服務組成:Engine服務和資料管理服務,這兩項服務都在Azure中,以計算節點的叢集形式部署。

資料管理服務負責消化多種不同型態的原始資料,並且管理資料清理、執行失敗和反壓機制等任務,還能通過自動索引和壓縮機制快速處理資料。而Engine服務則是負責處理輸入的原始資料和使用者的查詢,通過自動擴充套件和資料分割來達到高效能的目標。

此外,Azure此次升級還推出了混合資料整合服務Data Factory預覽版,Data Factory服務是用來將資料移動和轉換工作自動化的服務,內建超過80個與結構化、半結構化和非結構化資料來源的聯結器。除此之外,該服務還提供資料工作流程視覺化工具Mapping Data Flow,提供使用者在設計、建置和管理資料轉換的過程有視覺化的體驗,不需要學習Spark或是對分散式基礎架構有深入的瞭解。

APP商店搜尋中關村線上,看2018年最新手機、筆記本評價排行

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題