科技

50個最有價值的資料視覺化圖表

文章來源:中國統計網

本文總結了在資料分析和視覺化中最有用的 50 個 Matplotlib 圖表。這些圖表列表允許您使用 python 的 matplotlib 和 seaborn 庫選擇要顯示的視覺化物件。

這些圖表根據視覺化目標的 7 個不同情景進行分組。例如,如果要想象兩個變數之間的關係,請檢視“關聯”部分下的圖表。或者,如果您想要顯示值如何隨時間變化,請檢視“變化”部分,依此類推。

有效圖表的重要特徵:

在不歪曲事實的情況下傳達正確和必要的資訊。設計簡單,您不必太費力就能理解它。從審美角度支援資訊而不是掩蓋資訊。資訊沒有超負荷。

01 關聯(Correlation)

關聯圖表用於視覺化 2 個或更多變數之間的關係。也就是說,一個變數如何相對於另一個變化。

1. 散點圖(Scatter plot)

散點圖是用於研究兩個變數之間關係的經典的和基本的圖表。如果資料中有多個組,則可能需要以不同顏色視覺化每個組。您可以使用 plt.scatterplot() 方便地執行此操作。

2. 帶邊界的氣泡圖(Bubble plot with Encircling)

有時,您希望在邊界內顯示一組點以強調其重要性。在這個例子中,你從資料框中獲取記錄,並用 encircle() 來使邊界顯示出來。

3. 帶線性迴歸最佳擬合線的散點圖(Scatter plot with linear regression line of best fit)

如果你想了解兩個變數如何相互改變,那麼最佳擬合線就是常用的方法。下圖顯示了資料中各組之間最佳擬合線的差異。要禁用分組並僅為整個資料集繪製一條最佳擬合線,請從 sns.lmplot() 呼叫中刪除 hue ='cyl' 引數。

針對每列繪製線性迴歸線或者,可以在其每列中顯示每個組的最佳擬合線。可以通過在 sns.lmplot() 中設定 col=groupingcolumn 引數來實現,如下:

4. 抖動圖(Jittering with stripplot)

通常,多個數據點具有完全相同的 X 和 Y 值。結果,多個點繪製會重疊並隱藏。為避免這種情況,請將資料點稍微抖動,以便您可以直觀地看到它們。

使用 seaborn 的 stripplot() 很方便實現這個功能。

5. 計數圖(Counts Plot)

避免點重疊問題的另一個選擇是增加點的大小,這取決於該點中有多少點。因此,點的大小越大,其周圍的點的集中度越高。

6. 邊緣直方圖(Marginal Histogram)

邊緣直方圖具有沿 X 和 Y 軸變數的直方圖。這用於視覺化 X 和 Y 之間的關係以及單獨的 X 和 Y 的單變數分佈。這種圖經常用於探索性資料分析(EDA)。

7. 邊緣箱形圖(Marginal Boxplot)

邊緣箱圖與邊緣直方圖具有相似的用途。然而,箱線圖有助於精確定位 X 和 Y 的中位數、第 25 和第 75 百分位數。

8. 相關圖(Correllogram)

相關圖用於直觀地檢視給定資料框(或二維陣列)中所有可能的數值變數對之間的相關度量。

9. 矩陣圖(Pairwise Plot)

矩陣圖是探索性分析中的最愛,用於理解所有可能的數值變數對之間的關係。它是雙變數分析的必備工具。

02 偏差(Deviation)

10. 發散型條形圖(Diverging Bars)

如果您想根據單個指標檢視專案的變化情況,並可視化此差異的順序和數量,那麼散型條形圖(Diverging Bars)是一個很好的工具。它有助於快速區分資料中組的效能,並且非常直觀,並且可以立即傳達這一點。

11. 發散型文字(Diverging Texts)

發散型文字(Diverging Texts)與發散型條形圖(Diverging Bars)相似,如果你想以一種漂亮和可呈現的方式顯示圖表中每個專案的價值,就可以使用這種方法。

12. 發散型包點圖(Diverging Dot Plot)

發散型包點圖(Diverging Dot Plot)也類似於發散型條形圖(Diverging Bars)。然而,與發散型條形圖(Diverging Bars)相比,條的缺失減少了組之間的對比度和差異。

13. 帶標記的發散型棒棒糖圖(Diverging Lollipop Chart with Markers)

帶標記的棒棒糖圖通過強調您想要引起注意的任何重要資料點並在圖表中適當地給出推理,提供了一種對差異進行視覺化的靈活方式。

14. 面積圖(Area Chart)

通過對軸和線之間的區域進行著色,面積圖不僅強調峰和谷,而且還強調高點和低點的持續時間。高點持續時間越長,線下面積越大。

03 排序(Ranking)

15. 有序條形圖(Ordered Bar Chart)

有序條形圖有效地傳達了專案的排名順序。但是,在圖表上方新增度量標準的值,使用者可以從圖表本身獲取精確資訊。

16. 棒棒糖圖(Lollipop Chart)

棒棒糖圖表以一種視覺上令人愉悅的方式提供與有序條形圖類似的目的。

17. 包點圖(Dot Plot)

包點圖表傳達了專案的排名順序,並且由於它沿水平軸對齊,因此您可以更容易地看到點彼此之間的距離。

18. 坡度圖(Slope Chart)

坡度圖最適合比較給定人/專案的“前”和“後”位置。

19. 啞鈴圖(Dumbbell Plot)

啞鈴圖表傳達了各種專案的“前”和“後”位置以及專案的等級排序。如果您想要將特定專案/計劃對不同物件的影響視覺化,那麼它非常有用。

04 分佈(Distribution)

20. 連續變數的直方圖(Histogram for Continuous Variable)

直方圖顯示給定變數的頻率分佈。下面的圖表示基於型別變數對頻率條進行分組,從而更好地瞭解連續變數和型別變數。

21. 型別變數的直方圖(Histogram for Categorical Variable)

型別變數的直方圖顯示該變數的頻率分佈。通過對條形圖進行著色,可以將分佈與表示顏色的另一個型別變數相關聯。

22. 密度圖(Density Plot)

密度圖是一種常用工具,用於視覺化連續變數的分佈。通過“響應”變數對它們進行分組,您可以檢查 X 和 Y 之間的關係。以下情況用於表示目的,以描述城市裡程的分佈如何隨著汽缸數的變化而變化。

23. 直方密度線圖(Density Curves with Histogram)

帶有直方圖的密度曲線彙集了兩個圖所傳達的集體資訊,因此您可以將它們放在一個圖中而不是兩個圖中。

24. Joy Plot

Joy Plot 允許不同組的密度曲線重疊,這是一種視覺化大量分組資料的彼此關係分佈的好方法。它看起來很悅目,並清楚地傳達了正確的資訊。它可以使用基於 matplotlib 的 joypy 包輕鬆構建。

注:需要安裝 joypy 庫

25. 分散式包點圖(Distributed Dot Plot)

分散式包點圖顯示按組分割的點的單變數分佈。點數越暗,該區域的資料點集中度越高。通過對中位數進行不同著色,組的真實定位立即變得明顯。

26. 箱形圖(Box Plot)

箱形圖是一種視覺化分佈的好方法,記住中位數、第 25 個第 45 個四分位數和異常值。但是,您需要注意解釋可能會扭曲該組中包含的點數的框的大小。因此,手動提供每個框中的觀察數量可以幫助克服這個缺點。

例如,左邊的前兩個框具有相同大小的框,即使它們的值分別是 5 和 47。因此,寫入該組中的觀察數量是必要的。

27. 包點+箱形圖(Dot+Box Plot)

包點+箱形圖(Dot+Box Plot)傳達類似於分組的箱形圖資訊。此外,這些點可以瞭解每組中有多少資料點。

28. 小提琴圖(Violin Plot)

小提琴圖是箱形圖在視覺上令人愉悅的替代品。小提琴的形狀或面積取決於它所持有的觀察次數。但是,小提琴圖可能更難以閱讀,並且在專業設定中不常用。

29. 人口金字塔(Population Pyramid)

人口金字塔可用於顯示由數量排序的組的分佈。或者它也可以用於顯示人口的逐級過濾,因為它在下面用於顯示有多少人通過營銷渠道的每個階段。

30. 分類圖(Categorical Plots)

由 seaborn 庫 提供的分類圖可用於視覺化彼此相關的 2 個或更多分類變數的計數分佈。

05 組成(Composition)

31. 華夫餅圖(Waffle Chart)

可以使用 pywaffle 包 建立華夫餅圖,並用於顯示更大群體中的組的組成。

注:需要安裝 pywaffle 庫

32. 餅圖(Pie Chart)

餅圖是顯示組成的經典方式。然而,現在通常不建議使用它,因為餡餅部分的面積有時會變得誤導。因此,如果您要使用餅圖,強烈建議明確記下餅圖每個部分的百分比或數字。

33. 樹形圖(Treemap)

樹形圖類似於餅圖,它可以更好地完成工作而不會誤導每個組的貢獻。

注:需要安裝 squarify 庫

34. 條形圖(Bar Chart)

條形圖是基於計數或任何給定指標視覺化專案的經典方式。在下面的圖表中,我為每個專案使用了不同的顏色,但您通常可能希望為所有專案選擇一種顏色,除非您按組對其進行著色。

06 變化(Change)

35. 時間序列圖(Time Series Plot)

時間序列圖用於顯示給定度量隨時間變化的方式。在這裡,您可以看到 1949 年 至 1969 年間航空客運量的變化情況。

36. 帶波峰波谷標記的時序圖(Time Series with Peaks and Troughs Annotated)

下面的時間序列繪製了所有峰值和低谷,並註釋了所選特殊事件的發生。

37. 自相關和部分自相關圖(Autocorrelation (ACF) and Partial Autocorrelation (PACF) Plot)

自相關圖(ACF圖)顯示時間序列與其自身滯後的相關性。每條垂直線(在自相關圖上)表示系列與滯後 0 之間的滯後之間的相關性。圖中的藍色陰影區域是顯著性水平。那些位於藍線之上的滯後是顯著的滯後。

那麼如何解讀呢?

對於空乘旅客,我們看到多達 14 個滯後跨越藍線,因此非常重要。這意味著,14 年前的航空旅客交通量對今天的交通狀況有影響。

PACF 在另一方面顯示了任何給定滯後(時間序列)與當前序列的自相關,但是刪除了滯後的貢獻。

38. 交叉相關圖(Cross Correlation plot)

交叉相關圖顯示了兩個時間序列相互之間的滯後。

39. 時間序列分解圖(Time Series Decomposition Plot)

時間序列分解圖顯示時間序列分解為趨勢,季節和殘差分量。

40. 多個時間序列(Multiple Time Series)

您可以繪製多個時間序列,在同一圖表上測量相同的值,如下所示。

41. 使用輔助 Y 軸來繪製不同範圍的圖形(Plotting with different scales using secondary Y axis)

如果要顯示在同一時間點測量兩個不同數量的兩個時間序列,則可以在右側的輔助 Y 軸上再繪製第二個系列。

42. 帶有誤差帶的時間序列(Time Series with Error Bands)

如果您有一個時間序列資料集,每個時間點(日期/時間戳)有多個觀測值,則可以構建帶有誤差帶的時間序列。您可以在下面看到一些基於每天不同時間訂單的示例。另一個關於 45 天持續到達的訂單數量的例子。

在該方法中,訂單數量的平均值由白線表示。並且計算 95% 置信區間並圍繞均值繪製。

43. 堆積面積圖(Stacked Area Chart)

堆積面積圖可以直觀地顯示多個時間序列的貢獻程度,因此很容易相互比較。

44. 未堆積的面積圖(Area Chart UnStacked)

未堆積面積圖用於視覺化兩個或更多個系列相對於彼此的進度(起伏)。在下面的圖表中,您可以清楚地看到隨著失業中位數持續時間的增加,個人儲蓄率會下降。未堆積面積圖表很好地展示了這種現象。

45. 日曆熱力圖(Calendar Heat Map)

與時間序列相比,日曆地圖是視覺化基於時間的資料的備選和不太優選的選項。雖然可以在視覺上吸引人,但數值並不十分明顯。然而,它可以很好地描繪極端值和假日效果。

注:需要安裝 calmap 庫

46. 季節圖(Seasonal Plot)

季節圖可用於比較上一季中同一天(年/月/周等)的時間序列。

07 分組(Groups)

47. 樹狀圖(Dendrogram)

樹形圖基於給定的距離度量將相似的點組合在一起,並基於點的相似性將它們組織在樹狀連結中。

48. 簇狀圖(Cluster Plot)

簇狀圖(Cluster Plot)可用於劃分屬於同一群集的點。下面是根據 USArrests 資料集將美國各州分為 5 組的代表性示例。此圖使用“謀殺”和“攻擊”列作為 X 和 Y 軸。或者,您可以將第一個到主要元件用作 X 軸和 Y 軸。

49. 安德魯斯曲線(Andrews Curve)

安德魯斯曲線有助於視覺化是否存在基於給定分組的數字特徵的固有分組。如果要素(資料集中的列)無法區分組(cyl),那麼這些線將不會很好地隔離,如下所示。

50. 平行座標(Parallel Coordinates)

平行座標有助於視覺化特徵是否有助於有效地隔離組。如果實現隔離,則該特徵可能在預測該組時非常有用。

本文轉自 CSDN雲端計算,如需轉載請標明。

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題