科技

資料視覺化的魔力——一圖勝千言

"視覺化實際上是關於外部認知,也就是說,如何利用心靈之外的資源來提升思維的認知能力。"

本文重點介紹視覺化與資料的重要性。科學,工程,商業和日常人類活動中產生的資訊的數量和複雜性正以驚人的速度增長。良好的視覺化不僅呈現資料的視覺解釋,而且提高理解、溝通、決策效果

視覺化的重要性是幾乎所有資料科學家在大學入門級課程中教授的主題,但是很少有人掌握。由於其固有的主觀性質,它通常被認為是顯而易見的或不重要的。本文希望消除其中的一些想法,並向您展示視覺化非常重要,不僅僅是在資料科學領域,而是用於傳遞任何形式的資訊。

通過多個示例向讀者展示精心設計的視覺化對傳達想法或資訊的影響。此外,討論製作有效視覺化的最佳實踐,以及如何開發自己的視覺化以及可用於實現此目的的資源。

什麼是視覺化?

(1)心理視覺形象的形成。

形成心理視覺影象,通過資料的圖形表示來傳達資訊。

如果你正在從事資料科學職業,這是你要掌握的最重要的技能之一,並且幾乎可以轉移到任何學科。讓我們想象一下,你試圖說服你的經理投資一家公司,並向他們提供一個包含數字的電子表格,向他們解釋為什麼這是一個如此好的投資機會。如果你是經理,你會如何迴應?

如果以視覺形式呈現,資訊通常更容易消化,特別是如果它利用人類可以直觀地解釋的模式和結構。如果想要快速簡便的視覺化,幾乎不需要任何努力,可以使用餅圖或條形圖。

阻礙我們使用視覺化的另一個因素是我們可用的資料量。我如何知道視覺化是否是傳達訊息的合適方法?

這是一個難以回答的問題。一項設計研究建議我們根據任務的清晰度和資訊的位置來評估使用視覺化的可行性。

設計研究方法論,Michael Sedlmair,Miriah Meyer和Tamara Munzner。IEEE Trans。視覺化和計算機圖形學,2012年。

如果我們位於此圖的右上角,則開發和程式設計互動式視覺化變得可行,這是資料科學家現在進入的領域,因為資訊爆炸導致的資料規模持續增加。

資訊爆炸

我們現在生活在一個數據驅動的世界中,它很可能變得更加資料化。從多個領域可以清楚地看到這一點,例如開發大型感測器網路的重要進展以及與世界互動的人工智慧代理,如自動駕駛汽車。

在資料具有主權的世界中,擁有開發清晰且有影響力的視覺化的能力正在成為越來越必要的技能。

好的和壞的視覺化

幾千年來,人類一直在創造視覺化,雖然洞穴人的圖畫比我們現在的影象稍微不那麼引人注目,但仍然很高興欣賞一些早期視覺化的強大程度,以及它們的影響力。在現代世界。

達芬奇為例,他是一位義大利博學家,不僅是第一個提出令人難以置信的發明的人,如飛機,直升機和坦克,而且還非常擅長繪畫。他的工程和解剖學圖紙,如下圖所示,非常逼真,而且易於理解。

幾百年前,當我們沒有計算機為我們繪製東西時,熟練繪畫對於視覺化的目的是非常必要的。花點時間欣賞伽利略在農曆的不同階段的月亮草圖。

我們並不經常盯著月球的古代繪畫,所以在現代世界中是否真的需要這些型別的視覺化?

答案顯然是肯定的。即使在十年或十五年前,學習類似化學的東西也是非常困難的,儘管能夠描繪腦中的分子,但仍然很難在複雜的科學詞彙和你正在發生的事物的心理影象之間進行轉換。如今,人們可以使用Youtube並輸入幾個字,觀看基本上任何化學方面的視覺化或視覺演練。同樣的想法基本上適用於科學中的任何抽象概念。

所以現在我們已經說服自己,視覺化對於傳達資訊非常有用,並且還可以用於以更可解釋的方式解釋複雜的想法。

什麼是良好視覺化的例子?

在波士頓,我們有一個名為T的地下地鐵系統。與任何城市地鐵系統一樣,有許多不同的線路,它們向各個方向行進,由於距離較遠,一些線路比其他線路更長。

以下視覺化不僅捕獲以同心球形式從市中心到每個站點所花費的時間,而且還遵循每條線路的正確方向。看一下這個圖表,可以很快找出要採取的線路,走向哪個方向,以及到達那裡需要多長時間。

第二個視覺化顯示了上個世紀在馬薩諸塞州出生人的運動。我們看到,在1940年,82%出生在馬薩諸塞州的人預計住在馬薩諸塞州。現在快進到現代,我們看到這個數字已降至64%,我們可以合理地瞭解這些人移居的地方。

有史以來最著名的視覺化之一是約瑟夫·米納德(Joseph Minard),它描繪了拿破崙向俄羅斯進軍的旅程。

描繪了拿破崙的軍隊離開波蘭與俄羅斯的邊界。一個厚厚的帶子說明了他的軍隊在前進和撤退期間在特定地理點的大小。它在兩個方面顯示六種型別的資料:拿破崙軍隊的數量; 旅行的距離; 溫度; 緯度和經度; 旅行方向; 並且相對於特定日期的位置。米納德的興趣在於士兵們的辛苦和犧牲。

現在讓我們考慮將不良視覺化轉換為更適合其目的的視覺化。這對於地鐵地圖來說是最容易的,所以我會考慮倫敦的地鐵地圖,我們將看到為什麼它被改變以及它們的新設計如何在原始設計上得到改進。

這是可以追溯到1927年的倫敦地鐵的原始地圖。該圖的主要問題是由於它們非常接近而存在大量緊密間隔的地下車站。這源於地圖是根據臺站的地理位置繪製的。然而,當遠離城市時,地圖上仍有大量空間未使用。

1933年,哈里貝克想出了倫敦地鐵地圖的新設計。貝克認為乘客不關心地理準確性,並且最感興趣的是如何從一個到另一個車站以及換乘火車的地點。他從電子圖表中汲取靈感,決定以單獨的顏色顯示每條線條,並在電氣圖上顯示它們與其他線條的連線。該圖保持每條線路的方向資訊,但距離資訊丟失,因為貝克認為不必要。

我們可以看到紐約地鐵地圖發生的非常類似的爭論。你認為哪個更好?

儘管我們已經查看了幾個地鐵地圖,但顯然沒有明確的解決方案可以適用於所有情況。畢竟,這取決於哪些資料與受眾最相關。哈里貝克決定乘客不關心距離或地理資訊,只知道他們知道如何從A站到B站以及有什麼聯絡。也許這個想法不適合紐約人,因為他們比倫敦人更關心知道距離和地理位置。

安斯科姆的四重奏

數字可能令人難以置信的誤導,正如現在著名的安斯科姆四重奏形式的格特魯德安斯科姆所證明的那樣四重集是一組四個資料樣本,具有完全相同的均值,方差,相關性和線性迴歸線。

Anscombe的四重奏以表格形式(Anscombe,1973)

然而,從結果的視覺表示中可以清楚地看出,四組資料的分佈是完全不同的。

Anscombe的視覺形式的四重奏(Anscombe,1973)

為了強調這一點,開發了六個資料圖,所有這些圖都具有相同的均值,方差,相關性和線性迴歸線。如下面看到的,這些也是完全不同的。

視覺化可用於代替量化指標以使資料結構更清晰,更有意義的這種想法使我們自然地進入誤導性視覺化的領域。數字可以用來誤導我們資料的結構,它也可以反過來工作,可以巧妙地製作視覺化以扭曲資料中的底層結構。正如我們將要看到的,這是一種非常普遍的現象,特別是在易於發表話語的領域,如政治和科學辯論。

誤導性視覺化

有許多人使用統計資料來誤導個人。實際上,這是一種在政治中使用的極為常見的策略。一個例子是與喬治·布什總統提出的減稅有關,其中通過扭曲條形圖的軸線使得看起來幅度增加了5%。

左)視覺化顯示給觀眾,(右)顯示較少的欺騙性視覺化

這些欺騙性策略通常涉及測量軸的扭曲。這是與失業相關的軸失真的另一個例子。

實際上,情節應該是這樣的。

通過使用視覺化來欺騙人們的另一種方式是通過省略資料。

我們清楚人們可以通過精心設計的視覺化來支援欺騙。這是一個顯示全球變暖是一個神話的一個典型例子,這個想法自20世紀90年代以來就沒有受到環境科學家的質疑。

一個不那麼具有欺騙性的圖表如下所示。

截至目前,我們剛剛討論了為欺騙我們而積極設計的視覺化。

小心彩虹

彩虹色地圖可能是我每天遇到的最煩人的視覺化。這些不僅難以使用,因為色盲人(可能會出現區分許多顏色的問題,但將顏色分配給定量值則是荒謬的。

彩虹色圖在感知上是非線性的。誰決定藍色代表的數量低於黃色或紅色?轉換何時發生,它們有多突然?

彩虹彩色地圖

解決這個問題的最佳方法是堅持使用兩種顏色並使用線性顏色變化來表示定量值。在這個意義上,繪圖可以著色,但繪圖的定量性質由顏色的亮度描述,較暗的區域通常表示較高的值。這個想法如下所示。

這基本上使它們與熱圖或等值線圖相同,如下圖所示。

在2016年總統大選之後,美國投票就是一個很好的例子。

色盲

記住合理數量的人是色盲並避免使用可能對這些人有問題的顏色組合這一事實總是好的。以下面的視覺化為例。

該圖中使用的顏色對於患有紅綠色盲的人來說是一種可怕的組合。最好注意至少使用紅色和綠色的組合,因為這種型別的色盲是最普遍的。

邊緣捆綁

邊緣捆綁背後的想法實質上是圍繞從一個節點到另一個節點沿著相同路線的所有路徑纏繞彈性帶。這用於網路圖,並且具有使視覺化看起來不那麼雜亂的毛球的優點,並且如我們在下面看到的那樣更加令人愉悅。

此方法的缺點是,在捆綁後您無法遵循確切的連結或路徑,這意味著我們的視覺化不會反映基礎資料,喪失一些圖形完整性。

視覺化過程概述

現在我們已經看了一堆視覺化並理解好的和壞的視覺化之間的區別,現在是討論什麼樣的視覺化好。

視覺化目標

· 資料探索 - 找到未知數

· 資料分析  - 檢查假設

· 演示  - 溝通和傳播

基本上就是這樣。然而,這些術語非常含糊,因此很容易理解為什麼個人難以掌握通過視覺化進行交流的藝術。因此,有一個模型可以幫助我們實現這些目標。

五步模型

視覺化通常被描述為以下五步模型,該過程遵循相當合理的進展。

首先,需要一個人將要作為評估物件的特定目標或問題隔離開來。

接下來是資料爭論,這是資料科學家在處理資料時所做資料的90%。此過程涉及將資料轉換為可行的格式,執行探索性資料分析以瞭解其資料集,這可能涉及彙總或繪製資料的各種方式。

第三階段是設計階段,涉及開發一個您想要用資料講述的故事。這與我們定義的目標緊密相關。我們想要傳達的資訊是什麼?這也可能取決於你的觀眾是誰,以及分析的客觀性水平。

第四步涉及視覺化的實現,例如使用基於互動式網路的視覺化程式設計。這是涉及一些編碼的過程的一部分,而設計階段涉及思考,繪畫,構思等。

第五階段基本上是一個審查階段,實現並決定它是否傳送你要傳達的訊息,或者回答你要回答的問題。

實際上,這是一個非線性過程,儘管它通常表現為一個過程。這是一個更現實的模型形式。

看起來很簡單吧?嗯,實際上有很多方法可以解決這個問題,而且往往沒有意識到。以下是三個最常見的問題:

領域情況 - 你是否正確瞭解使用者的需求?也許正在解決錯誤的問題。這是與目標階段相關的問題。

資料/任務抽象 - 你是否正確地展示它們?也許正在使用錯誤的抽象。這也是與目標階段相關的問題。

可視編碼/互動 - 顯示資料的方式是否有效?也許正在使用錯誤的習語或編碼。這是與設計階段相關的問題。

演算法 - 你的程式碼太慢嗎?它可擴充套件嗎?這是實施階段的問題。也許正在使用錯誤的演算法。

解決你的程式碼破裂這一事實可能是顯而易見的,但是你如何評估我們剛剛解決的更主觀的問題,比如領域情況或使用的可視編碼?我們可以傾向於評估指標。

我們可以依賴定性和定量指標。定性度量通常對視覺化最有用,因為視覺化是為了向人們傳達資訊而開發的,要使用的度量的一些示例如下:

觀察研究("大聲思考")專家訪談(又名設計評論)專門小組這些定性程式的想法是,個人應該能夠看到視覺化並理解您試圖傳達的資訊,而無需任何其他資訊。這些型別的研究和指標通常用於營銷和網頁設計等領域,因為它們可以洞察個人如何解釋和迴應他們的想法或設計。

經驗法則

以下是Edward Tufte有效視覺化的三條規則:

圖形完整性 最大化資料墨水比率 避免圖表垃圾

圖形完整性

在討論誤導性視覺化時,我們已經對此進行了一些討論。一般來說,試圖誤導具有統計資料的個人是不好的做法,對社會有害。

最大化資料墨水比率

這個經驗法則是關於清晰度和極簡主義。一般來說,3D圖表往往不太清晰,在某些情況下可能會產生誤導。檢查下面兩個圖表之間的差異,並確定您認為哪個更好。

避免圖表垃圾

無關的視覺元素會分散人們對傳達資訊的注意力。

互動式視覺化

下面是你會喜歡的視覺化。

權力的遊戲中的地方

在權力的遊戲傳奇中討論的位置名稱。

槍在美國死亡

槍在美國死亡

英國的道路安全

這種視覺化建立在deck.gl上,非常有趣,可以玩這個網站 - 我建議您檢視這個網站上有多個其他互動式視覺化。

英國的道路安全

州首府的道路

這種視覺化是美國的互動式和彩色編碼地圖,以及通往每個州首府的所有道路。

美國貿易逆差

這是一個美麗的視覺化,視覺化2001年至2013年美國的貿易逆差。

連結的爵士網路圖

這張互動圖表展示了爵士樂中的一些著名人物以及他們如何影響其他藝術家。

Reference:科技日報

看更多!請加入我們的粉絲團

轉載請附文章網址

不可錯過的話題