日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

技术人最不该忽视可视化数据分析!

發布時間:2024/8/23 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 技术人最不该忽视可视化数据分析! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


阿里妹導讀:在這個“人人都是數據分析師”的時代,阿里的同學幾乎都在參與數據的采集、加工與消費。數據可視化作為連接“加工——消費”的重要一環,其質量至關重要。優秀的可視化能促成卓越洞見,糟糕的內容則讓所有的努力失去意義。今天,阿里高級產品經理沉砂為我們詳細介紹數據可視化工具以及如何選擇有效圖表。

一、前言

我所在的阿里企業數據化管理領域,數據可視化水平參差不齊,尤其是在匯報PPT和報表制作環節...今天,不深度探討具體業務問題,僅給出一些可視化通用建議。

通過文章你可以獲得的建議:

  • 挑選順手的工具
  • 加工正確的數據
  • 選擇合適的圖表
  • 一個實例

二、數據可視化工具

在這里首先我想說下數據可視化追求的三個目標:準確、清晰、優雅。符合這三項的圖表被稱為高效的數據可視化:

準確:精準地反饋數據的特征信息(既不遺漏也不冗余,不造成讀者疏漏&誤讀細節)
清晰:獲取圖表特征信息的時間越短越好
優雅:美觀(不是酷炫)、協調(相同場景的圖表遵循統一規范)。

除此之外,這三項的重要性也有相對次序:準確>清晰>優雅,原則上我們該盡量往這三個方面靠攏。

問題來了,如何挑選順手的工具幫助達成目標呢?

其實應當分情況來看,高效的數據可視化根據目的差異,大致分為兩種類型(來自Cole Nussbaumer Knaflic的視頻采訪):

解釋型

  • 已知目標數據的特征信息或者價值;
  • 最大目的是傳達解釋給其他人自身的洞察;
  • 追求極致的細膩表達。

探索型

  • 未知目標數據的特征信息或者價值;
  • 最大目的是自己分析探索數據;
  • 追求快速高效的數據交互。

大家在開始動手前,不妨先想一下自己是哪種意圖,通常情況下魚和熊掌不可兼得,數據的靈活變換和細膩表達雖然不矛盾,但很難兼顧。這就促成了我們可用的工具都有一定的偏向性,簡單易上手的BI工具可以幫助我們快速完成可視化,但有可能內容差強人意。一些專業的圖表代碼庫理論上可以針對任何細節進行調整,但是效率和門檻存在明顯劣勢。

原則上工具沒有孰優孰劣(事實上很多工具兩方面都做得很好),只是相對而言。筆者對常見種類的典型代表工具做了一個定性評估(個人意見):

這里我將Excel與Tableau高亮了出來,Tableau作為業界最著名的BI軟件,容易上手,可視化效果也非常棒,有助于你分析探索數據。而Excel是一款被大多數人嚴重低估的產品,它可以很方便實現各類圖表微調,畫出漂亮的數據圖。

如果你沒什么傾向性,Excel很適合作為你深入研究的第一款數據可視化工具。

三、選擇有效的圖表

3.1 可視化流

拋開一些專業理論,簡單來講,我們制作圖表的步驟分為3步:

  • 選擇要傳達的數據信息
  • 尋找可視化方法
  • 實現方法并完善細節
  • 對于步驟1,主要考慮數據本身的信息與作者自身的洞察信息,列清楚這些信息,有助于你選擇合適的可視化方法。下文我會講述一些常用的方法論知識,但不是簡單給出你要選擇柱形圖or餅圖。至于具體的圖表選用指南可以Google一下。

    3.2 視覺編碼

    首先看兩張圖:

    由于使用了視覺編碼(顏色)傳達信息,人們更容易理解原數據的特征了。

    又比如普通的柱形圖,我們使用了柱子的“高度”和“相對位置”傳達了兩組數據信息,而柱形圖往往比沒進行編碼的表格數據更容易理解。

    我們要來熟悉兩個重要概念:“視覺編碼”&“視覺通道”。如果把人類大腦看做是一個信息解碼系統,那么可視化就是對信息(數據)的編碼過程,信息通過視覺編碼后,將內容通過眼睛傳達至大腦,大腦解碼信息并獲取知識。

    那么圖形的視覺通道有這么多,該如何選擇合適的視覺通道映射數據呢?這里需要通過數據的類型以及視覺通道的表現力進行綜合判斷,基礎的學術理論有詳細說明,這里我做一下簡單介紹。

    數據類型

    一般我們數據分為“類別型”、“有序型“和“數值型”三類,蘋果、香蕉屬于類別,幾月幾號屬于有序,利潤5000屬于數值。在很多可視化商用工具的概念中,將”有序、類別型“的數據稱為維度,”數值型“的數據稱之為度量(指標)。

    維度和度量所適用的視覺通道是有巨大差異的,例如顏色的色調適用于維度,但不適用于度量。選擇正確的視覺通道,令信息傳達更有效率。

    數據通道的表現力

    在浙大教授陳為的著作《數據可視化》(陳為 沈則潛 陶煜波. 數據可視化[M]. 電子工業出版社, 2013)中,使用4個指標作為評判一個通道的表現力標準:

    • 精確性
    • 可辨認性
    • 可分離性
    • 視覺突出

    深度理解這些標準,有助于我們明白一些可視化圖表修改建議背后的深層次原因。

    這組測量數據采用科學的方法反映了一些制作經驗的合理性,比如:

    • 一些專業設計師非常反對使用餅圖——面積&角度與人類的感知聯系不是線性變化。
    • 使用長度映射數據的柱形圖通常是最佳可視化選擇——長度與感知是線性變化。
    • 常規商業統計圖表永遠不要使用3D效果——體積嚴重影響人類感知的精確性。

    可分離性告訴我們不能無限制的使用多種視覺通道,每增加一種通道來映射數據,都需要考量對已有編碼方式的影響,尤其是尺寸(size)特別影響其他視覺通道的效果。

    我們結合柱形圖做一個舉例,下圖的柱圖使用了寬度(size)映射了一個度量字段數據,寬度影響了長度的有效力,這兩個通道的同時使用,使得感知上有趨近面積這一通道,從而影響了整體圖表的效果。

    有一次一位業務的同學問我為什么不給柱圖的柱子加“圓角”功能,其實也是這個原因,過度的圓角會使長度損耗精確性,對于圖表的整體表現力是破壞。

    數據的視覺編碼在學術上有一個冗長的表現力優先級列表,我在這里簡化這些概念,只給出一份推薦使用的視覺通道,理論上這些通道之間都可以組合使用,請根據實際情況挑選最佳方案。

    另外一個行之有效的實踐方式是:不要從頭構建可視化的方案,請在最基礎的統計圖類型之上選擇追加視覺通道,然后不斷嘗試效果。不是什么圖表都可以用所有通道的,例如行政地圖就沒有長度通道。

    3.3 設計原則

    設計圖表,好的視覺編碼是最重要的點,除此之外,對數據的篩選也是一項挑戰,過大的信息量會使圖表顯得混亂,造成認知負荷。對于JavaScript構建的可視化內容,我們還需要關注數據交互。

    認知負荷

    一般的可視化文章會用墨水比這一項指標來衡量負荷的輕重。設計的不合理,會給受眾過度、冗余或者毫無意義的信息傳達。

    首先我們要關注的是是否呈現了過多數據、濫用了視覺通道。

    其次,我們可以利用格式塔原理精簡或者優化我們的圖表元素,減輕認知負荷。

    完整的原理一共有8項內容,這里我主要介紹最為重要的臨近原則、相似原則&閉合原則。

    臨近原則

    人們傾向物理上相近的元素為一個整體。

    我簡單打出一行點:

    ... ........ .......

    你會很自然地認為這是三個群體。利用這個心理學現象,我們構建了典型的“分組柱形圖”

    也可以用于引導用戶閱讀表格數據(來自Cole Nussbaumer Knaflic的blog):

    相似原則

    人們傾向將顏色、大小或者形狀等屬性類似的對象看作一個整體(或者具備關聯性)。

    這種心理學現象,疊加顏色色調的處理,很容易促成視覺突出,使我們能夠快速注意到被處理的目標數據。上文視覺編碼數“5”的舉例,便是相似原則的一個案例。

    個人實踐感覺顏色是應用相似原理最好的視覺通道,我們能夠通過“圖例”將圖例標注信息與畫圖區域的內容對應起來,簡單來說,也是這一心理學現象在起作用。

    我們可以更進一步使用這一效應來幫助用戶解讀圖表

    閉合原則

    人們傾向物理上被包圍在一起的元素為一個群體。

    閉合原則經常被使用在標注注釋上,使用少量的“水墨”便能將目標區域的視覺突出起來,我們拿上面相似原則的案例做進一步加工,來說明閉合原則的功效。

    靈活利用格式塔原理與視覺編碼特性,是數據可視化在具體圖表之下的更為重要的知識技巧。篇幅原因,不再一一列舉。

    當我們看到一副圖表,憑借自己樸素的美學經驗指出圖表缺陷時,不妨深入思考下,這個缺陷是違反了哪一條心理學原理,還是水墨比(信噪比)不平衡。

    3.4 經驗之談

    可視化的實踐經驗太多太多,我想再著重強調一下位置和顏色的巨大影響。

    位置

    位置是一個豐富的概念,圖表一切的元素都處于“位置”之中,你不得不謹慎對待元素的位置屬性。無論是軸標記位置、文本說明位置、標題位置、圖例位置還是圖形本身的相對位置。擺正它們,可以使圖表不顯得信息雜亂,可以幫助用戶更容易理解你想傳達的信息。

    • 對齊:心理學的“連續原則”使得對齊創造一條看不見的路徑,引導人們更容易解讀信息,任何時候都要注意對齊的使用。
    • 排序:任何時候,我們都需要對數據排序。柱圖的柱子從來都不該是被隨意擺放的,排序是對元素的位置屬性最重要的應用。沒有規律的數據表達會給用戶帶來額外的解讀負擔。
    • 參照:位置都是相對的,如果我們想準確解讀數據的位置,就一定需要一個參照系。這個參照系可以是X軸Y軸,也可以是兩個點或者柱子之間的相對參照,總之你得有一個。

    顏色

    顏色是最重要也是最容易被濫用的視覺編碼方式,顏色具有色調、飽和度、明度的三重變化,同時顏色的變化還牽引著人類的情緒,所以顏色的使用需要被數據可視化制作者認真考慮。在這里再補充一些實踐上的心得:

  • 盡量避免同時使用紅色&綠色,色盲的同學無法分辨他們,這也是為什么大多數圖表庫和軟件的默認顏色的第一序列是藍色;
  • 維度數據使用色調,度量(指標)數據使用飽和度和明度;
  • 在保證信息完整傳達的前提下,使用的顏色越少越好;
  • 顏色在上下文需要保持統一步調,例如之前的圖用“綠色”代表香港,下面的圖就不應該使用“黃色”或者“紅色”,“預測數據”使用綠色,“實際數據”使用藍色,保持秩序,減輕用戶認知負荷;
  • 顏色能比其他視覺通道更能引起注意,也就意味著更容易使人疲勞。確保你使用的顏色是“有序”的,五彩斑斕、明暗跳躍的色彩序列并不可取;
  • 設計之前,可以參照一些品牌設計手冊,一般被叫做visual manual。阿里幾乎每個BU都會有類似的材料,可以找你們的UED同學要。使用品牌色更容易獲得目標人群的青睞。但是也不是所有的品牌色都適用,使用前應當思考下效果。
  • 注意你使用顏色的場合,事實上由于各國文化和宗教信仰的不同,相同色彩在不同人群中的情感性質很不一樣。比如中國人喜歡紅色,但是不見得西方國家喜歡。還有醫院和金融業,也是典型的顏色敏感行業,給炒股的老板看圖表不要用綠色作為主色調......
  • 放棄酷炫,我們看數據不是為了酷炫。
  • 統計圖表選擇推薦

    這個網上資料一抓一大把,選擇圖表前,其實更多的是要想清楚你的數據想傳達的目的。數據分析紛紛咋咋,總結起來,不外乎4個目的:對比、聚焦、歸納、演繹。基于這些初始目的出發,我們再選擇實例化它。

    下圖是一張廣為流傳的圖表建議:

    英國的金融時報雜志也出過一版建議:

    下載

    技術人最不該忽視的數據可視化分析中,英國的金融時報雜志也出過的建議原圖下載地址(放大再放大就能看清字啦[調皮]):
    https://alitech-public.oss-cn-beijing.aliyuncs.com/1567064473032/shuju%20fenxi.png

    四、準備數據

    4.1 為可視化調整數據結構

    一般來講,制作數據圖表前,或多或少有一系列數據的采集加工環節,以集團開發同學熟悉的ODPS為例,簡單來講如下圖流程所示:

    多數數據倉庫為了滿足一定的設計規范、維護能力與健壯性,不會允許數倉上層應用做定制化侵入設計,而各類應用所需要的數據格式不盡相同,在可視化領域,為最后的圖表制作,對數據進行一些調整非常常見,特別是使用BI軟件進行制圖,包括不僅限于以下調整:

    1.行列轉換

    比如為了進行數據對比分析的簇狀柱圖,不同工具配合交互時,有不同的設置方法。需要對表中的行列數據進行靈活轉換,以符合軟件要求。

    2.可讀性轉換

    原表數據中,很可能只有"ID"、"XXX編碼"、英文內容等特征數據,為了我們最后的可視化加工效果,為了圖表易于解讀,我們需要更多的額外數據進行關聯處理,比如:

    • 找到這張“事實表”的關聯“維表”,拿到ID背后的中文名稱、姓名等信息;
    • 將英文翻譯成對應中文,比如將male與female轉換成“男”跟“女”;
    • 找到“短名稱”、“昵稱”等易于識別的數據;
    • 從時間數據字段中轉換出“季度”、“財年”、“周”、“交易日”等契合業務場景的時間類型字段。

    3.針對業務場景的轉換

    此類轉換需要結合一定的具體場景,一般來講,原始表只提供原始數據,具體場景提供數據轉換規則,典型的例如:

    • 將“年齡”分段,原始表只記錄用戶的生日,后期加工成“18~24歲”、“25~30歲”等范圍字段值,這類加工有助于用戶解讀和構建可視化內容。
    • 新顧客、老顧客。“新”與“老”都是隨著時間推移的相對概念,不太會存儲在數倉的原始數據表中,用戶需要根據當前分析的時間窗口,自助加工出新老顧客的定義字段。

    4.2 剔除異常數據

    原始數據中,不免混入異常數據,我們把錯誤數據(臟數據、測試數據)和不合理數據統稱為異常數據。這些數據不剔除,會直接影響可視化最終的展現效果,從而影響分析效果和決策效能。我們在制作圖表前,一定要做這一環的處理。

    不合理數據也是相對于具體的分析場景而言的,例如,我們為衡量電話營銷人員的表現設定了一個數據指標——平均每周成功3單推銷即為優秀員工,這里就需要結合場景將“實習期員工”剔除,或者說,將工作年限過短的樣本數據剔除。

    4.3 對特殊值做精細化處理

    為了可視化效果,我們需要關注那些含義不明的數據和“極端數據”,這些數據的存在有時候會直接影響我們的內容展現。

    空、null、0

    這3個數據值是典型的“含義不明“數據,有些場景下,他們表達的意思相同,有些則代表了截然不同的信息。我拿”考試“作為一個case來比喻這三者的區別:

    • 0:小明參加了語文考試,得了0分;
    • 空:小明沒參加語文考試;
    • null:小明沒有語文這門考試。

    在進行可視化表達時,一定要注意對數據的準確表達。

    極端數據

    極端數據指一種樣本數據極端分布不均勻的情況,比如“100條某產品的銷量分布,1條記錄10W,其余99條記錄在0~1000之間,“如實”反應數據的圖表將很難看出大部分樣本數據的特征信息。需要結合業務場景,做應對處理(比如剔除&“矮化”極端數據,并做對應的文本解釋)

    4.4 匯聚數據到合理程度

    在使用BI工具進行可視化展示的時候,需要注意原始數據的數據量大小。通常軟件服務所在的服務器性能不是無限的,合適大小的數據量有助于取得交互展示的最佳表現。

    當原始數據過大,我們可以根據實際場景,剔除某些字段,對數據進行匯聚。

    另外,大部分工具都支持“派生字段”,盡量在“物化”或者“實體表”階段固化這些派生數據,也有助于性能表現。對于BI軟件需要計算的派生數據而言,計算發生的環節決定其性能表現:

    計算在加速數據環節 > 計算下放計算引擎 > 內存計算 > 發生內外存交換的計算

    五、一個實踐案例

    本文粗淺介紹了一些數據可視化的技巧,但是遠遠談不上完整。要做到“可視化最佳實踐”還需要大量知識補充,并且加以靈活應用。

    在這里介紹一個可視化圖表優化的優秀案例,原始材料來自Cole Nussbaumer的英文blog,有興趣的同學可以翻翻她的博客,會獲益良多。同樣D3作者Mike Bostock也產出了大量高質量的可視化內容,非常值得借鑒。

    案例:對資本預算數據的可視化改進

  • 原始圖表
  • 咋一看這圖也沒啥錯,但是博客作者看到了一些改進點:

    • Y軸標簽的可讀性
    • X軸未區分過去與未來的區別

    其實還有其他隱藏改進信息未指出:

    • 上文講述過視覺通道會相互影響有效性,這里圖例中的小正方形尺寸過小,影響了顏色的解讀,這就使得藍色的major projects和淺藍色的proposed allowance難以區分。(試想一下你在平常遇到的更極端的圖例解讀困境);
    • 軸的黑色標簽的顏色飽和度太高,影響了圖本身的視覺突出。(稍微淺色一點的label更容易將用戶引導至關注數據本身);
    • 缺少度量數據說明。

    • 改進版本一

    這里作者取消了圖例的點標記,將文本著色,解決了圖例識別的問題。

    此刻作者遇到了困境,不知該如何進一步改進。不過能夠顯而易見的是,改進版本一的水墨比過重,用了較多鮮艷的色調,并且同時使用了色調、圖案兩項視覺通道。著墨過多,但又沒有明顯傳達更多數據信息。

    于是作者在改進版本二中做了各項分析,下圖將圖表黑白化去除干擾的做法非常值得學習,對于一些設計同學可能這種做法很熟悉,色彩會干擾設計師的判斷(PD一般畫原型的時候是黑白的)

  • 改進版本二
  • 三個主要項目的預算從2018年到2019年顯著下降,然后隨著時間的推移緩慢下降:

    其他項目也有下降的趨勢:

    新項目的預算則在顯著增加:

    其他兩項的分析類似:

    作者在改進版本二中分析出了一些數據特征,顯然這些特征還沒有在可視化中表達出來,圖表還有改進空間。

  • 改進版本三
  • 在改進版本三種,作者使用了客戶的品牌色(這種手段通常很好用,除非客戶的品牌色“大紅大紫”)

    并且將用戶的視角引導到了建議配合與現有配額上來。

    很明顯,我們看到了兩組數據的規律,那么如何通過可視化將這個規律更加簡明易懂的傳達給用戶呢,作者改進了圖表的標記形式。

  • 改進版本四
  • 到了這一步,改進已經相當成功,仿佛我們把之前的信息補全就大功告成,而作者進行了更多思考:用戶應該關注兩條線之間的相對變化,并更新了改進版本:

  • 改進版本五
  • 接下來是最后加工:將自己的見解和洞察以合適的方式放入圖表中。

    ?

  • 最終版本
  • 將之前被忽略的數據重新以合適的方式放入圖表中,并且注解文字的使用也遵循了相似原則,來建立圖形與文字的關聯性。


    原文鏈接
    本文為云棲社區原創內容,未經允許不得轉載。

    總結

    以上是生活随笔為你收集整理的技术人最不该忽视可视化数据分析!的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。