举个栗子!Tableau 技巧(197):用 Prep 数据去重的三种场景
數據去重是最常見的數據準備工作,我們之前分享過 🌰 :用 Prep 輕松實現數據去重,教大家如何用計算快速去除完全重復的數據記錄。
那么,假如數據同時存在多種重復情況(如下示例),該如何快速去重呢?
-
序號 1、8 的記錄完全重復,只需保留其一;
-
序號 3、6 的姓名音同字不同,確認屬于輸入錯誤,只需保留其一;
-
序號 2、5、9、10 記錄,確認姓名重復,分數需保留為平均值。
如何用 Tableau Prep 對這三種較常見的數據重復進行清理?今天的栗子一睹為快吧!
本期《舉個栗子》,我們要給大家分享的 Tableau 技巧是:用 Prep 數據去重的三種場景。
為方便學習,栗子使用自備的上述示例數據。掌握栗子方法后,數據粉可嘗試使用自己的數據源。懶癌患者可通過以下鏈接獲取栗子數據源:
https://www.dkmeco.com/cms/course/detail/533
具體步驟如下:
打開 Tableau Prep 連接栗子數據源,新建一個清理步驟:單擊數據表右側 圖片 按鈕,下拉菜單選擇:+ 清理步驟。
在視圖中可以快速瀏覽數據的整體情況:將鼠標懸停在字段的數值上,可以查看各個字段重復值的統計數,直觀了解重復情況。
1、對同音字進行分組替換
單擊“姓名”字段右上角的圖片按鈕,下拉菜單中選擇:將值分組-手工選擇。
Tips:這里也可以直接選中需要分組的值,進行快速分組。另,“發音”分組暫不支持中文。
在彈出的對話框中,左窗口選中要保留的值“王五”,右窗口勾選需要替換的值“王午”;再重復操作,選中保留值“張三”和替換值“張山”,單擊“完成”。
此時,可以看到姓名字段中的“王午”被替換成了“王五”、“張山”被替換成了“張三”。
2、去掉完全重復的記錄
為清理完全重復的數據記錄,新建一個聚合步驟:單擊數據表右側 圖片 按鈕,下拉菜單選擇:∑ 聚合。通過對數據進行聚類,來剔除重復的記錄。
將需要去重的字段“姓名”和“分數”,依次拖放至分組字段下方空白處。此時,可以看到完全重復的數據“張三”只剩下一個了。
3、姓名相同的分數取平均分
接著,再新建一個聚合步驟:單擊數據表右側 圖片 按鈕,下拉菜單選擇:∑ 聚合。
將需要去重的字段“姓名”,拖放至分組字段下方空白處;將需要聚合的“分數”,拖放至聚合字段下方空白處。
然后,單擊聚合字段“總和”,下拉菜單選擇:平均值。
此時可以看到:姓名相同、分數不同的李四,只剩下一個記錄,分數字段的值為:62.75。
如果不放心,可以再添加一個清理步驟來驗證數值的唯一性。
也可以右鍵單擊任意流程,選擇:在 Tableau Desktop 中預覽,來查看數據的清洗是否符合分析要求。
最后,單擊所需步驟圖標右側的圖片 按鈕,在下拉菜單中選擇:輸出,增加數據輸出流程。
選擇存儲位置、設置文件名以及文件格式后,單擊運行流程 ? 按鈕即可導出數據源。
栗子Tips
細心的數據粉會發現,第三種場景的去重方法其實也適用第一個場景。的確,Tableau Prep 功能強大,數據粉可多探索并按需選用。
本期的 Tableau 技巧,你 Get 到了嗎?趕快試試看吧!
下一期,再見~
文章部分信息來源于網絡,如有侵權請告知
總結
以上是生活随笔為你收集整理的举个栗子!Tableau 技巧(197):用 Prep 数据去重的三种场景的全部內容,希望文章能夠幫你解決所遇到的問題。