日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

举个栗子!Tableau 技巧(197):用 Prep 数据去重的三种场景

發布時間:2023/12/14 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 举个栗子!Tableau 技巧(197):用 Prep 数据去重的三种场景 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


數據去重是最常見的數據準備工作,我們之前分享過 🌰 :用 Prep 輕松實現數據去重,教大家如何用計算快速去除完全重復的數據記錄。

那么,假如數據同時存在多種重復情況(如下示例),該如何快速去重呢?

  • 序號 1、8 的記錄完全重復,只需保留其一;

  • 序號 3、6 的姓名音同字不同,確認屬于輸入錯誤,只需保留其一;

  • 序號 2、5、9、10 記錄,確認姓名重復,分數需保留為平均值。

如何用 Tableau Prep 對這三種較常見的數據重復進行清理?今天的栗子一睹為快吧!

本期《舉個栗子》,我們要給大家分享的 Tableau 技巧是:用 Prep 數據去重的三種場景。

為方便學習,栗子使用自備的上述示例數據。掌握栗子方法后,數據粉可嘗試使用自己的數據源。懶癌患者可通過以下鏈接獲取栗子數據源:
https://www.dkmeco.com/cms/course/detail/533

具體步驟如下:

打開 Tableau Prep 連接栗子數據源,新建一個清理步驟:單擊數據表右側 圖片 按鈕,下拉菜單選擇:+ 清理步驟。

在視圖中可以快速瀏覽數據的整體情況:將鼠標懸停在字段的數值上,可以查看各個字段重復值的統計數,直觀了解重復情況。

1、對同音字進行分組替換

單擊“姓名”字段右上角的圖片按鈕,下拉菜單中選擇:將值分組-手工選擇。

Tips:這里也可以直接選中需要分組的值,進行快速分組。另,“發音”分組暫不支持中文。

在彈出的對話框中,左窗口選中要保留的值“王五”,右窗口勾選需要替換的值“王午”;再重復操作,選中保留值“張三”和替換值“張山”,單擊“完成”。

此時,可以看到姓名字段中的“王午”被替換成了“王五”、“張山”被替換成了“張三”。

2、去掉完全重復的記錄

為清理完全重復的數據記錄,新建一個聚合步驟:單擊數據表右側 圖片 按鈕,下拉菜單選擇:∑ 聚合。通過對數據進行聚類,來剔除重復的記錄。

將需要去重的字段“姓名”和“分數”,依次拖放至分組字段下方空白處。此時,可以看到完全重復的數據“張三”只剩下一個了。

3、姓名相同的分數取平均分

接著,再新建一個聚合步驟:單擊數據表右側 圖片 按鈕,下拉菜單選擇:∑ 聚合。

將需要去重的字段“姓名”,拖放至分組字段下方空白處;將需要聚合的“分數”,拖放至聚合字段下方空白處。

然后,單擊聚合字段“總和”,下拉菜單選擇:平均值。

此時可以看到:姓名相同、分數不同的李四,只剩下一個記錄,分數字段的值為:62.75。

如果不放心,可以再添加一個清理步驟來驗證數值的唯一性。

也可以右鍵單擊任意流程,選擇:在 Tableau Desktop 中預覽,來查看數據的清洗是否符合分析要求。

最后,單擊所需步驟圖標右側的圖片 按鈕,在下拉菜單中選擇:輸出,增加數據輸出流程。

選擇存儲位置、設置文件名以及文件格式后,單擊運行流程 ? 按鈕即可導出數據源。

栗子Tips

細心的數據粉會發現,第三種場景的去重方法其實也適用第一個場景。的確,Tableau Prep 功能強大,數據粉可多探索并按需選用。

本期的 Tableau 技巧,你 Get 到了嗎?趕快試試看吧!
下一期,再見~

文章部分信息來源于網絡,如有侵權請告知

總結

以上是生活随笔為你收集整理的举个栗子!Tableau 技巧(197):用 Prep 数据去重的三种场景的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。