當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python清洗数据用什么包_格式化和清洗数据的Python工具包

發(fā)布時(shí)間：2023/12/19 python 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 python清洗数据用什么包_格式化和清洗数据的Python工具包小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

世界很雜亂，來自現(xiàn)實(shí)世界的數(shù)據(jù)也一樣雜亂。近來一份調(diào)查報(bào)告顯示數(shù)據(jù)科學(xué)家60%的時(shí)間都花在整理數(shù)據(jù)上。不幸的是，57%的人認(rèn)為這是工作中最頭疼的一部分。

整理數(shù)據(jù)非常消耗時(shí)間，不過也有許多工具被開發(fā)出來讓這關(guān)鍵的一步變得稍微可以忍受。Python 社區(qū)提供了許多庫讓數(shù)據(jù)變得清晰有序——從格式化 DataFrame 到匿名化數(shù)據(jù)集。

告訴我們你覺得有用的庫——我們一直致力于優(yōu)化放入Mode Python Notebooks中的庫。

Dora

Dora是為探索性分析而設(shè)計(jì)的。特別是自動(dòng)化分析中最痛苦的部分——比如特征選取和提取，可視化，還有你能猜到的——數(shù)據(jù)清潔。數(shù)據(jù)清潔相關(guān)的函數(shù)可以：

讀取含有缺失數(shù)據(jù)和沒有標(biāo)準(zhǔn)化的數(shù)據(jù)表

給缺失數(shù)據(jù)賦值

標(biāo)準(zhǔn)化變量

開發(fā)者:Nathan Epstein

更多資料:https://github.com/NathanEpstein/Dora

datacleaner

號(hào)外號(hào)外，datacleaner 清洗你的數(shù)據(jù)——不過只有在你的數(shù)據(jù)是 pandas DataFrame 實(shí)例的時(shí)候。開發(fā)者Randy Olson說：“datacleaner 不是魔法，它無法神奇的解析你沒有結(jié)構(gòu)的數(shù)據(jù)。”

它可以刪除含有缺失數(shù)據(jù)的行，或者利用列的眾數(shù)或中位數(shù)填充缺失數(shù)據(jù)，將非數(shù)值型變量轉(zhuǎn)化為數(shù)值型變量。這個(gè)庫很新，但考慮到DataFrame 是 Python 數(shù)據(jù)分析的基本數(shù)據(jù)結(jié)構(gòu)，這個(gè)庫還是值得試試看的。

開發(fā)者:Randy Olson

更多資料:https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame 很強(qiáng)大，但是它們無法制作出你可以直接給你的老板看的表。PrettyPandas 利用了pandas 風(fēng)格 API 將 DataFrame 轉(zhuǎn)換成可以演示的表格。產(chǎn)生數(shù)據(jù)摘要，設(shè)置風(fēng)格，調(diào)整數(shù)據(jù)格式，列和行。附加福利：強(qiáng)健，可讀性高的使用文檔。

開發(fā)者:Henry Hammond

更多資料:https://github.com/HHammond/PrettyPandas

tabulate

tabulate 可以讓你僅僅用一個(gè)函數(shù)調(diào)用生成小型耐看的表格。非常適合于通過調(diào)整小數(shù)點(diǎn)列對(duì)齊，數(shù)據(jù)格式，表頭和其他讓表格可讀性更高。

它有一個(gè)超酷的功能是可以讓表格輸出成不同的格式：HTML, PHP 或者 Markdown Extra，這樣你可以用其他的工具或語言繼續(xù)在使用你已經(jīng)表格化的數(shù)據(jù)。

開發(fā)者: Sergey Astanin

更多資料:https://pypi.python.org/pypi/tabulate

scrubadub

健康領(lǐng)域和金融領(lǐng)域的數(shù)據(jù)科學(xué)家常需要匿名化數(shù)據(jù)集。scrubadub可以將私人信息 (PII) 從文本從移除。例如：

姓名 (名詞)

Email地址

網(wǎng)絡(luò)鏈接

電話號(hào)碼

用戶名/密碼組

Skype 用戶名

社會(huì)保險(xiǎn)號(hào)

文檔很好的演示了通過哪些途徑你可以自定義 scrubadub 的行為，例如定義新的 PII 或者保留特定的 PII。

開發(fā)者:Datascope Analytics

更多資料:http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

讓我們實(shí)話實(shí)說：在 Python 里處理日期和時(shí)間是很痛苦的。當(dāng)?shù)貢r(shí)區(qū)無法被自動(dòng)識(shí)別。得用好幾行不那么讓人舒服的代碼來轉(zhuǎn)換時(shí)區(qū)和時(shí)間戳。

Arrow 旨于解決這個(gè)問題并且填補(bǔ)這個(gè)功能空白，從而讓你可以用更少的代碼和引入庫來完成對(duì)日期和時(shí)間的操作。跟 Python 的標(biāo)準(zhǔn)時(shí)間庫不同的是，Arrow 默認(rèn)自動(dòng)識(shí)別時(shí)區(qū)和 UTC。你可以只用一行代碼來完成時(shí)區(qū)轉(zhuǎn)換或者分析時(shí)間字符串。

開發(fā)者:Chris Smith

更多資料:http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier 的任務(wù)很簡(jiǎn)單：清洗 URL 和 Email 地址并讓它們看起來更漂亮。你可以通過域名和用戶名來解析 email ；通過域名和參數(shù)來解析URL。(UTM 或者標(biāo)記)

開發(fā)者:Sachin Philip Mathew

更多資料:https://github.com/sachinvettithanam/beautifier

ftfy

ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. a€?quotesa€x9d becomes "quotes"; uì? becomes ü; <3 becomes <3. If you work with text on a daily basis, this library is, as one user says, “a handy piece of magic.”

ftfy (fixes text for you)將雜亂的Unicode轉(zhuǎn)化為可識(shí)別的Unicode。簡(jiǎn)單的說，它處理所有的垃圾字符。a€?quotesa€x9d 變成 "quotes"; uì? 變成 ü; <3 變成 <3.

開發(fā)者:Luminoso

更多資料:https://github.com/LuminosoInsight/python-ftfy

本條技術(shù)文章來源于互聯(lián)網(wǎng)，如果無意侵犯您的權(quán)益請(qǐng)點(diǎn)擊此處反饋版權(quán)投訴

總結(jié)

以上是生活随笔為你收集整理的python清洗数据用什么包_格式化和清洗数据的Python工具包的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python查找最长公共前缀_Pytho
下一篇： wxpython 下拉框只能选择不能输入

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python清洗数据用什么包_格式化和清洗数据的Python工具包

總結(jié)