Python-csvkit:强大的CSV文件命令行工具
如果你在學Python數據處理,一定對CSV文件不陌生。日常本地數據存儲中,除了Excel文件外,大部分數據都是以CSV文件格式保存的。
CSV(Comma-Separated Values)是一種文本文件,也叫作逗號分隔值文件格式。顧名思義,它就是用來保存純文本,被分隔符分隔為多個字段。
CSV文件能夠被Excel、notepad++、Java、Python等各種軟件讀取,非常方便。
因為它結構簡單、易傳輸、易讀取的特性,使其廣受個人和商業領域歡迎。
在Python中,可以使用read函數、pandas庫、csv庫等讀寫CSV文件,而且這些也是常用的方法。
這次給大家介紹一個非常強大的第三方庫-csvkit,它是專門處理CSV文件的命令行工具,可以實現文件互轉、數據處理、數據統計等,十分便捷。
因為csvkit是Python第三方庫,我們直接使用pip來安裝csvkit。
pip install csvkit
csvkit是命令行工具,所以代碼都在命令行執行,下面列舉一些常見的使用場景。
我們先在本地保存一個Excel表(DoubanMovie),其內容是豆瓣電影數據。
注意命令行地址要切換到該表所在位置。
比如我放在E:\csvkit_tutorial\里面,可以用下面命令來切換。
E: cd?csvkit_tutorial1、Excel轉CSV
csvkit支持將Excel等其他數據文件轉化為CSV文件,使用in2csv命令實現。
in2csv?DoubanMovie.xlsx?>?DoubanMovie.csv除了Excel的xlsx和xls文件外,你還可以對下面多種數據格式進行CSV的轉換
包括:dbf , fixed , geojson , json , ndjson
2、對SQL數據庫進行讀寫和查詢操作
從MySQL數據庫中讀取一張表存到本地CSV文件中,使用csvsql命令實現。
csvsql?--db?"mysql://user:pass@host/database?charset=utf8"?--tables?"test1"?--insert?test1.csv直接對MySQL數據庫進行數據查詢,使用sql2csv命令實現
sql2csv?--db?"mysql://user:pass@host/database?charset=utf8"?--query?"select?*?from?test2"注意代碼中--db參數后面需要輸入數據庫的信息,用于連接數據庫。
3、將CSV文件轉換為Json格式
除了將Json文件轉化為CSV格式外,csvkit也支持將CSV文件轉化為Json格式,使用csvjson命令實現。
csvjson?test.csv如果你是做地理空間分析,還可以將csv文件轉化為GeoJson格式。
4、數據處理和分析
csvkit中還有用于數據處理分析的命令,如下:
csvcut:對數據進行索引切片
csvgrep:對數據進行過濾,可按照正則表達式規則
csvjoin:對不同數據表按鍵進行連接
csvsort:對數據進行排序
csvstack:將多個數據表進行合并
csvlook:以 Markdown 兼容的固定寬度格式將 CSV 呈現到命令行
csvstat:對數據進行簡單的統計分析
小結
csvkit適合那些經常處理CSV文件的小伙伴,可快速的進行轉化、清晰、分析等任務。特別當你的文件較大,一般軟件難以打開時,csvkit的速度絕對會讓你驚艷到。
學習文檔:https://csvkit.readthedocs.io/en/latest/index.html
END
各位伙伴們好,詹帥本帥搭建了一個個人博客和小程序,匯集各種干貨和資源,也方便大家閱讀,感興趣的小伙伴請移步小程序體驗一下哦!(歡迎提建議)推薦閱讀
牛逼!Python常用數據類型的基本操作(長文系列第①篇)
牛逼!Python的判斷、循環和各種表達式(長文系列第②篇)
牛逼!Python函數和文件操作(長文系列第③篇)
牛逼!Python錯誤、異常和模塊(長文系列第④篇)
總結
以上是生活随笔為你收集整理的Python-csvkit:强大的CSV文件命令行工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Matplotlib 可视化之箭头与标注
- 下一篇: Python自动化办公之Excel对比工