當前位置：首頁 > 编程语言 > python >内容正文

python

Python 数据分析三剑客之 Pandas（十）：数据读写

發(fā)布時間：2023/12/10 python 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 数据分析三剑客之 Pandas（十）：数据读写小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

CSDN 課程推薦：《邁向數(shù)據(jù)科學家：帶你玩轉(zhuǎn)Python數(shù)據(jù)分析》，講師齊偉，蘇州研途教育科技有限公司CTO，蘇州大學應用統(tǒng)計專業(yè)碩士生指導委員會委員；已出版《跟老齊學Python：輕松入門》《跟老齊學Python：Django實戰(zhàn)》、《跟老齊學Python：數(shù)據(jù)分析》和《Python大學實用教程》暢銷圖書。

Pandas 系列文章：

Python 數(shù)據(jù)分析三劍客之 Pandas（一）：認識 Pandas 及其 Series、DataFrame 對象
Python 數(shù)據(jù)分析三劍客之 Pandas（二）：Index 索引對象以及各種索引操作
Python 數(shù)據(jù)分析三劍客之 Pandas（三）：算術(shù)運算與缺失值的處理
Python 數(shù)據(jù)分析三劍客之 Pandas（四）：函數(shù)應用、映射、排序和層級索引
Python 數(shù)據(jù)分析三劍客之 Pandas（五）：統(tǒng)計計算與統(tǒng)計描述
Python 數(shù)據(jù)分析三劍客之 Pandas（六）：GroupBy 數(shù)據(jù)分裂、應用與合并
Python 數(shù)據(jù)分析三劍客之 Pandas（七）：合并數(shù)據(jù)集
Python 數(shù)據(jù)分析三劍客之 Pandas（八）：數(shù)據(jù)重塑、重復數(shù)據(jù)處理與數(shù)據(jù)替換
Python 數(shù)據(jù)分析三劍客之 Pandas（九）：時間序列
Python 數(shù)據(jù)分析三劍客之 Pandas（十）：數(shù)據(jù)讀寫

另有 NumPy、Matplotlib 系列文章已更新完畢，歡迎關(guān)注：

NumPy 系列文章：https://itrhx.blog.csdn.net/category_9780393.html
Matplotlib 系列文章：https://itrhx.blog.csdn.net/category_9780418.html

推薦學習資料與網(wǎng)站（博主參與部分文檔翻譯）：

NumPy 官方中文網(wǎng)：https://www.numpy.org.cn/
Pandas 官方中文網(wǎng)：https://www.pypandas.cn/
Matplotlib 官方中文網(wǎng)：https://www.matplotlib.org.cn/
NumPy、Matplotlib、Pandas 速查表：https://github.com/TRHX/Python-quick-reference-table

文章目錄

- 【01x00】讀取數(shù)據(jù)
- - 【01x01】簡單示例
  - 【01x02】header / names 定制列標簽
  - 【01x03】index_col 指定列為行索引
  - 【01x04】sep 指定分隔符
  - 【01x05】skiprows 忽略行
  - 【01x06】na_values 設置缺失值
  - 【01x07】nrows / chunksize 行與塊
- 【02x00】寫入數(shù)據(jù)
- - 【02x01】簡單示例
  - 【02x02】sep 指定分隔符
  - 【02x03】na_rep 替換缺失值
  - 【02x04】index / header 行與列標簽
  - 【02x05】columns 指定列

這里是一段防爬蟲文本，請讀者忽略。本文原創(chuàng)首發(fā)于 CSDN，作者 TRHX。博客首頁：https://itrhx.blog.csdn.net/ 本文鏈接：https://itrhx.blog.csdn.net/article/details/106963135 未經(jīng)授權(quán)，禁止轉(zhuǎn)載！惡意轉(zhuǎn)載，后果自負！尊重原創(chuàng)，遠離剽竊！

【01x00】讀取數(shù)據(jù)

Pandas 提供了一些用于將表格型數(shù)據(jù)讀取為 DataFrame 對象的函數(shù)。常見方法如下：

Pandas 官方對 IO 工具的介紹：https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

函數(shù)描述

read_csv	從文件、URL、文件型對象中加載帶分隔符的數(shù)據(jù)。默認分隔符為逗號
read_table	從文件、URL、文件型對象中加載帶分隔符的數(shù)據(jù)。默認分隔符為制表符（'\t'）
read_fwf	讀取定寬列格式數(shù)據(jù)（沒有分隔符）
read_clipboard	讀取剪貼板中的數(shù)據(jù)，可以看做 read_table 的剪貼板版本。在將網(wǎng)頁轉(zhuǎn)換為表格時很有用
read_excel	從 Excel XLS 或 XLSX file 讀取表格數(shù)據(jù)
read_hdf	讀取 pandas寫的 HDF5 文件
read_html	讀取 HTML 文檔中的所有表格
read_json	讀取 JSON（ JavaScript Object Notation）字符串中的數(shù)據(jù)
read_msgpack	讀取二進制格式編碼的 pandas 數(shù)據(jù)（Pandas v1.0.0 中已刪除對 msgpack 的支持，建議使用 pyarrow）
read_pickle	讀取 Python pickle 格式中存儲的任意對象
read_sas	讀取存儲于 SAS 系統(tǒng)自定義存儲格式的 SAS 數(shù)據(jù)集
read_sql	（使用 SQLAlchemy）讀取 SQL 查詢結(jié)果為 pandas 的 DataFrame
read_stata	讀取 Stata 文件格式的數(shù)據(jù)集
read_feather	讀取 Feather 二進制格式文件

以下以 read_csv 和 read_table 為例，它們的參數(shù)多達 50 多個，具體可參見官方文檔：

read_csv：https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

read_table：https://pandas.pydata.org/docs/reference/api/pandas.read_table.html

常用參數(shù)：

參數(shù)描述

path	表示文件系統(tǒng)位置、URL、文件型對象的字符串
sep / delimiter	用于對行中各字段進行拆分的字符序列或正則表達式
header	用作列名的行號，默認為 0（第一行），如果沒有 header 行就應該設置為 None
index_col	用作行索引的列編號或列名。可以是單個名稱、數(shù)字或由多個名稱、數(shù)字組成的列表（層次化索引）
names	用于結(jié)果的列名列表，結(jié)合 header=None
skiprows	需要忽略的行數(shù)（從文件開始處算起），或需要跳過的行號列表（從0開始）
na_values	指定一組值，將該組值設置為 NaN（缺失值）
comment	用于將注釋信息從行尾拆分出去的字符（一個或多個）
parse_dates	嘗試將數(shù)據(jù)解析為日期，默認為 False。如果為 True，則嘗試解析所有列。此外，還可以指定需要解析的一組列號或列名。如果列表的元素為列表或元組，就會將多個列組合到一起再進行日期解析工作（例如，日期、時間分別位于兩個列中）
keep_date_col	如果連接多列解析日期，則保持參與連接的列。默認為 False
converters	由列號 / 列名跟函數(shù)之間的映射關(guān)系組成的字典。例如，{'foo': f} 會對 foo 列的所有值應用函數(shù) f
dayfirst	當解析有歧義的日期時，將其看做國際格式（例如，7/6/2012 —> June 7,2012），默認為 Fase
date_parser	用于解析日期的函數(shù)
nrows	需要讀取的行數(shù)（從文件開始處算起）
iterator	返回一個 TextParser 以便逐塊讀取文件
chunksize	文件塊的大小（用于迭代）
skip_footer	需要忽略的行數(shù)（從文件末尾處算起）
verbose	打印各種解析器輸出信息，比如“非數(shù)值列中缺失值的數(shù)量”等
encoding	用于 unicode 的文本編碼格式。例如，“utf-8” 表示用 UTF-8 編碼的文本
squeeze	如果數(shù)據(jù)經(jīng)解析后僅含一列，則返回 Series
thousands	千分位分隔符，如 , 或 .

【01x01】簡單示例

首先創(chuàng)建一個 test1.csv 文件：

使用 read_csv 方法將其讀出為一個 DataFrame 對象：

>>> import pandas as pd >>> obj = pd.read_csv(r'C:\Users\TanRe\Desktop\test1.csv') >>> obja b c d message 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 python >>> >>> type(obj) <class 'pandas.core.frame.DataFrame'>

前面的 csv 文件是以逗號分隔的，可以使用 read_table 方法并指定分隔符來讀取：

>>> import pandas as pd >>> obj = pd.read_table(r'C:\Users\TanRe\Desktop\test1.csv', sep=',') >>> obja b c d message 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 python

【01x02】header / names 定制列標簽

以上示例中第一行為列標簽，如果沒有單獨定義列標簽，使用 read_csv 方法也會默認將第一行當作列標簽：

>>> import pandas as pd >>> obj = pd.read_csv(r'C:\Users\TanRe\Desktop\test2.csv') >>> obj1 2 3 4 hello 0 5 6 7 8 world 1 9 10 11 12 python

避免以上情況，可以設置 header=None，Pandas 會為其自動分配列標簽：

>>> import pandas as pd >>> pd.read_csv(r'C:\Users\TanRe\Desktop\test2.csv', header=None)0 1 2 3 4 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 python

也可以使用 names 參數(shù)自定義列標簽，傳遞的是一個列表：

>>> import pandas as pd >>> pd.read_csv(r'C:\Users\TanRe\Desktop\test2.csv', names=['a', 'b', 'c', 'd', 'message'])a b c d message 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 python

【01x03】index_col 指定列為行索引

index_col 參數(shù)可以指定某一列作為 DataFrame 的行索引，傳遞的參數(shù)是列名稱，在以下示例中，會將列名為 message 的列作為 DataFrame 的行索引：

>>> pd.read_csv(r'C:\Users\TanRe\Desktop\test2.csv', names=['a', 'b', 'c', 'd', 'message'], index_col='message')a b c d message hello 1 2 3 4 world 5 6 7 8 python 9 10 11 12

如果需要構(gòu)造多層索引的 DataFrame 對象，則只需傳入由列編號或列名組成的列表即可：

>>> import pandas as pd >>> pd.read_csv(r'C:\Users\TanRe\Desktop\test3.csv', index_col=['key1', 'key2'])value1 value2 key1 key2 one a 1 2b 3 4c 5 6d 7 8 two a 9 10b 11 12c 13 14d 15 16

【01x04】sep 指定分隔符

在 read_table 中，sep 參數(shù)用于接收分隔符，如果遇到不是用固定的分隔符去分隔字段的，也可以傳遞一個正則表達式作為 read_table 的分隔符，如下面的 txt 文件數(shù)據(jù)之間是由不同的空白字符間隔開的：

>>> import pandas as pd >>> pd.read_table(r'C:\Users\TanRe\Desktop\test1.txt', sep='\s+')A B C aaa -0.264438 -1.026059 -0.619500 bbb 0.927272 0.302904 -0.032399 ccc -0.264273 -0.386314 -0.217601 ddd -0.871858 -0.348382 1.100491

【01x05】skiprows 忽略行

skiprows 參數(shù)可用于設置需要忽略的行數(shù)，或需要跳過的行號列表，在下面的示例中，讀取文件時選擇跳過第1、3、4行（索引值分別為0、2、3）：

>>> import pandas as pd >>> pd.read_csv(r'C:\Users\TanRe\Desktop\test4.csv', skiprows=[0, 2, 3])a b c d message 0 1 2 3 4 hello 1 5 6 7 8 world 2 9 10 11 12 python

【01x06】na_values 設置缺失值

當文件中出現(xiàn)了空字符串或者 NA 值，Pandas 會將其標記成 NaN（缺失值），同樣也可以使用 isnull 方法來判斷結(jié)果值是否為缺失值：

>>> import pandas as pd >>> obj = pd.read_csv(r'C:\Users\TanRe\Desktop\test5.csv') >>> objsomething a b c d message 0 one 1 2 3.0 4 NaN 1 two 5 6 NaN 8 world 2 three 9 10 11.0 12 python >>> >>> pd.isnull(obj)something a b c d message 0 False False False False False True 1 False False False True False False 2 False False False False False False

na_values 方法可以傳遞一組值，將這組值設置為缺失值，如果傳遞的為字典對象，則字典的各值將被設置為 NaN：

>>> import pandas as pd >>> obj1 = pd.read_csv(r'C:\Users\TanRe\Desktop\test5.csv') >>> obj1something a b c d message 0 one 1 2 3.0 4 NaN 1 two 5 6 NaN 8 world 2 three 9 10 11.0 12 python >>> >>> obj2 = pd.read_csv(r'C:\Users\TanRe\Desktop\test5.csv', na_values=['1', '12']) >>> obj2something a b c d message 0 one NaN 2 3.0 4.0 NaN 1 two 5.0 6 NaN 8.0 world 2 three 9.0 10 11.0 NaN python >>> >>> sentinels = {'message': ['python', 'world'], 'something': ['two']} >>> obj3 = pd.read_csv(r'C:\Users\TanRe\Desktop\test5.csv', na_values=sentinels) >>> obj3something a b c d message 0 one 1 2 3.0 4 NaN 1 NaN 5 6 NaN 8 NaN 2 three 9 10 11.0 12 NaN

【01x07】nrows / chunksize 行與塊

以下 test6.csv 文件中包含 50 行數(shù)據(jù)：

可以設置 pd.options.display.max_rows 來緊湊地顯示指定行數(shù)的數(shù)據(jù)：

>>> import pandas as pd >>> pd.options.display.max_rows = 10 >>> pd.read_csv(r'C:\Users\TanRe\Desktop\test6.csv')one two three four key 0 0.467976 -0.038649 -0.295344 -1.824726 L 1 -0.358893 1.404453 0.704965 -0.200638 B 2 -0.501840 0.659254 -0.421691 -0.057688 G 3 0.204886 1.074134 1.388361 -0.982404 R 4 0.354628 -0.133116 0.283763 -0.837063 Q .. ... ... ... ... .. 45 2.311896 -0.417070 -1.409599 -0.515821 L 46 -0.479893 -0.633419 0.745152 -0.646038 E 47 0.523331 0.787112 0.486066 1.093156 K 48 -0.362559 0.598894 -1.843201 0.887292 G 49 -0.096376 -1.012999 -0.657431 -0.573315 0[50 rows x 5 columns]

通過 nrows 參數(shù)可以讀取指定行數(shù)：

>>> import pandas as pd >>> pd.read_csv(r'C:\Users\TanRe\Desktop\test6.csv', nrows=5)one two three four key 0 0.467976 -0.038649 -0.295344 -1.824726 L 1 -0.358893 1.404453 0.704965 -0.200638 B 2 -0.501840 0.659254 -0.421691 -0.057688 G 3 0.204886 1.074134 1.388361 -0.982404 R 4 0.354628 -0.133116 0.283763 -0.837063 Q

要逐塊讀取文件，可以指定 chunksize（行數(shù)）：

>>> import pandas as pd >>> chunker = pd.read_csv(r'C:\Users\TanRe\Desktop\test6.csv', chunksize=50) >>> chunker <pandas.io.parsers.TextFileReader object at 0x07A20D60>

返回的 TextParser 對象，可以根據(jù) chunksize 對文件進行逐塊迭代。以下示例中，對 test6.csv 文件數(shù)據(jù)進行迭代處理，將值計數(shù)聚合到 “key” 列中：

>>> import pandas as pd >>> chunker = pd.read_csv(r'C:\Users\TanRe\Desktop\test6.csv', chunksize=50) >>> tot = pd.Series([], dtype='float64') >>> for piece in chunker:tot = tot.add(piece['key'].value_counts(), fill_value=0)>>> tot = tot.sort_values(ascending=False) >>> tot[:10] G 6.0 E 5.0 B 5.0 L 5.0 0 5.0 K 4.0 A 4.0 R 4.0 C 2.0 Q 2.0 dtype: float64

【02x00】寫入數(shù)據(jù)

Pandas 提供了一些用于將表格型數(shù)據(jù)讀取為 DataFrame 對象的函數(shù)。常見方法如下：

函數(shù)描述

to_csv	將對象寫入逗號分隔值（csv）文件
to_clipboard	將對象復制到系統(tǒng)剪貼板
to_excel	將對象寫入 Excel 工作表
to_hdf	使用 HDFStore 將包含的數(shù)據(jù)寫入 HDF5 文件
to_html	將 DataFrame 呈現(xiàn)為 HTML 表格
to_json	將對象轉(zhuǎn)換為 JSON（ JavaScript Object Notation）字符串
to_msgpack	將對象寫入二進制格式編碼的文件（Pandas v1.0.0 中已刪除對 msgpack 的支持，建議使用 pyarrow）
to_pickle	Pickle（序列化）對象到文件
to_sql	將存儲在 DataFrame 中的數(shù)據(jù)寫入 SQL 數(shù)據(jù)庫
to_stata	將 DataFrame 對象導出為 Stata 格式
to_feather	將 DataFrames 寫入 Feather 二進制格式文件

以下以 to_csv 為例，它的參數(shù)同樣多達 50 多個，具體可參見官方文檔：

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html
https://pandas.pydata.org/docs/reference/api/pandas.Series.to_csv.html

【02x01】簡單示例

以之前的 test5.csv 文件為例，先讀出數(shù)據(jù)，再將數(shù)據(jù)寫入另外的文件：

>>> import pandas as pd >>> data = pd.read_csv(r'C:\Users\TanRe\Desktop\test5.csv') >>> datasomething a b c d message 0 one 1 2 3.0 4 NaN 1 two 5 6 NaN 8 world 2 three 9 10 11.0 12 python >>> >>> data.to_csv(r'C:\Users\TanRe\Desktop\out1.csv')

【02x02】sep 指定分隔符

sep 參數(shù)可用于其他分隔符：

【02x03】na_rep 替換缺失值

na_rep 參數(shù)可將缺失值（NaN）替換成其他字符串：

【02x04】index / header 行與列標簽

設置 index=False, header=False，可以禁用行標簽與列標簽：

還可以傳入列表來重新設置列標簽：

【02x05】columns 指定列

可以通過設置 columns 參數(shù)，只寫入部分列，并按照指定順序排序：

總結(jié)

以上是生活随笔為你收集整理的Python 数据分析三剑客之 Pandas（十）：数据读写的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：有什么样的理财方式，能既保障本金安全，又
下一篇：【Python CheckiO 题解】S