當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cfile read 最大读取限制_pandas读取表格后的常用数据处理操作

發(fā)布時間：2023/12/19 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 cfile read 最大读取限制_pandas读取表格后的常用数据处理操作小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者丨Sp4rkW來源丨凹凸數(shù)據(jù)大家好，我是Sp4rkW今天給大家講講pandas讀取表格后的一些常用數(shù)據(jù)處理操作。這篇文章其實來源于自己的數(shù)據(jù)挖掘課程作業(yè)，通過完成老師布置的作業(yè)，感覺對于使用python中的pandas模塊讀取表格數(shù)據(jù)進行操作有了更深層的認(rèn)識，這里做一個整理總結(jié)。本文總結(jié)了一些通過pandas讀取表格并進行常用數(shù)據(jù)處理的操作，更詳細的參數(shù)應(yīng)該關(guān)注官方參數(shù)文檔

1、讀取10行數(shù)據(jù)

相關(guān)參數(shù)簡介：

header：指定作為列名的行，默認(rèn)0，即取第一行的值為列名，數(shù)據(jù)為列名行以下的數(shù)據(jù)；若數(shù)據(jù)不含列名，則設(shè)定 header = None。
sep：指定分隔符。如果不指定參數(shù)，則會嘗試使用逗號分隔。
nrows：需要讀取的行數(shù)(從文件頭開始算起)

tabledata = pandas.read_excel("./hotel.xlsx", header=None, sep=',', nrows=10)
print(tabledata)

2、對讀取的數(shù)據(jù)重新定義列名

相關(guān)參數(shù)簡介：

names：用于結(jié)果的列名列表，如果數(shù)據(jù)文件中沒有列標(biāo)題行，就需要執(zhí)行header=None

name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',', nrows=10)
print(tabledata)

3、取出某列值為指定值的所有數(shù)據(jù)

這里我們做一個簡單的遍歷操作即可完成，取值使用的函數(shù)是ix。name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
hotel_name_list = []for i in range(421):if tabledata.ix[i,2] == "商務(wù)出行":
hotel_name_list.append(tabledata.ix[i,1])
print(hotel_name_list)

4、取出某一列的數(shù)值是缺失值的數(shù)據(jù)

這里開始出現(xiàn)缺失值，提一下缺失值相關(guān)的兩個參數(shù)：

na_values：默認(rèn)會將'-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', '', 轉(zhuǎn)換為NaN，且na_values參數(shù)還支持定義另外的應(yīng)處理為缺失值的值

原版解釋：na_values
: scalar, str, list-like, or dict, default None
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''

keep_default_na：bool型，決定是否自動轉(zhuǎn)NaN

5、只修改某一列的缺失值

fillna函數(shù)用于替換缺失值，常見參數(shù)如下：

value參數(shù)決定要用什么值去填充缺失值
axis：確定填充維度，從行開始或是從列開始
limit：確定填充的個數(shù)，int型

通常limit參數(shù)配合axis可以用于替換數(shù)量方向的控制我們這里根據(jù)需求，最簡單的就是將需要修改的這一列取出來進行修改，之后對原數(shù)據(jù)進行列重新賦值即可name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata['類型'].fillna(value='其他')
tabledata['類型'] = tableline
print(tabledata)

6、修改某一列，用平均值代替缺失值

這個的思路和上面一個基本一致，區(qū)別在于我們需要線求出平均值。平均值的求解肯定不需要缺失值參與，于是我們先取出某一列不存在的缺失值的所有數(shù)據(jù)，再取出這一列數(shù)據(jù)，通過mean函數(shù)直接獲取平均值。同理的函數(shù)使用還有：

mean()平均值
median()中位數(shù)
max()最大值
min()最小值
sum()求和
std()標(biāo)準(zhǔn)差
Series類型獨有的方法：argmax()最大值的位置 argmin()最小值的位置

name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['評分'].isnull().values==False]
score_avg = tableline['評分'].mean()
tableline = tabledata['評分'].fillna(value=score_avg)
tabledata['評分'] = tableline
print(tabledata)

近期精彩內(nèi)容推薦：??

?程序員這碗青春飯，怎么吃得更久一點？

?順豐小哥連升3級，國家授予特別獎！

?狠人 Spring Cloud 20000 字總結(jié)！

?python實現(xiàn)文件自動歸類

在看點這里好文分享給更多人↓↓

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的cfile read 最大读取限制_pandas读取表格后的常用数据处理操作的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： vivo首席运营官：我们不是特别在意市场
下一篇： currenttimemillis 毫秒