日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cfile read 最大读取限制_pandas读取表格后的常用数据处理操作

發(fā)布時間:2023/12/19 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 cfile read 最大读取限制_pandas读取表格后的常用数据处理操作 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
作者丨Sp4rkW來源丨凹凸數(shù)據(jù)大家好,我是Sp4rkW今天給大家講講pandas讀取表格后的一些常用數(shù)據(jù)處理操作。這篇文章其實來源于自己的數(shù)據(jù)挖掘課程作業(yè),通過完成老師布置的作業(yè),感覺對于使用python中的pandas模塊讀取表格數(shù)據(jù)進行操作有了更深層的認識,這里做一個整理總結(jié)。本文總結(jié)了一些通過pandas讀取表格并進行常用數(shù)據(jù)處理的操作,更詳細的參數(shù)應該關(guān)注官方參數(shù)文檔

1、讀取10行數(shù)據(jù)

相關(guān)參數(shù)簡介:
  • header:指定作為列名的行,默認0,即取第一行的值為列名,數(shù)據(jù)為列名行以下的數(shù)據(jù);若數(shù)據(jù)不含列名,則設(shè)定 header = None。
  • sep:指定分隔符。如果不指定參數(shù),則會嘗試使用逗號分隔。
  • nrows:需要讀取的行數(shù)(從文件頭開始算起)
tabledata = pandas.read_excel("./hotel.xlsx", header=None, sep=',', nrows=10)
print(tabledata)

2、對讀取的數(shù)據(jù)重新定義列名

相關(guān)參數(shù)簡介:
  • names:用于結(jié)果的列名列表,如果數(shù)據(jù)文件中沒有列標題行,就需要執(zhí)行header=None
name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',', nrows=10)
print(tabledata)

3、取出某列值為指定值的所有數(shù)據(jù)

這里我們做一個簡單的遍歷操作即可完成,取值使用的函數(shù)是ix。name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
hotel_name_list = []for i in range(421):if tabledata.ix[i,2] == "商務出行":
hotel_name_list.append(tabledata.ix[i,1])
print(hotel_name_list)

4、取出某一列的數(shù)值是缺失值的數(shù)據(jù)

這里開始出現(xiàn)缺失值,提一下缺失值相關(guān)的兩個參數(shù):
  • na_values:默認會將'-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', '', 轉(zhuǎn)換為NaN,且na_values參數(shù)還支持定義另外的應處理為缺失值的值
原版解釋:na_values
: scalar, str, list-like, or dict, default None
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''
  • keep_default_na:bool型,決定是否自動轉(zhuǎn)NaN
name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['類型'].isnull()]
print(tableline)

5、只修改某一列的缺失值

fillna函數(shù)用于替換缺失值,常見參數(shù)如下:
  • value參數(shù)決定要用什么值去填充缺失值
  • axis:確定填充維度,從行開始或是從列開始
  • limit:確定填充的個數(shù),int型
通常limit參數(shù)配合axis可以用于替換數(shù)量方向的控制我們這里根據(jù)需求,最簡單的就是將需要修改的這一列取出來進行修改,之后對原數(shù)據(jù)進行列重新賦值即可name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata['類型'].fillna(value='其他')
tabledata['類型'] = tableline
print(tabledata)

6、修改某一列,用平均值代替缺失值

這個的思路和上面一個基本一致,區(qū)別在于我們需要線求出平均值。平均值的求解肯定不需要缺失值參與,于是我們先取出某一列不存在的缺失值的所有數(shù)據(jù),再取出這一列數(shù)據(jù),通過mean函數(shù)直接獲取平均值。同理的函數(shù)使用還有:
  • mean()平均值
  • median()中位數(shù)
  • max()最大值
  • min()最小值
  • sum()求和
  • std()標準差
  • Series類型獨有的方法:argmax()最大值的位置 argmin()最小值的位置
name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['評分'].isnull().values==False]
score_avg = tableline['評分'].mean()
tableline = tabledata['評分'].fillna(value=score_avg)
tabledata['評分'] = tableline
print(tabledata)

近期精彩內(nèi)容推薦:??

?程序員這碗青春飯,怎么吃得更久一點?

?順豐小哥連升3級,國家授予特別獎!

?狠人 Spring Cloud 20000 字總結(jié)!

?python實現(xiàn)文件自動歸類

在看點這里好文分享給更多人↓↓

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的cfile read 最大读取限制_pandas读取表格后的常用数据处理操作的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。