cfile read 最大读取限制_pandas读取表格后的常用数据处理操作
生活随笔
收集整理的這篇文章主要介紹了
cfile read 最大读取限制_pandas读取表格后的常用数据处理操作
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
作者丨Sp4rkW來源丨凹凸數(shù)據(jù)大家好,我是Sp4rkW今天給大家講講pandas讀取表格后的一些常用數(shù)據(jù)處理操作。這篇文章其實來源于自己的數(shù)據(jù)挖掘課程作業(yè),通過完成老師布置的作業(yè),感覺對于使用python中的pandas模塊讀取表格數(shù)據(jù)進行操作有了更深層的認識,這里做一個整理總結(jié)。本文總結(jié)了一些通過pandas讀取表格并進行常用數(shù)據(jù)處理的操作,更詳細的參數(shù)應該關(guān)注官方參數(shù)文檔
print(tabledata)
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',', nrows=10)
print(tabledata)
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
hotel_name_list = []for i in range(421):if tabledata.ix[i,2] == "商務出行":
hotel_name_list.append(tabledata.ix[i,1])
print(hotel_name_list)
: scalar, str, list-like, or dict, default None
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['類型'].isnull()]
print(tableline)
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata['類型'].fillna(value='其他')
tabledata['類型'] = tableline
print(tabledata)
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['評分'].isnull().values==False]
score_avg = tableline['評分'].mean()
tableline = tabledata['評分'].fillna(value=score_avg)
tabledata['評分'] = tableline
print(tabledata)
1、讀取10行數(shù)據(jù)
相關(guān)參數(shù)簡介:- header:指定作為列名的行,默認0,即取第一行的值為列名,數(shù)據(jù)為列名行以下的數(shù)據(jù);若數(shù)據(jù)不含列名,則設(shè)定 header = None。
- sep:指定分隔符。如果不指定參數(shù),則會嘗試使用逗號分隔。
- nrows:需要讀取的行數(shù)(從文件頭開始算起)
print(tabledata)
2、對讀取的數(shù)據(jù)重新定義列名
相關(guān)參數(shù)簡介:- names:用于結(jié)果的列名列表,如果數(shù)據(jù)文件中沒有列標題行,就需要執(zhí)行header=None
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',', nrows=10)
print(tabledata)
3、取出某列值為指定值的所有數(shù)據(jù)
這里我們做一個簡單的遍歷操作即可完成,取值使用的函數(shù)是ix。name_columns = [' ','名字','類型', '城市', '地區(qū)', '地點', '評分', '評分人數(shù)', '價格']tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
hotel_name_list = []for i in range(421):if tabledata.ix[i,2] == "商務出行":
hotel_name_list.append(tabledata.ix[i,1])
print(hotel_name_list)
4、取出某一列的數(shù)值是缺失值的數(shù)據(jù)
這里開始出現(xiàn)缺失值,提一下缺失值相關(guān)的兩個參數(shù):- na_values:默認會將'-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', '', 轉(zhuǎn)換為NaN,且na_values參數(shù)還支持定義另外的應處理為缺失值的值
: scalar, str, list-like, or dict, default None
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''
- keep_default_na:bool型,決定是否自動轉(zhuǎn)NaN
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['類型'].isnull()]
print(tableline)
5、只修改某一列的缺失值
fillna函數(shù)用于替換缺失值,常見參數(shù)如下:- value參數(shù)決定要用什么值去填充缺失值
- axis:確定填充維度,從行開始或是從列開始
- limit:確定填充的個數(shù),int型
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata['類型'].fillna(value='其他')
tabledata['類型'] = tableline
print(tabledata)
6、修改某一列,用平均值代替缺失值
這個的思路和上面一個基本一致,區(qū)別在于我們需要線求出平均值。平均值的求解肯定不需要缺失值參與,于是我們先取出某一列不存在的缺失值的所有數(shù)據(jù),再取出這一列數(shù)據(jù),通過mean函數(shù)直接獲取平均值。同理的函數(shù)使用還有:- mean()平均值
- median()中位數(shù)
- max()最大值
- min()最小值
- sum()求和
- std()標準差
- Series類型獨有的方法:argmax()最大值的位置 argmin()最小值的位置
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['評分'].isnull().values==False]
score_avg = tableline['評分'].mean()
tableline = tabledata['評分'].fillna(value=score_avg)
tabledata['評分'] = tableline
print(tabledata)
近期精彩內(nèi)容推薦:??
?程序員這碗青春飯,怎么吃得更久一點?
?順豐小哥連升3級,國家授予特別獎!
?狠人 Spring Cloud 20000 字總結(jié)!
?python實現(xiàn)文件自動歸類
在看點這里好文分享給更多人↓↓
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的cfile read 最大读取限制_pandas读取表格后的常用数据处理操作的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vivo首席运营官:我们不是特别在意市场
- 下一篇: currenttimemillis 毫秒