當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

Pandas库常用函数和操作

發布時間：2023/11/28 生活经验 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 Pandas库常用函数和操作小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. DataFrame 處理缺失值 ?dropna()
2. 根據某維度計算重復的行 ? duplicated()、value_counts()
3. 去重 ?drop_duplicates()
4. 拼接
- (1) 拼接列?merge()
- (2) 拼接行?
5. 找出在某一特定維度為空值的所有行
6. 指定dataframe的維度及順序；保存數據csv文件
7. 保存到文件
- 7.1?讀寫excel/csv格式文件
- 7.2 將多張DataFrame表寫入到同一個excel文件的不同sheet中
- 7.3 向一個已經存在的excel文件中寫入一張新sheet；如果文件不存在則創建一個新文件再寫入
- 7.4 讀取excel文本中的多個sheet
8. 排序
9. 軸標簽重命名?df.rename()（列重命名、行index重命名）
10.?數據選取，修改，切片
- 10.1?loc
- 10.2?iloc
11. 判斷某個cell是否為空
12. Dataframe值替換
13. Dataframe篩選數據
14. 其它常用操作
15. 遇到的問題和解決方法
- 15.1??df.to_excel(fout)?報錯"openpyxl.utils.exceptions.IllegalCharacterError"
- 15.2? 保存文件時報錯"UserWarning: Ignoring URL 'http://www.xxxxxxx' with link or location/anchor > 255 characters since it exceeds Excel's limit for URLS"

回到頂部

1. DataFrame 處理缺失值 ?dropna()

df2.dropna(axis=0, how='any', subset=[u'ToC'], inplace=True)

把在ToC列有缺失值的行去掉

補充：還可以用df.fillna()來把缺失值替換為某個特殊標記

df = df.fillna("missing")  # 用字符串替代
df = df.fillna(df.mean())  # 用均值或者其它描述性統計值替代

回到頂部

2. 根據某維度計算重復的行 ??duplicated()、value_counts()

print df.duplicated(['name']).value_counts()  # 如果不指定列，默認會判斷所有列
"""
輸出:
False    11118
True       664
表示有664行是重復的
"""

duplicated()方法返回一個布爾型的Series，顯示各行是否為重復行，非重復行顯示為False，重復行顯示為True

value_counts()方法統計數組或序列所有元素出現次數，對某一列統計可以直接用df.column_name.value_counts()

回到頂部

3. 去重 ?drop_duplicates()

df.drop_duplicates(['name'], keep='last', inplace=True)
"""
keep : {‘first’, ‘last’, False}, default ‘first’first : Drop duplicates except for the first occurrence.last : Drop duplicates except for the last occurrence.False : Drop all duplicates.
"""

回到頂部

4. 拼接

(1) 拼接列?merge()

result = pd.merge(left, right, on='name', how='inner')
"""
其它參數：
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False)Examples
>>> A              >>> Blkey value         rkey value
0   foo  1         0   foo  5
1   bar  2         1   bar  6
2   baz  3         2   qux  7
3   foo  4         3   bar  8>>> A.merge(B, left_on='lkey', right_on='rkey', how='outer')lkey  value_x  rkey  value_y
0  foo   1        foo   5
1  foo   4        foo   5
2  bar   2        bar   6
3  bar   2        bar   8
4  baz   3        NaN   NaN
5  NaN   NaN      qux   7
"""

其它參考：Merge, join, and concatenate

(2) 拼接行?

def concat_by_row(data_dir, fout):dfs = []for filename in os.listdir(data_dir):dfs.append(pd.read_excel(os.path.join(data_dir, filename)))print(dfs[-1].shape, filename)
    df = pd.concat(dfs, axis=0, ignore_index=True)  # axis=0按行拼接；axis=1按列拼接print(df.shape)df.to_excel(fout, index=False)

回到頂部

5. 找出在某一特定維度為空值的所有行

bool_arr = df.name.notnull()
print bool_arr.value_counts()
for idx, value in bool_arr.iteritems():if not value:print '\n', idx, valueprint df.iloc[idx]

回到頂部

6. 指定dataframe的維度及順序；保存數據csv文件

res = {'name':[], 'buss':[], 'label':[]}
with codecs.open(fname, encoding='utf8') as fr:for idx, line in enumerate(fr):item = json.loads(line)res['name'].append(item['name'])        res['buss'].append(item['buss']) res['label'].append(item['label'])
df = pd.DataFrame(res, columns=['name', 'buss', 'label'])
df.to_csv('data/xxx.csv', index=False, encoding='utf-8')

回到頂部

7. 保存到文件

7.1?讀寫excel/csv格式文件

import pandas as pddef dataframe_read_and_write(fin, fout):  # 讀取fin文件，添加一列"新應答"df = pd.read_excel(fin)# df = read_csv(fin, encoding='utf-8')print df.head()fields = [u"序號", u"問題描述", u"原始應答", u"新應答"]data_out = defaultdict(list)for idx, row in df.iterrows():try:row = row.to_dict()new_answer = "xxxxxx"for field in fields[:-1]:data_out[field].append(row[field])data_out[fields[-1]].append(new_answer)except Exception as error:print "Error line", idx, errordf_out = pd.DataFrame(data_out, columns=fields)df_out.to_excel(fout, sheet_name="Sheet1", index=False, header=True)# df_out.to_csv(fout, index=False, encoding="utf-8")if __name__ == '__main__':dataframe_read_and_write(fin="data/tmp.xlsx", fout="data/tmp_out.xlsx")

7.2 將多張DataFrame表寫入到同一個excel文件的不同sheet中

import pandas as pd
writer = pd.ExcelWriter('foo.xlsx')
df.to_excel(writer, 'Data 0')
df.to_excel(writer, 'Data 1')
writer.save()

7.3 向一個已經存在的excel文件中寫入一張新sheet；如果文件不存在則創建一個新文件再寫入

import pandas
from openpyxl import load_workbookdef add_new_sheet(df, fout, sheet_name='Sheet1', columns=None):if fout and os.path.exists(fout):book = load_workbook(fout)writer = pd.ExcelWriter(fout, engine='openpyxl')writer.book = bookwriter.sheets = dict((ws.title, ws) for ws in book.worksheets)else:writer = pd.ExcelWriter(fout)df.to_excel(writer, sheet_name=sheet_name, columns=columns, index=False)writer.save()add_new_sheet(df, fout='Masterfile.xlsx', sheet_name="Main", columns=['Diff1', 'Diff2'])

參考：官方解決方案https://github.com/pandas-dev/pandas/issues/3441

7.4 讀取excel文本中的多個sheet

import xlrdworkbook = xlrd.open_workbook(fin)
for sheet in workbook.sheets():df = pd.read_excel(fin, sheet_name=sheet.name, index_col=None)

回到頂部

8. 排序

def sort_dataframe(df, fields_to_sort, fout=None):df = df.sort_values(by=fields_to_sort, ascending=True)if fout:df.to_excel(fout, index=False)return dfdf = pd.read_excel(data_file)
sort_dataframe(df, fields_to_sort=["column_A", "column_B"], fout=data_file)df = pd.read_excel(data_file)  # note: index改變，需要從文件重新讀取，才會是有序的，后面遍歷df的時候才不會出問題
print(df.head(10))

回到頂部

9. 軸標簽重命名?df.rename()（列重命名、行index重命名）

>>> df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})
>>> df.rename(index=str, columns={"A": "a", "B": "c"})a  c
0  1  4
1  2  5
2  3  6>>> df.rename(index=str, columns={"A": "a", "C": "c"})a  B
0  1  4
1  2  5
2  3  6Using axis-style parameters>>> df.rename(str.lower, axis='columns')a  b
0  1  4
1  2  5
2  3  6>>> df.rename({1: 2, 2: 4}, axis='index')A  B
0  1  4
2  2  5
4  3  6

參數說明：

?df.rename()參數說明

回到頂部

10.?數據選取，修改，切片

10.1?loc

在知道列名字的情況下，df.loc[index,column] 選取指定行，列的數據

# df.loc[index, column_name],選取指定行和列的數據
df.loc[0,'name'] # 'Snow'
df.loc[0:2, ['name','age']]          #選取第0行到第2行，name列和age列的數據, 注意這里的行選取是包含下標的。
df.loc[[2,3],['name','age']]          #選取指定的第2行和第3行，name和age列的數據
df.loc[df['gender']=='M','name']      #選取gender列是M，name列的數據
df.loc[df['gender']=='M',['name','age']] #選取gender列是M，name和age列的數據

10.2?iloc

在column name特別長或者index是時間序列等各種不方便輸入的情況下，可以用iloc (i = index), iloc完全用數字來定位 iloc[row_index, column_index]

df.iloc[0,0]        #第0行第0列的數據，'Snow'
df.iloc[1,2]        #第1行第2列的數據，32
df.iloc[[1,3],0:2]    #第1行和第3行，從第0列到第2列（不包含第2列）的數據
df.iloc[1:3,[1,2]    #第1行到第3行（不包含第3行），第1列和第2列的數據

更多參考：

https://blog.csdn.net/yoonhee/article/details/76168253

回到頂部

11. 判斷某個cell是否為空

if str(line["col_a"]).strip() == "nan":pass?

回到頂部

12. Dataframe值替換

df["col_a"] = df["col_a"].replace({"b": "C", "e": "G"})

更多參考：https://jingyan.baidu.com/article/454316ab4d0e64f7a6c03a41.html

回到頂部

13. Dataframe篩選數據

df2 = df[df["col_a"] == "cc"]  # 等于某個值
df3 = df[df["col_a"].isin(["bb", "cc", "ee"])]　　# 取值在某個范圍內

更多參考：https://jingyan.baidu.com/article/0eb457e508b6d303f0a90572.html

回到頂部

14. 其它常用操作

    # df = pd.read_csv("../../data/data_part1.txt", sep="$")df = pd.read_csv("data/data_part1.csv", low_memory=False)# 數據概覽df.info()df.describe()  # ==> 只顯示float型維度的[count, mean, std, min]等統計信息, 例如0108, 3816, 2453, 0112, 2428, 2304# 數據查看df.head(n=5)  # 查看開頭幾行, 默認n=5df.tail(n=5)  # 查看末尾幾行, 默認n=5df.shape  # 查看行列維度df.columns  # 查看列名和列數df.dtypes     # 查看數據類型   ==> 可以看到哪些維度的數值是object型/float型df["0108"].hist()  # 查看變量分布df["0108"].unique()  # 查看有哪些取值df["0108"].value_counts()  # 查看這一列的值統計# 缺失值統計df.isnull().sum()  # 查看每一列缺失值情況df["n_null"] = df.isnull().sum(axis=1)  # 查看每一行缺失值情況# 缺失值填充mode_df = df.fillna(df.mode().iloc[0], inplace=True)  # 用眾數填充median_df = df.fillna(df.median())  # 用中位數填充df["0108"][df.vid.isnull()] = "0"  # 對某一列填充

回到頂部

15. 遇到的問題和解決方法

15.1??df.to_excel(fout)?報錯"openpyxl.utils.exceptions.IllegalCharacterError"

(step 1)??pip?install?xlsxwriter?

(step 2)?df.to_excel(fout, engine="xlsxwriter")?

15.2? 保存文件時報錯"UserWarning: Ignoring URL 'http://www.xxxxxxx' with link or location/anchor > 255 characters since it exceeds Excel's limit for URLS"

writer = pd.ExcelWriter(fout, engine="xlsxwriter", options={'strings_to_urls': False})
df.to_excel(writer, index=False)
writer.save()

參考：

https://blog.csdn.net/wangquannuaa/article/details/43988719

https://blog.csdn.net/wangquannuaa/article/details/43984095

分類:?Python 好文要頂?收藏該文?? 焦距
關注 - 5
粉絲 - 8 +加關注 0 0 ??上一篇：[Linux] 終端設置只顯示當前目錄及終端美化
??下一篇：awk結合正則匹配 posted @?2017-08-02 16:04?焦距?閱讀(2568) 評論(0)?編輯?收藏刷新評論刷新頁面返回頂部發表評論

昵稱：

評論內容： ?????

?退出?訂閱評論

[Ctrl+Enter快捷鍵提交]

【推薦】超50萬C++/C#源碼: 大型實時仿真組態圖形源碼
【前端】SpreadJS表格控件，可嵌入系統開發的在線Excel
【推薦】碼云企業版，高效的企業級軟件協作開發管理平臺
【推薦】程序員問答平臺，解決您開發中遇到的技術難題 相關博文：
·?2，Python常用庫之二：Pandas
·?數據處理之pandas庫
·?pandas常用
·?python之pandas數據篩選和csv操作
·?數據清理，預處理pandasdataframe操作技巧總結 最新新聞：
·?剩1/279都能再生的魔幻動物：切斷再生一時爽，一直切一直爽
·?德國對臉書開出200萬罰單：因處理網絡仇恨言論不力
·?新陳代謝是如何開始的？
·?教育部：已約談有關搜索引擎網站整治“志愿填報指導”
·?萬字長文：無論何時何地，亞馬遜都在“注視”著你
??更多新聞...

公告

昵稱：焦距
園齡：2年
粉絲：8
關注：5 +加關注

2019年7月

日

一

二

三

四

五

六

搜索

常用鏈接

我的隨筆
我的評論
我的參與
最新評論
我的標簽

隨筆分類

Database(3)
GitHub(2)
Java(2)
Keras(11)
Leetcode(12)
Linux(39)
LNMP
MacOS
Maven(1)
Python(31)
Titan
Web(3)
對話系統(1)
分布式(1)
工具安裝使用(22)
機器學習(9)
計算機視覺
爬蟲(1)
深度學習(1)
推薦系統(1)
系統和硬件(2)
雜七雜八
知識圖譜(2)
自然語言處理(17)

隨筆檔案

2019年4月 (2)
2019年3月 (2)
2018年11月 (1)
2018年10月 (4)
2018年9月 (15)
2018年8月 (5)
2018年7月 (3)
2018年6月 (4)
2018年5月 (10)
2018年4月 (8)
2018年3月 (6)
2018年2月 (7)
2018年1月 (7)
2017年12月 (13)
2017年11月 (3)
2017年10月 (1)
2017年9月 (10)
2017年8月 (24)
2017年7月 (1)

閱讀排行榜

1. Linux 大文件的分割與合并(21403)
2. [Linux] sed命令使用之在文件中快速刪除/增加指定行(17071)
3. [NLP] TextCNN模型原理和實現(15465)
4. [Python] RuntimeError: Invalid DISPLAY variable(10641)
5. [Python] 項目打包發布(9567)

評論排行榜

1. 【轉】一張圖解析FastAdmin中的表格列表的功能(4)
2. [Linux] 輸出文件的指定行(1)
3. linux下awk內置函數的使用(split/substr/length)(1)
4. Linux 去重先sort再uniq(1)
5. awk命令結合管道命令對json文件進行統計分析(1)

總結

以上是生活随笔為你收集整理的Pandas库常用函数和操作的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：梯度下降优化算法综述与PyTorch实现
下一篇： PyTorch中文文档说明书

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔

生活随笔

生活经验

Pandas库常用函数和操作

1. DataFrame 處理缺失值 ?dropna()

2. 根據某維度計算重復的行 ??duplicated()、value_counts()

3. 去重 ?drop_duplicates()

4. 拼接

(1) 拼接列?merge()

(2) 拼接行?

5. 找出在某一特定維度為空值的所有行

6. 指定dataframe的維度及順序；保存數據csv文件

7. 保存到文件

7.1?讀寫excel/csv格式文件

7.2 將多張DataFrame表寫入到同一個excel文件的不同sheet中

7.3 向一個已經存在的excel文件中寫入一張新sheet；如果文件不存在則創建一個新文件再寫入

7.4 讀取excel文本中的多個sheet

8. 排序

9. 軸標簽重命名?df.rename()（列重命名、行index重命名）

10.?數據選取，修改，切片

10.1?loc

10.2?iloc

11. 判斷某個cell是否為空

12. Dataframe值替換

13. Dataframe篩選數據

14. 其它常用操作

15. 遇到的問題和解決方法

15.1??df.to_excel(fout)?報錯"openpyxl.utils.exceptions.IllegalCharacterError"

15.2? 保存文件時報錯"UserWarning: Ignoring URL 'http://www.xxxxxxx' with link or location/anchor > 255 characters since it exceeds Excel's limit for URLS"

公告

搜索

常用鏈接

隨筆分類

隨筆檔案

閱讀排行榜

評論排行榜

推薦排行榜

總結

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

Pandas库常用函数和操作

1. DataFrame 處理缺失值 ?dropna()

2. 根據某維度計算重復的行 ??duplicated()、value_counts()

3. 去重 ?drop_duplicates()

4. 拼接

(1) 拼接列?merge()

(2) 拼接行?

5. 找出在某一特定維度為空值的所有行

6. 指定dataframe的維度及順序； 保存數據csv文件

7. 保存到文件

7.1?讀寫excel/csv格式文件

7.2 將多張DataFrame表寫入到同一個excel文件的不同sheet中

7.3 向一個已經存在的excel文件中寫入一張新sheet；如果文件不存在則創建一個新文件再寫入

7.4 讀取excel文本中的多個sheet

8. 排序

9. 軸標簽重命名?df.rename()（列重命名、行index重命名）

10.?數據選取，修改，切片

10.1?loc

10.2?iloc

11. 判斷某個cell是否為空

12. Dataframe值替換

13. Dataframe篩選數據

14. 其它常用操作

15. 遇到的問題和解決方法

15.1??df.to_excel(fout)?報錯"openpyxl.utils.exceptions.IllegalCharacterError"

15.2? 保存文件時報錯"UserWarning: Ignoring URL 'http://www.xxxxxxx' with link or location/anchor > 255 characters since it exceeds Excel's limit for URLS"

公告

搜索

常用鏈接

隨筆分類

隨筆檔案

閱讀排行榜

評論排行榜

推薦排行榜

總結

6. 指定dataframe的維度及順序；保存數據csv文件