當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pandas中合并数据集

發布時間：2024/9/27 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 pandas中合并数据集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據集的合并🔍

1、pandas.merge()

對于數據庫風格的DataFrame進行聯合

語法👇：

pandas.merge(left, right, how=‘inner’, on=None)

left：參與合并的左側DataFrame。
right：參與合并的右側DataFrame。
how：指DataFrame的連接方式。默認為inner，inner是使用兩個表都有的鍵（多對多連接是行的笛卡爾積)——這里可以理解為：比如2對2，首先左邊的1對完右邊的1和2之后，在左邊的2對右邊的1和2，因此結果中排列組合實際就是3*2個結果；left使用左表中所有的鍵；right使用右表中所有的鍵；outer使用兩個表中所有的鍵。
on：用于連接的列名，必須同時存在于左右兩個DataFrame對象中。如果未指定，則以left和right列名的交集作為連接鍵。
left_on：左側DataFrame中用作連接鍵的列。
right_on：右側DataFrame中用作連接鍵的列。
left_index：將左側的行索引用作其連接鍵。
right_index：將右側的行索引用作其連接鍵。
sort：根據連接件對合并后的數據進行排序，默認為True。（有時在處理大數據集時，禁用該選項可獲得更好的性能）
suffixes：在重疊情況下，添加到列名后的字符串元組；默認是(’_x’,’_y’)（例如如果待合并的DataFrame中都含有‘data’列，那么結果中會出現’data_x’,‘data_y’）。
copy：如果為False，則在某些特殊情況下避免將數據復制到結果數據中；默認情況下總是復制。
indicator：添加一個特殊的列_merge，指示每一行的來源；值將根據每行中連接數據的來源分別為’left_only’，‘right_only’或’both’。

例子🌰

>>>df1=pd.DataFrame({'key':['b','b','a','c','a','b'],'data1':range(6)}) >>>df2=pd.DataFrame({'key':['a','b','a','b','d'],'data2':range(5)}) >>>df1key data1 0 b 0 1 b 1 2 a 2 3 c 3 4 a 4 5 b 5 >>>df2key data2 0 a 0 1 b 1 2 a 2 3 b 3 4 d 4 >>>pd.merge(df1,df2,on='key',how='left')key data1 data2 0 b 0 1.0 1 b 0 3.0 2 b 1 1.0 3 b 1 3.0 4 a 2 0.0 5 a 2 2.0 6 c 3 NaN 7 a 4 0.0 8 a 4 2.0 9 b 5 1.0 10 b 5 3.0 >>>pd.merge(df1,df2,how='inner')key data1 data2 0 b 0 1 1 b 0 3 2 b 1 1 3 b 1 3 4 b 5 1 5 b 5 3 6 a 2 0 7 a 2 2 8 a 4 0 9 a 4 2

2、join方法

用于按照索引合并

這個函數比較簡單，直接舉例🌰

>>>left2=pd.DataFrame([[1.,2.],[3.,4.],[5.,6.]],index=['a','c','e'],columns=['Ohio','Nevada']) >>>right2=pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[13.,14.]],index=['b','c','d','e'],columns=['Missouri','Alabama']) >>>left2Ohio Nevada a 1.0 2.0 c 3.0 4.0 e 5.0 6.0 >>>right2 Missouri Alabama b 7.0 8.0 c 9.0 10.0 d 11.0 12.0 e 13.0 14.0 >>>left2.join(right2,how='outer')Ohio Nevada Missouri Alabama a 1.0 2.0 NaN NaN b NaN NaN 7.0 8.0 c 3.0 4.0 9.0 10.0 d NaN NaN 11.0 12.0 e 5.0 6.0 13.0 14.0 >>>another=pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[16.,17.]],index=['a','c','e','f'],columns=['New York','Oregon']) >>>anotherNew York Oregon a 7.0 8.0 c 9.0 10.0 e 11.0 12.0 f 16.0 17.0 >>>left2.join([right2,another])Ohio Nevada Missouri Alabama New York Oregon a 1.0 2.0 NaN NaN 7.0 8.0 c 3.0 4.0 9.0 10.0 9.0 10.0 e 5.0 6.0 13.0 14.0 11.0 12.0 '''由于一些歷史原因(pandas版本過低)，DataFrame的join方法進行連接鍵上的左連接，完全保留左邊DataFrame的行索引。它還支持在調用DataFrame的某一列上連接傳遞的DataFrame的索引：''' >>>left1=pd.DataFrame({'key':['a','b','a','a','b','c'],'value':range(6)}) >>>right1=pd.DataFrame({'group_val':[3.5,7]},index=['a','b']) >>>left1key value 0 a 0 1 b 1 2 a 2 3 a 3 4 b 4 5 c 5

3、 對于 NumPy數組的拼接或綁定， numpy.concatenate() 方法可以實現。

例子🌰

>>>arr=np.arange(12).reshape((3,4)) >>>arr array([[ 0, 1, 2, 3],[ 4, 5, 6, 7],[ 8, 9, 10, 11]]) >>>np.concatenate([arr,arr],axis=1) array([[ 0, 1, 2, 3, 0, 1, 2, 3],[ 4, 5, 6, 7, 4, 5, 6, 7],[ 8, 9, 10, 11, 8, 9, 10, 11]])

4、pandas.concat()

語法👇：

pandas.concat(objs,axis=0, join=‘outer’, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)

objs： 參與連接的pandas對象的列表或字典。唯一必需的參數。
axis： 指明連接的軸向（0為"index"，1為"columns"），默認為0.
join： “inner"或"outer”，默認為"outer"。指明其他軸向上的索引是按交集(inner)還是并集(outer)進行合并。
keys： 與連接對象有關的值，用于形成連接軸向上的層次化索引?？梢允侨我庵档牧斜砘驍到M、元組數組、數組列表(如果將levels設置成多級數組的話)
levels： 指定用作層次化索引各級別上的索引好累明天繼續寫吧

總結

以上是生活随笔為你收集整理的pandas中合并数据集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： NumPy中的where()函数
下一篇：引入Spacy模块出错—OSError:

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

pandas中合并数据集

數據集的合并🔍

總結