dataframe多列合并成一列
DataFrame的幾列數據合并成為一列
DataFrame的幾列數據合并成為一列
1.1 方法歸納
1.2 .str.cat函數詳解
1.2.1 語法格式:
1.2.2 參數說明:
1.2.3 核心功能:
1.2.4 常見范例:
DataFrame的幾列數據合并成為一列
1.1 方法歸納
使用 + 直接將多列合并為一列(合并列較少);
使用pandas.Series.str.cat方法,將多列合并為一列(合并列較多);
范例如下:
dataframe["newColumn"] = dataframe["age"].map(str) + dataframe["phone"] + dataframe["address”]
#或者
dataframe["newColumn"] = dataframe["age"].map(str).str.cat([dataframe["phone"],dataframe["address”]],sep='-',na_rep='?')
注意事項:
參與合并的列的數據類型必須為str類型,int和float等數值類型需先轉化為str;
參與合并的列的長度必須相同(即:行數),否則報錯,但使用pandas.Series.str.cat方法,可通過指定參數join={‘left’, ‘right’, ‘outer’, ‘inner’},實現長度不相等的列合并;
參與合并的列的各行元素均不為NaN,否則,只要有一列的對應行元素為NaN,則合并結果中該行將為NaN,但使用pandas.Series.str.cat方法,可通過指定參數na_rep=’-’,將各列中缺失行元素填充為‘-’,從而保留合并列的所有行元素;
1.2 .str.cat函數詳解
1.2.1 語法格式:
# pandas.Series.str.cat語法如下:
Series.str.cat(others=None, sep=None, na_rep=None, join=None)
1.2.2 參數說明:
others : 準備合并的字符串列表,其數據類型可以為:Series, Index, DataFrame, np.ndarrary(N元數組) or list-like(類似列表)
備注: 由于默認join=None,所以欲合并的兩個(多個)字符串列表必須具有相同的長度,否則需設置參數join= {‘left’, ‘right’, ‘outer’, ‘inner’},來控制多個字符串列表的合并方式。
(1)如果others=None(即:字符串列表df[col_1]不與其他字符串列表合并),結果將不傳遞其他值,而是將df[col_1]的所有值都連接成一個字符串;(詳見范例1-1)
(2)如果others≠None(即:指定了與字符串列表df[col_1]合并的其他字符串列表df[col_2]),結果將用分隔符把df[col_1]與df[col_2]對應的行值連接在一起, 返回Series。(詳見范例1-2)
sep:合并結果中不同元素/列之間的分隔符。默認情況下,使用空字符串’ ’ 。
na_rep:為所有缺失值插入的內容,其數據類型可以為:str或None,默認na_rep=None
備注:
(1)如果na_rep=None,則多個合并列中只要有一列的對應行元素為NaN,合并結果中該行元素將為NaN;
(2)如果na_rep=‘str’(str需自定義),則合并列中各缺失行元素將被填充為‘str’,合并結果將保留合并列的所有行元素;
join :確定連接方式,其可能的取值為:{‘left’, ‘right’, ‘outer’, ‘inner’},默認join=None
1.2.3 核心功能:
將Series中的多個字符串[‘a’, ‘b’, ‘c’]拼接為一個字符串’a b c’(字符串拼接)
將DataFrame中的兩(多)列df[col_1]和df[col_2]合并為一列(多列合并)
備注: pandas.Series.str.cat僅適用于str類型的數據,int和float等數值型需先轉化為str型,才可調用此方法。
int型轉為str的方法:
1、df[‘Price’]=df[‘Price’].map(lambda x: str(x))
2、df[‘Price’]=df[‘Price’].map(str)
3、df[‘Price’]=df[‘Price’].astype(‘str’)
若要同時將多列合并為一列,需引入列表list來指定準備合并的列,例如:
df[col_1].str.cat([df[col_2],df[col_3],df[col_4]],sep=’-’)
1.2.4 常見范例:
import numpy as np
import pandas as pd
#創建原始數據
s=pd.Series(['a','b',np.nan,'d'])
>>>
s
0 a
1 b
2 NaN
3 d
# other=None時,調用s.str.cat(),可將series轉為用分隔符sep分隔的字符串,缺失項將被省略
s1=s.str.cat(sep=' ')
>>>
s1
'a b d'
# other=None時,指定na_rep='?',結果將保留原series中的缺失項,并用?代替
s2=s.str.cat(sep=' ',na_rep='?')
>>>
s2
'a b ? d'
# other≠None時,調用s.str.cat(),可將兩個字符串列表df[col_1]與df[col_2]合并為一列,結果用分隔符sep分隔各項元素,由于默認na_rep=None,故合并時若df[col_1]與df[col_2]的對應行元素有一個為NaN,則合并后該行元素值將為None,結果返回Series
s3=s.str.cat(['A','B','C','D'],sep=',')
>>>
s3
0 a,A
1 b,B
2 NaN
3 d,D
# other≠None時,調用s.str.cat(),可將兩個字符串列表df[col_1]與df[col_2]合并為一列,指定na_rep='-',故合并結果將保留df[col_1]與df[col_2]的所有行,且將df[col_1]與df[col_2]的缺失項填充為‘-’
s4=s.str.cat(['A','B','C','D'],sep=',',na_rep='-')
>>>
s4
0 a,A
1 b,B
2 -,C
3 d,D
# 欲合并的字符串列表df[col_1]與df[col_2]的索引不同時,需指定參數join,確定連接方式
t=pd.Series(['d','a','e','c'],index=[3,0,4,2])
s_1=s.str.cat(t,join='left',na_rep='-')
>>>
s_1
0 aa
1 b-
2 -c
3 dd
s_2=s.str.cat(t,join='outer',na_rep='-')
>>>
s_2
0 aa
1 b-
2 -c
3 dd
4 -e
s_3=s.str.cat(t,join='inner',na_rep='-')
>>>
s_3
0 aa
2 -c
3 dd
s_4=s.str.cat(t,join='right',na_rep='-')
>>>
s_4
3 dd
0 aa
4 -e
2 -c
總結
以上是生活随笔為你收集整理的dataframe多列合并成一列的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: dataframe 拆分 分裂
- 下一篇: dataframe重命名