當前位置：首頁 > 编程语言 > python >内容正文

python

pandas 合并所有列_Python学习：Pandas库

發布時間：2025/3/15 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 pandas 合并所有列_Python学习：Pandas库小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

????? pandas包含數據結構和數據處理工具的設計使得在Python中進行數據清洗和分析非常快捷。pandas經常是和NumPy,Scipy以及數據可視化工具matplotlib一起使用的。pandas支持大部分NumPy語言風格的數組計算，但最大的不同在于pandas是用于處理表格型或異質型數據的。而NumPy更適合處理同質型的數值類數組數據。

????在第一次學習Pandas的過程中，你會發現你需要記憶很多的函數和方法。所以在這里我們匯總一下Pandas官方文檔中比較常用的函數和方法，以方便大家記憶。

df：任意的Pandas DataFrame對象
s：??任意的Pandas Series對象

一、關鍵包導入：

import pandas as pd
import numpy as np

二、導入數據：

pd.read_csv(filename)? ? ? 逗號是默認分隔符
pd.read_table(filename)? ? 制表符('\t')是默認分隔符
pd.read_excel(filename)? ? 讀取Excel數據
pd.read_sql(query, connection_object)：從SQL表/庫導入數據
pd.read_json(json_string)：讀JSON格式
pd.DataFrame(dict)：從字典對象導入數據，Key是列名，Value是數據

pd.read_csv(flie,header=,sep=,na_values=,skiprows=,nrows=,chunksize=,index_col=,names=)? ??

header：用作列名的行號，默認是0(第一行)，如果沒有列名的話，應該是None
sep：用于分隔每行字段的字符序列或是正則表達式
na_values：需要用NA替換的值序列
skiprows：從文件開頭處起，需要跳過的行數或行號列表
nrows：從文件開頭處讀入的行數
chunksize：用于迭代的塊大小
index_col：用作結果中行索引的列號或列名，可以是一個單一的名稱/數字,也可以是一個分層索引
names：結果的列名列表

三、導出數據：

df.to_csv(filename)：導出數據到CSV文件
df.to_excel(filename)：導出數據到Excel
df.to_sql(table_name, connection_object)：導出數據到SQL表
df.to_json(filename)：以Json格式導出數據到文本文件

四、創建對象

obj=pd.Series([4,7,-5],index=['a','b','c'])
obj=pd.DataFrame(data,columns=['year'],index=['one'])

五、查看數據：

df.head(n)：查看DataFrame對象的前n行
df.tail(n)：查看DataFrame對象的最后n行
df.info()：查看索引、數據類型和內存信息
df.shape：查看行數和列數
df.describe()：查看數值型列的匯總統計
df.dtypes：每一列數據的格式
df.isnull()：查看某一列空值
df.columns ：查看列名稱
df.values：查看數據表的值
df['B'].unique()：查看某一列的唯一值
s.value_counts()：查看Series對象的唯一值和計數
df.apply(pd.value_counts).fillna(0)：查看DataFrame對象中每一列的唯一值和計數,并對NA填充0

六、數據選取：

df[col]：根據列名，并以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
df[n:m]：以DataFrame形式返回n到m-1行
df.loc[val]：根據標簽選擇單行或多行
df.loc[:,val]：根據標簽選擇單列或多列
df.loc[val1,val2]：同時選擇行和列的一部分
df.iloc[where]：根據整數位置選擇單行或多行
df.iloc[:,where]：根據整數位置選擇單列或多列
df.iloc[where_i,where_j]：根據整數位置選擇行和列

*loc切片是首尾閉區間；iloc切片是首閉尾開

七、數據清洗：

df.columns = ['a','b','c']：重命名列名
pd.isnull()：檢查DataFrame對象中的空值
pd.notnull()：檢查DataFrame對象中的非空值
df.dropna()：刪除所有包含空值的行
df.dropna(axis=1)：刪除所有包含空值的列
df.dropna(axis=1,thresh=n)：刪除所有小于n個非空值的行
df.fillna(x)：用x替換DataFrame對象中所有的空值
s.astype(float)：將Series中的數據類型更改為float類型
s.replace(1,'one')：用‘one’代替所有等于1的值
s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名
df.set_index('column_one')：更改索引列
df.rename(index=lambda x: x + 1)：批量重命名索引
df.drop_duplicates() ：刪除后出現的重復值
df.drop_duplicates(keep='last')：刪除先出現的重復值
df.drop_duplicates(['k1']) ：基于k1列刪除重復值
df['city']=df['city'].map(str.strip)?
pd.cut(data,4) ：分箱

八、數據處理：

df[df[col] > 0.5]：選擇col列的值大于0.5的行
df.sort_values(col1)：按照列col1排序數據，默認升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列數據
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列數據
df.groupby(col)：返回一個按列col進行分組的Groupby對象
df.groupby([col1,col2])：返回一個按多列進行分組的Groupby對象
df.groupby('city')['id'].count() ：按城市對id字段進行計數
df.groupby('city')['price'].agg([np.sum, np.mean])：對city字段進行匯總，并分別計算prince的合計和均值
df.pivot_table(index=col1,values=[col2,col3], aggfunc=max)：創建一個按列col1進行分組，并計算col2和col3的最大值的數據透視表
df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值
data.apply(np.mean)：對DataFrame中的每一列應用函數np.mean
data.apply(np.max,axis=1)：對DataFrame中的每一行應用函數np.max

九、數據合并：

df1.append(df2)：將df2中的行添加到df1的尾部
pd.concat([df1, df2],axis=1)：將df2中的列添加到df1的尾部
df1.join(df2,on=col1,how='inner')：對df1的列和df2的列執行SQL形式的join
pd.merge(df1,df2,on='key') :? 按指定連接健合并

*pd.concat():join接收inner或outer。表示其他軸向上的索引是按交集(inner)還是并集(outer)進行合并。默認為outer。當axis=1的時候，concat做行對齊，然后將不同列名稱的兩張或多張表合并。當兩個表索引不完全一樣時，可以使用join參數選擇是內連接還是外連接。在內連接的情況下，僅僅返回索引重疊部分。在外連接的情況下，則顯示索引的并集部分數據，不足的地方則使用空值填補。axis=0時同理

*df.append():append方法也可以用于縱向合并兩張表。但是append方法實現縱向表堆疊有一個前提條件，那就是兩張表的列名需要完全一致

*pd.merge()常用參數：

十、數據統計：

df.describe()：查看數據特征的匯總統計
df.mean()：返回所有列的均值
df.corr()：返回列與列之間的相關系數
df.count()：返回每一列中的非空值的個數
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.idxmin()：返回最小值所在的索引標簽
df.argmin()：返回最小值所在的索引位置
df.median()：返回每一列的中位數
df.std()：返回每一列的標準差

*傳入axis=’columns'或者axis=1，則會對一行上各列值進行操作。

除非整個切片都是NA，否則NA值是自動被排除的，可以通過禁用skipna來實現不排除NA值：skipna=False

文末福利：

????網上可以搜到大量的Pandas教程和官方文檔，但沒有簡單的方法來練習。教程是很好的資源，但要付諸實踐。只有實踐，才能更好的加深學習。針對pandas庫函數的一些常用用法，本站搜索到了一些關于Pandas的練習題含答案，每一個類型包含了相應的練習數據、題目、注釋以及解答等4個文件。大家可以根據自己的薄弱點針對性訓練，相信一定能有所提高！

關注本公眾號，后臺回復【Pandas學習】即可獲得這些練習題資料

長

按

關

注

一路同行

ID :?進階的CVCoder

一起尋找生命中的光.....

總結

以上是生活随笔為你收集整理的pandas 合并所有列_Python学习：Pandas库的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mysql referential_co
下一篇： python内存池机制_python的内

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

pandas 合并所有列_Python学习：Pandas库

總結