日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

pandas 合并所有列_Python学习:Pandas库+练习资料

發(fā)布時(shí)間:2025/3/15 python 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pandas 合并所有列_Python学习:Pandas库+练习资料 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

pandas包含數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)處理工具的設(shè)計(jì)使得在Python中進(jìn)行數(shù)據(jù)清洗和分析非常快捷。pandas經(jīng)常是和NumPy,Scipy以及數(shù)據(jù)可視化工具matplotlib一起使用的。pandas支持大部分NumPy語言風(fēng)格的數(shù)組計(jì)算,但最大的不同在于pandas是用于處理表格型或異質(zhì)型數(shù)據(jù)的。而NumPy更適合處理同質(zhì)型的數(shù)值類數(shù)組數(shù)據(jù)。

在第一次學(xué)習(xí)Pandas的過程中,你會發(fā)現(xiàn)你需要記憶很多的函數(shù)和方法。所以在這里我們匯總一下Pandas官方文檔中比較常用的函數(shù)和方法,以方便大家記憶。

df:任意的Pandas DataFrame對象
s: 任意的Pandas Series對象

一、關(guān)鍵包導(dǎo)入:

  • import pandas as pd
  • import numpy as np

二、導(dǎo)入數(shù)據(jù):

  • pd.read_csv(filename) 逗號是默認(rèn)分隔符
  • pd.read_table(filename) 制表符('')是默認(rèn)分隔符
  • pd.read_excel(filename) 讀取Excel數(shù)據(jù)
  • pd.read_sql(query, connection_object):從SQL表/庫導(dǎo)入數(shù)據(jù)
  • pd.read_json(json_string):讀JSON格式
  • pd.DataFrame(dict):從字典對象導(dǎo)入數(shù)據(jù),Key是列名,Value是數(shù)據(jù)

pd.read_csv(flie,header=,sep=,na_values=,skiprows=,nrows=,chunksize=,index_col=,names=)

  • header:用作列名的行號,默認(rèn)是0(第一行),如果沒有列名的話,應(yīng)該是None
  • sep:用于分隔每行字段的字符序列或是正則表達(dá)式
  • na_values:需要用NA替換的值序列
  • skiprows:從文件開頭處起,需要跳過的行數(shù)或行號列表
  • nrows:從文件開頭處讀入的行數(shù)
  • chunksize:用于迭代的塊大小
  • index_col:用作結(jié)果中行索引的列號或列名,可以是一個單一的名稱/數(shù)字,也可以是一個分層索引
  • names:結(jié)果的列名列表

三、導(dǎo)出數(shù)據(jù):

  • df.to_csv(filename):導(dǎo)出數(shù)據(jù)到CSV文件
  • df.to_excel(filename):導(dǎo)出數(shù)據(jù)到Excel
  • df.to_sql(table_name, connection_object):導(dǎo)出數(shù)據(jù)到SQL表
  • df.to_json(filename):以Json格式導(dǎo)出數(shù)據(jù)到文本文件

四、創(chuàng)建對象

  • obj=pd.Series([4,7,-5],index=['a','b','c'])
  • obj=pd.DataFrame(data,columns=['year'],index=['one'])

五、查看數(shù)據(jù):

  • df.head(n):查看DataFrame對象的前n行
  • df.tail(n):查看DataFrame對象的最后n行
  • df.info():查看索引、數(shù)據(jù)類型和內(nèi)存信息
  • df.shape:查看行數(shù)和列數(shù)
  • df.describe():查看數(shù)值型列的匯總統(tǒng)計(jì)
  • df.dtypes:每一列數(shù)據(jù)的格式
  • df.isnull():查看某一列空值
  • df.columns :查看列名稱
  • df.values:查看數(shù)據(jù)表的值
  • df['B'].unique():查看某一列的唯一值
  • s.value_counts():查看Series對象的唯一值和計(jì)數(shù)
  • df.apply(pd.value_counts).fillna(0):查看DataFrame對象中每一列的唯一值和計(jì)數(shù),并對NA填充0

六、數(shù)據(jù)選取:

  • df[col]:根據(jù)列名,并以Series的形式返回列
  • df[[col1, col2]]:以DataFrame形式返回多列
  • df[n:m]:以DataFrame形式返回n到m-1行
  • df.loc[val]:根據(jù)標(biāo)簽選擇單行或多行
  • df.loc[:,val]:根據(jù)標(biāo)簽選擇單列或多列
  • df.loc[val1,val2]:同時(shí)選擇行和列的一部分
  • df.iloc[where]:根據(jù)整數(shù)位置選擇單行或多行
  • df.iloc[:,where]:根據(jù)整數(shù)位置選擇單列或多列
  • df.iloc[where_i,where_j]:根據(jù)整數(shù)位置選擇行和列

*loc切片是首尾閉區(qū)間;iloc切片是首閉尾開

七、數(shù)據(jù)清洗:

  • df.columns = ['a','b','c']:重命名列名
  • pd.isnull():檢查DataFrame對象中的空值
  • pd.notnull():檢查DataFrame對象中的非空值
  • df.dropna():刪除所有包含空值的行
  • df.dropna(axis=1):刪除所有包含空值的列
  • df.dropna(axis=1,thresh=n):刪除所有小于n個非空值的行
  • df.fillna(x):用x替換DataFrame對象中所有的空值
  • s.astype(float):將Series中的數(shù)據(jù)類型更改為float類型
  • s.replace(1,'one'):用‘one’代替所有等于1的值
  • s.replace([1,3],['one','three']):用'one'代替1,用'three'代替3
  • df.rename(columns=lambda x: x + 1):批量更改列名
  • df.rename(columns={'old_name': 'new_ name'}):選擇性更改列名
  • df.set_index('column_one'):更改索引列
  • df.rename(index=lambda x: x + 1):批量重命名索引
  • df.drop_duplicates() :刪除后出現(xiàn)的重復(fù)值
  • df.drop_duplicates(keep='last'):刪除先出現(xiàn)的重復(fù)值
  • df.drop_duplicates(['k1']) :基于k1列刪除重復(fù)值
  • df['city']=df['city'].map(str.strip)
  • pd.cut(data,4) :分箱

八、數(shù)據(jù)處理:

  • df[df[col] > 0.5]:選擇col列的值大于0.5的行
  • df.sort_values(col1):按照列col1排序數(shù)據(jù),默認(rèn)升序排列
  • df.sort_values(col2, ascending=False):按照列col1降序排列數(shù)據(jù)
  • df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列數(shù)據(jù)
  • df.groupby(col):返回一個按列col進(jìn)行分組的Groupby對象
  • df.groupby([col1,col2]):返回一個按多列進(jìn)行分組的Groupby對象
  • df.groupby('city')['id'].count() :按城市對id字段進(jìn)行計(jì)數(shù)
  • df.groupby('city')['price'].agg([np.sum, np.mean]):對city字段進(jìn)行匯總,并分別計(jì)算prince的合計(jì)和均值
  • df.pivot_table(index=col1,values=[col2,col3], aggfunc=max):創(chuàng)建一個按列col1進(jìn)行分組,并計(jì)算col2和col3的最大值的數(shù)據(jù)透視表
  • df.groupby(col1).agg(np.mean):返回按列col1分組的所有列的均值
  • data.apply(np.mean):對DataFrame中的每一列應(yīng)用函數(shù)np.mean
  • data.apply(np.max,axis=1):對DataFrame中的每一行應(yīng)用函數(shù)np.max

九、數(shù)據(jù)合并:

  • df1.append(df2):將df2中的行添加到df1的尾部
  • pd.concat([df1, df2],axis=1):將df2中的列添加到df1的尾部
  • df1.join(df2,on=col1,how='inner'):對df1的列和df2的列執(zhí)行SQL形式的join
  • pd.merge(df1,df2,on='key') : 按指定連接鍵合并

*pd.concat():join接收inner或outer。表示其他軸向上的索引是按交集(inner)還是并集(outer)進(jìn)行合并。默認(rèn)為outer。當(dāng)axis=1的時(shí)候,concat做行對齊,然后將不同列名稱的兩張或多張表合并。當(dāng)兩個表索引不完全一樣時(shí),可以使用join參數(shù)選擇是內(nèi)連接還是外連接。在內(nèi)連接的情況下,僅僅返回索引重疊部分。在外連接的情況下,則顯示索引的并集部分?jǐn)?shù)據(jù),不足的地方則使用空值填補(bǔ)。axis=0時(shí)同理

*df.append():append方法也可以用于縱向合并兩張表。但是append方法實(shí)現(xiàn)縱向表堆疊有一個前提條件,那就是兩張表的列名需要完全一致

*pd.merge()常用參數(shù):

十、數(shù)據(jù)統(tǒng)計(jì):

  • df.describe():查看數(shù)據(jù)特征的匯總統(tǒng)計(jì)
  • df.mean():返回所有列的均值
  • df.corr():返回列與列之間的相關(guān)系數(shù)
  • df.count():返回每一列中的非空值的個數(shù)
  • df.max():返回每一列的最大值
  • df.min():返回每一列的最小值
  • df.idxmin():返回最小值所在的索引標(biāo)簽
  • df.argmin():返回最小值所在的索引位置
  • df.median():返回每一列的中位數(shù)
  • df.std():返回每一列的標(biāo)準(zhǔn)差

*傳入axis=’columns'或者axis=1,則會對一行上各列值進(jìn)行操作。

除非整個切片都是NA,否則NA值是自動被排除的,可以通過禁用skipna來實(shí)現(xiàn)不排除NA值:skipna=False


文末福利:

網(wǎng)上可以搜到大量的Pandas教程和官方文檔,但沒有簡單的方法來練習(xí)。教程是很好的資源,但要付諸實(shí)踐。只有實(shí)踐,才能更好的加深學(xué)習(xí)。針對pandas庫函數(shù)的一些常用用法,本站搜索到了一些關(guān)于Pandas的練習(xí)題含答案,每一個類型包含了相應(yīng)的練習(xí)數(shù)據(jù)、題目、注釋以及解答等4個文件。大家可以根據(jù)自己的薄弱點(diǎn)針對性訓(xùn)練,相信一定能有所提高!

點(diǎn)贊,評論,轉(zhuǎn)發(fā),后臺回復(fù)【Pandas學(xué)習(xí)】即可獲得這些練習(xí)題資料!

總結(jié)

以上是生活随笔為你收集整理的pandas 合并所有列_Python学习:Pandas库+练习资料的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。