唐宇迪学习笔记2:Python数据分析处理库——pandas
目錄
一、Pandas工具包使用
二、數據信息讀取與展示
.info:返回當前的信息
.index:?索引
?.coulums :列名。每列第一個是列名,后面是數據。
.types:數據類型
.value :打印列名,結構是數組格式。
創建dataframe結構?
三、索引方法
Pandas索引結構
bool類型的索引
四、groupby函數使用方法
python
groupby
取均值
groupby:統計數據
五、數值運算
求和
平均數
最大最小值
?二元統計
協方差
?相關系數(對角陣,對角線是1)
value_counts(): 統計數有多少個
?bins:劃分情況
六、對象操作?
?Series結構的增刪改查(Series:一列數據)
查操作:
改操作(.copy防止改錯了)
增操作
刪操作
?DataFrame結構的增刪改查
查操作是類似的
改操作
?增操作
刪操作
七、merge合并操作
??八、pivot數據透視表
顯示設置
美觀展示
精度設置:(默認取6位)?
pivot操作?
設置一個數據透視表
九、時間操作
.to_datetime():轉換成時間的標準格式
Series():構建時間序列:?
??resample:時間重采樣
畫圖操作
十、apply自定義函數
自定義apply()函數?
?統計每一列的缺失值:
統計不同的船艙等級?
判斷年齡?
十一、常規操作
??sort_values(): 排序
sort_values(by=‘’) :按照哪個列進行排序
?drop_duplications():去除重復id/去除同類項
replace:替換操作
?cut:自定義取數據(對連續值進行離散化)
cut屬性值替換
?.isnull():空值判斷?
?.fillna():缺值填充(將所有缺失值填充為5)
?定位到缺失值,帶有缺失值的樣本
十二、字符串操作
lower():小寫轉換
upper():大寫轉換
?len():計算字符的長度
?strip():去除空格(lstrip():去左空格;rstrip():去右空格)
replace():替換/字符數據的預處理
split():切分
contains():?判斷是否包含尾綴/前綴/數字/...
get_dummies():?經常在關聯分析時使用?
pandas工具包:把numpy中很多命令整合在了一起。
一、Pandas工具包使用
df:DataFrame (矩陣。行:樣本;列:特征)
?.head():可以讀取前幾條數據,指定前幾條都可以(默認前五條)
??.tail():同.head(),可以讀取后幾條數據。
幫助文檔:
二、數據信息讀取與展示
.info:返回當前的信息
.index:?索引
.coulums :列名。每列第一個是列名,后面是數據。
.types:數據類型
.value :打印列名,結構是數組格式。
創建dataframe結構?
- 指定一個字典結構,key:當前列名;value:對應key的值,是list結構。
注:格式對應起來??罩?#xff1a;np.nan
取指定的數據:
?series:dataframe中的一行/列
?
索引我們可以自己指定
????????未指定前:
??????????指定后:
?????????通過名字定位:
.describe():可以得到數據的基本統計特性?(只有數值數據計算得到的結果。包括計數、均值、方差等)
三、索引方法
Pandas索引結構
- loc 用label來去定位
可以定位人名、非位置的時候使用loc。傳入的是描述。
- iloc 用position來去定位
傳入的是值。
bool類型的索引
用ture或這false來取數
定位到ture的值
?找到男性:
?性別為男性的平均年齡:
四、groupby函數使用方法
eg:找到所有A的data之和
python
groupby
取均值
??
groupby:統計數據
- 統計數據文件中男女的平均年齡
- 統計數據文件中不同性別獲救的可能性
五、數值運算
與numpy中本質上沒有區別。
求和
平均數
最大最小值
?二元統計
協方差
?相關系數(對角陣,對角線是1)
value_counts(): 統計數有多少個
(升序:ascending=true;降序:ascending=false)
?bins:劃分情況
六、對象操作?
?Series結構的增刪改查(Series:一列數據)
查操作:
改操作(.copy防止改錯了)
增操作
刪操作
?DataFrame結構的增刪改查
查操作是類似的
改操作
增操作
刪操作
七、merge合并操作
?
合并:
?默認情況下,會把合并兩個表中共有的傳入。
為了不丟失數據,(how='outer' :顯示所有;how=‘left’:顯示左表;how=‘right’:顯示右表)
?八、pivot數據透視表
顯示設置
pandas API文檔:pandas.set_option — pandas 1.4.1 documentation
美觀展示
?
??
精度設置:(默認取6位)?
?
pivot操作?
設置一個數據透視表
?
每一項花費在每個月的平均是多少,使用pivot(index:想統計的指標;columns:想通知指標的屬性;values:按著什么方式統計)
?求和:
??統計不同性別在不同船艙等級上的花費?
?求最大:?
?把年齡小于18的賦值給Underaged
?
九、時間操作
?
.to_datetime():轉換成時間的標準格式
?
Series():構建時間序列:?
?通過時間指出當前數據:
?取月份:
?
??resample:時間重采樣
畫圖操作
十、apply自定義函數
自定義apply()函數?
優點:可以自己指定當前對那哪個樣本執行什么操作。
?統計每一列的缺失值:
統計不同的船艙等級?
判斷年齡?
十一、常規操作
?sort_values(): 排序
sort_values(by=‘’) :按照哪個列進行排序
?drop_duplications():去除重復id/去除同類項
replace:替換操作
?cut:自定義取數據(對連續值進行離散化)
cut屬性值替換
?.isnull():空值判斷?
?.fillna():缺值填充(將所有缺失值填充為5)
?定位到缺失值,帶有缺失值的樣本
十二、字符串操作
lower():小寫轉換
upper():大寫轉換
?len():計算字符的長度
?strip():去除空格(lstrip():去左空格;rstrip():去右空格)
?
replace():替換/字符數據的預處理
split():切分
contains():?判斷是否包含尾綴/前綴/數字/...
get_dummies():?經常在關聯分析時使用
總結
以上是生活随笔為你收集整理的唐宇迪学习笔记2:Python数据分析处理库——pandas的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: web前端【补充】CSS补充
- 下一篇: python操作word 查找_Pyth