python骨灰技巧_Pandas技巧,某骨灰级Pythoner经验总结,呕心沥血!
原標題:Pandas技巧,某骨灰級Pythoner經驗總結,嘔心瀝血!
Python已迅速發展為數據科學家必備的編程語言。
python作為一種編程語言提供了更加優秀、寬闊的生體系統與深度的科學計算庫。
在科學計算庫中,Pandas對數據科學最為有效。Pandas、Scikit-learn幾乎供給了數據科學家所有工具。本文旨在分享Python中數據處理的方法。別的,還會分享一些讓你工作可以變得更便捷的技巧。
在學習前,提醒一下,如果你有過閱讀Python數據挖掘(data exploration)的代碼。有利于大家更好的理解文章內容。為了更好地理解,我使用了一個數據集來執行這些數據操作和處理。
數據集:我使用了貸款預測(Loan Prediction)問題的數據集。請先下載數據集,然后就可以開始了。
第一步
導入模塊、加載數據集、搭建Python環境:
布爾索引
假如說,想由另一列的條件來篩選某一列的值,我們要怎么做?比如,我們想獲取一份完整的沒有畢業并獲得貸款的女性名單。能夠利用布爾索引實現。
Python代碼:
Apply函數
Apply是一個我們經常會使用到的函數,作用是創建新變量、處理數據。當我們在利用某些函數傳遞一個數據幀的每一行或列的時候,Apply函數會返回相應的值。不管這個函數是系統自帶的,還是用戶定義的。
例如,它可以作用于找到任一列、行的缺失值。
利用這個,得到了我們想要的結果。
注:因為結果中包含很多行,所以第二個輸出中使用了head()函數。
填補缺失值
‘fillna()’只要一次就能夠解決:以整列的平均數、眾數、中位數來替換缺失值。基于其各自的眾數填補出“性別”、“婚姻”、“自由職業”列的缺失值。
第一步:導入函數來判斷眾數
成效前往眾數和其出現頻次。請注意,眾數可所以一個數組,由于高頻的值可能有多個。我們通常默認使用第一個:
結果返回眾數與它出現的頻率。眾數也可以是一個數組,因為高頻的值存在有多個的可能性。那么我們通常默認使用第一個:
now,我們可以填補缺失值并用Apply函數里提到的方法來檢驗,填補缺失值并再次檢查缺失值,是否已經確認。
透視表
Pandas能夠用來創建MS Excel風格的透視表。比如說,在本例中一個關鍵列是“貸款數額”有缺失值,能夠根據“性別”,“婚姻狀況”和“自由職業”分組后的平均金額來進行替換。 那么“貸款數額”的各組均值怎么確定呢?
多索引
如果你看到了“填補缺失值”的輸出結果,它有一個特殊的特征。每一個索引都是由3個值組合構成的。這個就是多索引。可以幫我們快速執交運算。
從“填補缺失值”的例子中開始,我們有每個組的均值,但還沒有被填補。
這可以使用到如今為止學習到的各類技巧來處理,只在缺失貸款值的行中來迭代并再次檢驗確認。
關鍵:
1. 多索引必須在loc里講明的定義分組的索引元組。此元組能夠在函數中利用到。
2. values[0]這個后綴是必須的,默認情況下元素返回的索引和原數據框的索引不匹配,直接賦值會報錯。
交叉表
這個函數作用于獲取數據的一個第一“感受”(視圖)。在這里,可以驗證一些基本設想。比如說,在這個例子中,“信用記錄”被認為是最明顯影響貸款狀況。這可以使用交叉表驗證,如下圖所示:
這些數據都是取的絕對值,用百分比更直觀。可以利用apply 函數實現:
說到了Pandas的不同函數,一些能夠讓我們在探索Python數據和功能設計上更加舒適的函數。而且,我們定義了一些通用函數,可以循環利用,在不同的數據集上達到差不多的結果。
喜歡的話關注收藏評論轉發比心么么噠!Python學習交流企-鵝-裙-588+090+942,裙內有大量的項目開發和新手教學視頻PDF書籍的千人大群等著你來加入返回搜狐,查看更多
責任編輯:
總結
以上是生活随笔為你收集整理的python骨灰技巧_Pandas技巧,某骨灰级Pythoner经验总结,呕心沥血!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JAVA入门级教学之(package和i
- 下一篇: c 程序中的注释相当于空白字符_Pyth