数据分析与挖掘-python常用数据预处理函数
生活随笔
收集整理的這篇文章主要介紹了
数据分析与挖掘-python常用数据预处理函数
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據預處理往往在數據分析和數據挖掘領域占到了很大的比重,甚至在機器學習這些海量數據處理的場合,數據預處理也是最核心的工作。介紹幾個預處理階段常用的庫函數。
1.interpolate
插值函數,Scipy的子庫,包含大量的插值函數,如拉格朗日插值,樣條插值,高維插值等。
示例代碼:
from scipy.interpolate import * f = scipy.interpolate.lagrange(x,y) # 其中x和y分別為自變量和因變量數據2.unique
numpy庫函數,也是Pandas中Series對象的一個方法。
示例代碼:
import numpy as np import pandas as pd data = [1, 2, 3] # data可以是list,ndarray,Series np.unique(data) data =pd.Series(data) data.unique()3.random
numpy的子庫,生成特定分布的隨機矩陣。
示例代碼:
import numpy as np np.random.randn(k, m, n) # 生成k*m*n的隨機矩陣,元素服從正態分布4.isnull/notnumm
Series對象的方法,返回布爾Series。
示例代碼:
import pandas as pd data = pd.Series() D.isnull() D[D.notnull()]5.PCA
主成分分析函數,是Scikit-Learn下的建模對象。
示例代碼:
from sklearn.decomposition import PCA import numpy as np D = np.random.rand(10,4) pca = PCA() pca.fit(D) PCA(copy=True, n_components=Noone, whiten=False) # 輸出模型的特征向量 print(pca.components_) # 輸出各個成分各自的方差百分比 print(pca.explained_variance_ratio_)具體代碼包括實戰項目可以查看我的github。
總結
以上是生活随笔為你收集整理的数据分析与挖掘-python常用数据预处理函数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析与挖掘-python常用数据探索
- 下一篇: Python配置-virtualenv和