當(dāng)前位置:
首頁 >
数据分析与挖掘-python常用数据预处理函数
發(fā)布時間:2024/4/11
39
豆豆
生活随笔
收集整理的這篇文章主要介紹了
数据分析与挖掘-python常用数据预处理函数
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
數(shù)據(jù)預(yù)處理往往在數(shù)據(jù)分析和數(shù)據(jù)挖掘領(lǐng)域占到了很大的比重,甚至在機器學(xué)習(xí)這些海量數(shù)據(jù)處理的場合,數(shù)據(jù)預(yù)處理也是最核心的工作。介紹幾個預(yù)處理階段常用的庫函數(shù)。
1.interpolate
插值函數(shù),Scipy的子庫,包含大量的插值函數(shù),如拉格朗日插值,樣條插值,高維插值等。
示例代碼:
from scipy.interpolate import * f = scipy.interpolate.lagrange(x,y) # 其中x和y分別為自變量和因變量數(shù)據(jù)2.unique
numpy庫函數(shù),也是Pandas中Series對象的一個方法。
示例代碼:
import numpy as np import pandas as pd data = [1, 2, 3] # data可以是list,ndarray,Series np.unique(data) data =pd.Series(data) data.unique()3.random
numpy的子庫,生成特定分布的隨機矩陣。
示例代碼:
import numpy as np np.random.randn(k, m, n) # 生成k*m*n的隨機矩陣,元素服從正態(tài)分布4.isnull/notnumm
Series對象的方法,返回布爾Series。
示例代碼:
import pandas as pd data = pd.Series() D.isnull() D[D.notnull()]5.PCA
主成分分析函數(shù),是Scikit-Learn下的建模對象。
示例代碼:
from sklearn.decomposition import PCA import numpy as np D = np.random.rand(10,4) pca = PCA() pca.fit(D) PCA(copy=True, n_components=Noone, whiten=False) # 輸出模型的特征向量 print(pca.components_) # 輸出各個成分各自的方差百分比 print(pca.explained_variance_ratio_)具體代碼包括實戰(zhàn)項目可以查看我的github。
總結(jié)
以上是生活随笔為你收集整理的数据分析与挖掘-python常用数据预处理函数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析与挖掘-python常用数据探索
- 下一篇: Python配置-virtualenv和