當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘 —— 探索性数据分析

發(fā)布時(shí)間：2025/3/21 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘 —— 探索性数据分析小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)挖掘 —— 探索性數(shù)據(jù)分析

1. 統(tǒng)計(jì)檢驗(yàn)
- 1.1 正態(tài)性檢驗(yàn)
- 1.2 卡方檢驗(yàn)
- 1.3 獨(dú)立分布t檢驗(yàn)
- 1.4 方差檢驗(yàn)
- 1.5 Q-Q圖
- 1.6 相關(guān)系數(shù)
2 單因素分析
- 2.1 線性回歸
- 2.2 PCA 奇異值分解
- 2.3 主成分分析（PCA自定義實(shí)現(xiàn)）
3 復(fù)合分析
- 3.1 分組分析
- 3.1.1 離散數(shù)據(jù)分組
- 3.1.2 連續(xù)數(shù)據(jù)分組
- 3.1.3 不純度（GiNi系數(shù)）
- 3.2 相關(guān)分析
4 因子分析（成分分析）

1. 統(tǒng)計(jì)檢驗(yàn)

1.1 正態(tài)性檢驗(yàn)

用于檢驗(yàn)數(shù)據(jù)是否符合正態(tài)性分布

# 生成正態(tài)分布的觀測(cè)數(shù)據(jù) norm_data = ss.norm.rvs(loc = 0,scale = 1,size = int(10e6)) # loc為均值，scale為標(biāo)準(zhǔn)差，size為生成數(shù)據(jù)個(gè)數(shù)，可以為元組 ss.normaltest(norm_data)

1.2 卡方檢驗(yàn)

常用作檢驗(yàn)兩個(gè)樣本數(shù)據(jù)之間是否有較強(qiáng)聯(lián)系

ss.chi2_contingency([[15,95],[85,5]])

1.3 獨(dú)立分布t檢驗(yàn)

常用作比較均值是否有相異性,不要求兩個(gè)樣本之間數(shù)據(jù)量一致

ss.ttest_ind(ss.norm.rvs(size = 500),ss.norm.rvs(size = 1000))

1.4 方差檢驗(yàn)

常用作檢驗(yàn)多組樣本數(shù)據(jù)之間的均值是否有差異

ss.f_oneway(ss.norm.rvs(size = 5000),ss.norm.rvs(size = 10000),ss.norm.rvs(size = 5000))

1.5 Q-Q圖

橫軸為：標(biāo)準(zhǔn)分布的分位數(shù)值（默認(rèn)為正態(tài)分布）
縱軸為：已知分布的分位數(shù)的值
數(shù)據(jù)集中在對(duì)角線上則說明越符合正態(tài)分布

from statsmodels.graphics.api import qqplot import matplotlib.pyplot as plt qqplot(ss.norm.rvs(size = 50)) plt.close() # plt.show()

1.6 相關(guān)系數(shù)

pearson相關(guān)系數(shù)和具體數(shù)值有關(guān)
spearman相關(guān)系數(shù)和名次差有關(guān)，運(yùn)用于相對(duì)比較的情況

s1 = pd.Series(np.random.randn(10)) s2 = pd.Series(np.random.randn(10)) s1.corr(s2,method = "spearman") df = pd.DataFrame(np.array([s1,s2]).T) df.corr()

2 單因素分析

2.1 線性回歸

求解方法:最小二乘法
關(guān)鍵指標(biāo)：

決定系數(shù): [0,1],越接近于1，回歸效果越好

殘差不相關(guān)（DW檢驗(yàn)）：[0,4],DW = 2 回歸效果好，即殘差不相關(guān)，0負(fù)相關(guān)，4正相關(guān)

# 一元線性回歸 from sklearn.linear_model import LinearRegression as LR from sklearn.cross_validation import train_test_split x = np.arange(50).astype(np.float).reshape(-1,1) y = 3*x + 2+5*np.random.random((50,1)) x_train,x_test,y_train,y_test = train_test_split(x,y,train_size = 0.8) lr = LR() lr.fit(x_train,y_train) # 線性擬合 y_pre = lr.predict(x) # 擬合模型進(jìn)行預(yù)測(cè) plt.scatter(x_train,y_train,color = "b") plt.scatter(x_test,y_test,color = "y") plt.plot(x,y_pre,color = "r") plt.close() lr.coef_ # 斜率 lr.intercept_ #截距 lr.score(x_test,y_test) # 決定系數(shù)

2.2 PCA 奇異值分解

sklearn自帶的PCA方法使用的是奇異值分解

from sklearn.decomposition import PCA decom = PCA(n_components = 1) data = np.random.random((50,2)) decom.fit(data) decom.explained_variance_ratio_ # 降維后得到的信息量 decom.fit_transform(data) # 得到降維后的數(shù)據(jù)

2.3 主成分分析（PCA自定義實(shí)現(xiàn)）

def myPCA(data,n_components = 2):from scipy import linalg # linear algbra 線性代數(shù)data_cov = np.cov(data,rowvar = False)data_mean = np.mean(data,axis = 0)data_temp = data - data_meaneig_value,eig_vector = linalg.eig(np.mat(data_cov)) # eigen為特征的、固有的意思，linalg.eig為計(jì)算特征值和特征向量的函數(shù)eig_value_index = np.argsort(eig_value)[:-(n_components+1):-1]eig_vector = eig_vector[:,eig_value_index]data_decom = np.dot(data_temp,eig_vector) # np.dot和np.matmul都為矩陣乘法return data_decom,eig_value data = np.array([[2.5,0.5,2.2,1.9,3.1,2.3,2,1,1.5,1.1],[2.4,0.7,2.9,2.2,3,2.7,1.6,1.1,1.6,0.9]]).T myPCA(data,n_components = 1)

3 復(fù)合分析

3.1 分組分析

分組分析只是一種輔助手段

鉆取：分為向上鉆取和向下鉆取，向上鉆取即為匯總分析

分割：一階差分
拐點(diǎn)：二階差分
不純度：GiNi系數(shù)

3.1.1 離散數(shù)據(jù)分組

import seaborn as sns sns.barplot(data = df,x = "a",y = "b",hue = "c")

3.1.2 連續(xù)數(shù)據(jù)分組

sns.barplot(list(range(len(df['a']))),df['a'].sort_values())

3.1.3 不純度（GiNi系數(shù)）

針對(duì)目標(biāo)標(biāo)注的GiNi系數(shù)
選取GiNi系數(shù)接近于0的目標(biāo)標(biāo)注

# 定義概率平方和函數(shù)： def getProbSS(s):import pandas as pdimport numpy as npif not isinstance(s,pd.core.series.Series):s = pd.Series(s)return sum((pd.groupby(s,by = s).count().values/float(len(s)))**2)# 定義GiNi系數(shù)求取函數(shù) def getGiNi(s1,s2):"""其中s1為目標(biāo)標(biāo)注"""import pandas as pdimport numpy as npdict_temp = {}for i in range(len(s1)):dict_temp[s1[i]] = dict_temp.get(s1[i],[]) + [s2[i]]return 1 - sum([getProbSS(value)/float(len(value)) for value in dict_temp.values()]) s1 = ["x1","x1","x2","x2","x2","x2"] s2 = ["y1","y1","y1","y2","y2","y2"] getGiNi(s1,s2)

3.2 相關(guān)分析

相關(guān)性分析分為兩種：

連續(xù)數(shù)據(jù)的相關(guān)性分析 - 相關(guān)性系數(shù)

離散數(shù)據(jù)的相關(guān)性分析 - 基于熵定義的相關(guān)性系數(shù)

# __________離散數(shù)據(jù)相關(guān)系數(shù)的計(jì)算 s1 = ["x1","x1","x2","x2","x2","x2"] s2 = ["y1","y1","y1","y2","y2","y2"]# 定義計(jì)算熵的函數(shù) def getEntropy(s):"""熵是度量不確定性的指標(biāo)熵趨近于0，則不確定會(huì)很小。"""import pandas as pdimport numpy as npif not isinstance(s,pd.core.series.Series):s = pd.Series(s)prob_dist = pd.groupby(s,by = s).count().values/float(len(s))return -(prob_dist*np.log2(prob_dist)).sum()# 自定義計(jì)算條件熵的函數(shù) def getCondEntropy(s1,s2):"""在s1分布下分別對(duì)s2計(jì)算熵"""import pandas as pdimport numpy as npif not isinstance(s1,pd.core.series.Series):s1 = pd.Series(s1)if not isinstance(s2,pd.core.series.Series):s2 = pd.Series(s2)dict_temp = {}for i in np.arange(len(s1)):dict_temp[s1[i]] = dict_temp.get(s1[i],[]) + [s2[i]] return sum([getEntropy(value)*float(len(value))/float(len(s1)) for value in dict_temp.values()])# 自定義互信息即熵增益函數(shù) def getEntropyGain(s1,s2):"""計(jì)算由s1分布到s2的熵增益"""return getEntropy(s2) - getCondEntropy(s1,s2)# 自定義熵增益率系數(shù) def getEntropyGainRatio(s1,s2):return getEntropyGain(s1,s2)/getEntropy(s2)# 自定義熵相關(guān)度函數(shù) def getDiscreteRelation(s1,s2):"""計(jì)算離散變量的相關(guān)系數(shù)"""return getEntropyGain(s1,s2)/(getEntropy(s1)*getEntropy(s2))**0.5getDiscreteRelation(s1,s2)

4 因子分析（成分分析）

from factor_analyzer import FactorAnalyzer class CyrusFactorAnalysis():def __init__(self,logger=None):self.logger = loggerself.metric_tool = CyrusMetrics(logger=self.logger)self.plot_tool = PlotTool(self.logger)def select_factor_nums(self,data):self.standard_tool = StandardTool(data)std_data = self.standard_tool.transform_x(data)self.factor_tool = FactorAnalyzer(n_factors=data.shape[1], rotation="promax")var = self.factor_tool.get_factor_variance()save_to_excel()def run_factor_analysis(self,data,n_factor=2):self.standard_tool = StandardTool(data)std_data = self.standard_tool.transform_x(data)self.factor_tool = FactorAnalyzer(n_factors=n_factor, rotation="promax")process_data = self.factor_tool.fit_transform(std_data)factor_data = self.factor_tool.loadings_weights = self.factor_tool.weights_var = self.factor_tool.get_factor_variance()save_to_excel([(pd.DataFrame(factor_data),"載荷矩陣"),(pd.DataFrame(process_data),"歸因后結(jié)果"),(pd.DataFrame(weights),"歸因系數(shù)"),(pd.DataFrame(var),"方差解釋性")],path="FactorAnalysisResult_{}".format(datetime.datetime.now().strftime("%Y-%m-%d")))def transform(self,data):std_data = self.standard_tool.transform_x(data)factor_data = self.factor_tool.transform(std_data)return factor_datadef save_model(self):save_var(self.factor_tool,path="FactorAnalysisModel_{}".format(datetime.datetime.now().strftime("%Y-%m-%d")))

by CyrusMay 2022 04 05

總結(jié)

以上是生活随笔為你收集整理的数据挖掘 —— 探索性数据分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：数据挖掘 —— 数据预处理
下一篇：数据挖掘 —— 有监督学习（分类）