當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据降维之PCA（主成分分析）

發(fā)布時間：2024/3/24 编程问答 69 豆豆

生活随笔收集整理的這篇文章主要介紹了数据降维之PCA（主成分分析）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文代碼及數(shù)據(jù)集來自《Python大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)商業(yè)案例實戰(zhàn)》

如果特征變量的數(shù)量非常多（如成百上千個特征變量），我們往往需要進(jìn)行數(shù)據(jù)降維。降維的方法主要有選擇特征和抽取特征兩種：選擇特征是從原有的特征中挑選出最佳的特征；抽取特征則是將數(shù)據(jù)由高維向低維投影，進(jìn)行坐標(biāo)的線性轉(zhuǎn)換。PCA即為典型的抽取特征的方法，它不僅是對高維數(shù)據(jù)進(jìn)行降維，更重要的是經(jīng)過降維去除噪聲，發(fā)現(xiàn)數(shù)據(jù)中的模式。

基本用法

# 三維空間降維Python代碼實現(xiàn) import pandas as pd X = pd.DataFrame([[45, 0.8, 9120], [40, 0.12, 2600], [38, 0.09, 3042], [30, 0.04, 3300], [39, 0.21, 3500]], columns=['年齡(歲)', '負(fù)債比率', '月收入(元)']) print(X)

運(yùn)行結(jié)果：

# 對3個維度的特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化 from sklearn.preprocessing import StandardScaler X_new = StandardScaler().fit_transform(X) print(X_new)from sklearn.decomposition import PCA pca = PCA(n_components=2) # 設(shè)置PCA模型的參數(shù)n_components為2，即將三維數(shù)據(jù)降為二維數(shù)據(jù) pca.fit(X_new) # 對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行模型訓(xùn)練 X_transformed = pca.transform(X_new) # 對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行降維 print(X_transformed)print(pca.components_) # 獲取線性組合系數(shù)

運(yùn)行結(jié)果：

可以看到，pca.components_是一個二維數(shù)組，第1個元素中的3個數(shù)對應(yīng)的是下述公式中的系數(shù)a11、a12、a13，第2個元素中的3個數(shù)對應(yīng)的是下述公式中的系數(shù)a21、a22、a23。

# 打印降維過程中原始特征的線性組合公式 dim = ['年齡(歲)', '負(fù)債比率', '月收入(元)'] for i in pca.components_:formula = []for j in range(len(i)):formula.append(str(i[j]) + ' * ' + dim[j])print(" + ".join(formula))dim = ['X', 'Y', 'Z'] index = 1 for i in pca.components_:formula = []for j in range(len(i)):formula.append(str(i[j]) + ' * ' + dim[j])print('F' + str(index) + ' = ' + " + ".join(formula))index += 1

運(yùn)行結(jié)果：

案例實戰(zhàn)：人臉識別模型

首先從照片數(shù)據(jù)集中導(dǎo)入需要識別的人臉照片，這里使用的數(shù)據(jù)集是紐約大學(xué)提供的公開人臉數(shù)據(jù)庫Olivetti Faces。原圖是一整張圖片，含有40個人的臉部照片，每人10張。筆者將其拆分成400張jpg格式的圖片，放在本案例代碼所在的文件夾下的olivettifaces文件夾中，并按一定的規(guī)則對圖片的文件名進(jìn)行整理。以“10_0.jpg”為例，10代表編號為10的人的圖片，“_”是第1部分和第3部分的分隔符，0代表這個人的10張圖片中編號為0的那一張，“.jpg”為文件擴(kuò)展名。

# 1.讀取人臉照片數(shù)據(jù) import os names = os.listdir('olivettifaces') print(names[0:5])

運(yùn)行結(jié)果：[‘10_0.jpg’, ‘10_1.jpg’, ‘10_2.jpg’, ‘10_3.jpg’, ‘10_4.jpg’]

# 讀取第一張圖片 from PIL import Image img0 = Image.open('olivettifaces\\' + names[0]) #img0.show()# 2.人臉數(shù)據(jù)處理 - 特征變量提取 import numpy as np img0 = img0.convert('L') # 參數(shù)'L'指轉(zhuǎn)換成灰度格式的圖像 img0 = img0.resize((32, 32)) # 調(diào)整圖像尺寸為32×32像素 arr = np.array(img0) # 將這1024個像素點的灰度值轉(zhuǎn)換為一個二維數(shù)組import pandas as pd print(pd.DataFrame(arr))

運(yùn)行結(jié)果：

# 上面獲得的32×32的二維數(shù)組還需要轉(zhuǎn)換成1×1024格式才能用于數(shù)據(jù)建模 arr = arr.reshape(1, -1) print(arr) # 將1×1024的二維數(shù)組降維成一維數(shù)組，并用tolist()函數(shù)將其轉(zhuǎn)換為列表 print(arr.flatten().tolist())

這樣就完成了第1張圖片的圖像數(shù)據(jù)到數(shù)值類型數(shù)據(jù)的轉(zhuǎn)換，為方便大家理解，可以將這個列表表達(dá)成下表的形式，第1張圖片共有1024個特征變量，每個變量為不同像素點的灰度值。

將上述方法結(jié)合for循環(huán)，就可以將所有人臉圖片的圖像數(shù)據(jù)都轉(zhuǎn)換成數(shù)值類型數(shù)據(jù)，從而構(gòu)造相應(yīng)的特征變量，代碼如下。

X = [] for i in names:img = Image.open('olivettifaces\\' + i)img = img.convert('L')img = img.resize((32, 32))arr = np.array(img)X.append(arr.reshape(1, -1).flatten().tolist()) # 將每張圖片的灰度值添加到X列表中# 將其轉(zhuǎn)換為DataFrame格式再進(jìn)行查看 import pandas as pd X = pd.DataFrame(X) print(X)# 查看這些數(shù)據(jù)的行列數(shù) print(X.shape)

運(yùn)行結(jié)果：

首先來提取第1張人臉圖片的目標(biāo)變量。該圖片的文件名為10_0.jpg，其中的10是該圖片對應(yīng)的人的編號，即我們所需要的目標(biāo)變量。其中names[0]為第1張圖片的文件名10_0.jpg，split()函數(shù)根據(jù)“_”號將文件名分割為2個部分，通過[0]提取第1部分，即人的編號10。split()函數(shù)分割字符串得到的仍是字符串，但是目標(biāo)變量y需要為數(shù)字，所以需要用int()函數(shù)將字符串轉(zhuǎn)換為數(shù)字。

print(int(names[0].split('_')[0]))

將上述方法結(jié)合for循環(huán)，便能提取400張人臉圖片的目標(biāo)變量了。

y = [] for i in names:img = Image.open('olivettifaces\\' + i)y.append(int(i.split('_')[0])) print(y)

運(yùn)行結(jié)果：

# 數(shù)據(jù)劃分與降維 # 1.劃分訓(xùn)練集和測試集 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)# 2.PCA數(shù)據(jù)降維 from sklearn.decomposition import PCA pca = PCA(n_components=100) pca.fit(X_train)X_train_pca = pca.transform(X_train) X_test_pca = pca.transform(X_test)print(X_train_pca.shape) # 訓(xùn)練集為320行，100列 print(X_test_pca.shape) # 測試集為80行，100列# pd.DataFrame(X_train_pca).head() # pd.DataFrame(X_test_pca).head()# 模型的搭建與使用 # 1.模型搭建 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() # 建立KNN模型 knn.fit(X_train_pca, y_train) # 用降維后的訓(xùn)練集進(jìn)行訓(xùn)練模型# 2.模型預(yù)測 y_pred = knn.predict(X_test_pca) # 用降維后的測試集進(jìn)行測試 print(y_pred) # 將對測試集的預(yù)測結(jié)果打印出來import pandas as pd a = pd.DataFrame() # 創(chuàng)建一個空DataFrame a['預(yù)測值'] = list(y_pred) a['實際值'] = list(y_test) a.head() # 查看表格前5行from sklearn.metrics import accuracy_score score = accuracy_score(y_pred, y_test) print(score)score = knn.score(X_test_pca, y_test) print(score)

運(yùn)行結(jié)果：

# 模型對比（數(shù)據(jù)降維與不降維） from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() # 建立KNN模型 knn.fit(X_train, y_train) # 不使用數(shù)據(jù)降維，直接訓(xùn)練 y_pred = knn.predict(X_test) # 不使用數(shù)據(jù)降維，直接測試from sklearn.metrics import accuracy_score score = accuracy_score(y_pred, y_test) print(score)

在本例中降維的模型與不降維的模型得分差不多。本案例的數(shù)據(jù)量并不大，當(dāng)數(shù)據(jù)量更大時，利用PCA進(jìn)行數(shù)據(jù)降維會發(fā)揮更大的作用。

總結(jié)

以上是生活随笔為你收集整理的数据降维之PCA（主成分分析）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2048小游戏html制作,[ 逻辑锻炼
下一篇： ZOJ-2520

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

数据降维之PCA（主成分分析）

基本用法

案例實戰(zhàn)：人臉識別模型

總結(jié)