核PCA——从理论到实现
核PCA——從理論到實現
1. PCA方法:
設X=[x1,x2,…xN],x∈Rd,為d維樣本空間的N個向量h=i。
協方差矩陣:C=1NXXT
可以做特征值分解C=UΛUT,其中U為特征矩陣,Λ是特征值矩陣。
若只保留k個維度,只需要以k個特征向量為基矢,將所有的向量向他們投影,就可以了。
對于二維的情況如下圖(來自wikipedia,[2])
圖中畫出了兩個特征向量,將所有點向特征向量上投影,就得到中心在0的,1維的點。
概念:
Principal component:主成分
From wikipedia: Principal component analysis?(PCA) is a statistical procedure that uses?orthogonal transformation?to convert a set of observations of possibly correlated variables into a set of values of?linearly uncorrelated?variables called?principal components.
PCA方法是一個統計學方法,它使用正交變換將可能存在相性相關關系的變量轉換為線性無關的變量,這些線性無關的向量稱為principal components。也就是說,在上圖中的兩個向量(也就是wikipedia所說的變量)為坐標的基矢,他們在樣本空間中是線性相關的,通過PCA方法,他們轉變為樣本空間中的兩個特征向量,他們在該樣本空間中是線性無關的(這是顯然的)。一種比較直觀的理解是,PCA方法找到特征值最大的基矢,使得樣本點在這些基矢上的投影的方差盡可能地大。
2. KPCA
主成份(Principal Component Analysis)分析是降維(Dimension Reduction)的重要手段。每一個主成分都是數據在某一個方向上的投影,在不同的方向上這些數據方差Variance的大小由其特征值(eigenvalue)決定。一般我們會選取最大的幾個特征值所在的特征向量(eigenvector),這些方向上的信息豐富,一般認為包含了更多我們所感興趣的信息。當然,這里面有較強的假設:(1)特征根的大小決定了我們感興趣信息的多少。即小特征根往往代表了噪聲,但實際上,向小一點的特征根方向投影也有可能包括我們感興趣的數據; (2)特征向量的方向是互相正交(orthogonal)的,這種正交性使得PCA容易受到Outlier的影響,例如在【1】中提到的例子(3)難于解釋結果。例如在建立線性回歸模型(Linear Regression Model)分析因變量(response)和第一個主成份的關系時,我們得到的回歸系數(Coefficiency)不是某一個自變量(covariate)的貢獻,而是對所有自變量的某個線性組合(Linear Combination)的貢獻。
在Kernel PCA分析之中,我們同樣需要這些假設,但不同的地方是我們認為原有數據有更高的維數,我們可以在更高維的空間(Hilbert Space)中做PCA分析(即在更高維空間里,把原始數據向不同的方向投影)。這樣做的優點有:對于在通常線性空間難于線性分類的數據點,我們有可能再更高維度上找到合適的高維線性分類平面。我們第二部分的例子就說明了這一點。
之前轉載了一篇博客,介紹了KPCA的推導,作者主要是參考、翻譯了另一篇客http://zhanxw.com/blog/2011/02/kernel-pca-原理和演示/,這里講KPCA的整個過程很詳細,還有R實現的代碼,很不錯!建議保存下來看,這個網站有時候上不去。
????理論明白了,如果想在matlab里實現KPCA或者真正去用它,可以參考如下兩個代碼:
????博客http://blog.sina.com.cn/s/blog_7671b3eb01012d9s.html中實現了KPCA的整個過程,但把特征向量的去單位化注釋掉了,實際上這段代碼是必要的(因為eig解得的特征向量是單位化的,但實際要求的向量長度不是1,詳見公式推導);代碼的最后還有新數據在特征空間的投影。
????還有一個實現的代碼是matlab exchange上的http://www.mathworks.com/matlabcentral/fileexchange/27319-kernel-pca,代碼的每一步都有英文說明,代碼挺規范的,只是最后沒有新數據向特征空間的投影代碼。
????上面的有助于加深對KPCA的理解,如果真正要用,可以用stprtool模式識別工具箱的kpca函數,使用很方便,如下例子,這段代碼用KPCA實現對一個二維圓的降維處理,可以看到效果很好:
% 3.3 Kernel Principal Component Analysis
clc
clear
close all
% generate circle data
X = gencircledata([1;1],5,250,1);
% compute kernel PCA
options.ker = 'rbf'; % use RBF kernel
options.arg = 4; % kernel argument
options.new_dim = 2; % output dimension
model = kpca(X,options);
XR = kpcarec(X,model); % compute reconstruced data
% Visualization
figure;
h1 = ppatterns(X);
h2 = ppatterns(XR, '+r');
legend([h1 h2],'Input vectors','Reconstructed');
?
????另嘗試編寫的一個代碼如下,實現對3類數據特征空間的聚類,如下圖,紅、綠、藍三種顏色分別表示3類數據,經過rbf核映射到新的空間后,分別聚成了3類:
????這里使用的是rbf核,還可以使用多項式核或sigmoid核,要想得到好的結果就要不斷改變核參數,rbf效果好調一些,sigmoid不易找到好的參數,多項式核在一些范圍效果不錯,但兩個參數調整需要好好找找,如下為一個多項式核函數的結果
????注意,如果你測試代碼,結果不一樣很正常,因為gencircledata函數產生的數據有隨機成分在。
% 3.3 Kernel Principal Component Analysis
clc
clear
close all
% generate circle data
X0 = gencircledata([1;1],1,250,0.1);
X1 = gencircledata([1;1],3,250,0.1);
X2 = gencircledata([1;1],6,250,0.1);
X0 = X0 - repmat(mean(X0, 2), 1, 250);
X1 = X1 - repmat(mean(X1, 2), 1, 250);
X2 = X2 - repmat(mean(X2, 2), 1, 250);
X = [X0 X1 X2];
y = [ones(1, size(X0, 2)) 2*ones(1, size(X1, 2)) 3*ones(1, size(X2, 2))];
data.X = X;
data.y = y;
figure
ppatterns(data);
% compute kernel PCA
kernelflag = 1;
if kernelflag == 1
????options.ker = 'rbf';
????options.arg = 2; % kernel argument
elseif kernelflag == 2
????options.ker = 'sigmoid';
????options.arg = [3 10]; % kernel argument
else
????options.ker = 'poly';
????options.arg = [2 0]; % kernel argument
end
options.new_dim = 2; % output dimension
model = kpca(data.X, options);
kpca_data = kernelproj(data, model);
figure
ppatterns(kpca_data);
核函數為高斯徑向基函數RBF的KPCA
function [train_kpca,test_kpca] = kpcaFordata(train,test,threshold,rbf_var)
%% Data kpca processing
%% 源地址:http://blog.sina.com.cn/lssvm
%% 函數默認設置
if nargin <4
rbf_var=10000;%?
end
if nargin <3
threshold = 90;
end
%%?數據處理
patterns=zscore(train); %訓練數據標準化
test_patterns=zscore(test); %測試數據標準化
train_num=size(patterns,1); %train_num是訓練樣本的個數
test_num=size(test_patterns,1);%test_num是測試樣本的個數
cov_size = train_num; %cov_size是訓練樣本的個數
%%?計算核矩陣
for i=1:cov_size,
for j=i:cov_size,
K(i,j) = exp(-norm(patterns(i,:)-patterns(j,:))^2/rbf_var); %核函數 rbf_var ??
K(j,i) = K(i,j);
end
end
unit = ones(cov_size, cov_size)/cov_size;%cov_size是樣本的個數
%%?中心化核矩陣
K_n = K - unit*K - K*unit + unit*K*unit;% 中心化核矩陣
%%?特征值分解
[evectors_1,evaltures_1] = eig(K_n/cov_size);
[x,index]=sort(real(diag(evaltures_1))); %sort每行按從小到大排序,x為排序后結果,index為索引
evals=flipud(x) ;% flipud函數實現矩陣的上下翻轉
index=flipud(index);
%%?將特征向量按特征值的大小順序排序
evectors=evectors_1(:,index);
%%?單位化特征向量
% for i=1:cov_size
% evecs(:,i) = evectors(:,i)/(sqrt(evectors(:,i)));
% end
train_eigval = 100*cumsum(evals)./sum(evals);
index = find(train_eigval >threshold);
train_kpca = zeros(train_num, index(1)); %train_num是訓練樣本的個數
%% evecs單位化后的特征矩陣,K_n訓練數據的中心化核矩陣
train_kpca=[K_n * evectors(:,1:index(1))];
%% 重建測試數據
unit_test = ones(test_num,cov_size)/cov_size;%cov_size是訓練樣本的個數
K_test = zeros(test_num,cov_size); %test_num是測試樣本的個數, cov_size是訓練樣本的個數
for i=1:test_num, %test_num是測試樣本的個數
for j=1:cov_size,%cov_size是訓練樣本的個數
K_test(i,j) = exp(-norm(test_patterns(i,:)-patterns(j,:))^2/rbf_var);
end
end
K_test_n = K_test - unit_test*K - K_test*unit + unit_test*K*unit;
test_kpca = zeros(test_num, index(1));%test_num是測試樣本的個數
test_kpca = [K_test_n * evectors(:,1:index(1))];
總結
以上是生活随笔為你收集整理的核PCA——从理论到实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习问题方法总结
- 下一篇: BP算法详谈