Reducing the Dimensionality of Data with Neural Networks:神经网络用于降维
????? 原文鏈接:http://www.ncbi.nlm.nih.gov/pubmed/16873662/
???? G. E. Hinton* and R. R. Salakhutdinov . ? Science. 2006 Jul 28;313(5786):504-7.
Abstract
????? ? High-dimensional data can be converted to low-dimensional codes by training a multilayer neural network with a small central layer to reconstruct high-dimensional input vectors. Gradient descent can be used for fine-tuning the weights in such "autoencoder" networks, but this works well only if the initial weights are close to a good solution. We describe an effective way of initializing the weights that allows deep autoencoder networks to learn low-dimensional codes that work much better than principal components analysis as a tool to reduce the dimensionality of data.
Comment in
- Computer science. New life for neural networks. [Science. 2006]
摘要:
??????? 高維數(shù)據(jù)通過(guò)使用一個(gè)小中心層(神經(jīng)元個(gè)數(shù)小于維數(shù))的多層神經(jīng)網(wǎng)絡(luò)(稀疏編碼?)可以轉(zhuǎn)換為低維數(shù)據(jù) ,并可以通過(guò)此網(wǎng)絡(luò)重建輸入向量。梯度下降法可以用于在這個(gè)“自編碼網(wǎng)絡(luò)“? 調(diào)整參數(shù) ,只是這種機(jī)理?只在?初始權(quán)值?接近最優(yōu)參數(shù)?時(shí)有效 。?我們?cè)O(shè)計(jì)出一個(gè)初始化權(quán)值的 有效方法,允許sleep 自編碼器網(wǎng)絡(luò)可以?學(xué)習(xí)低維表示 ,并且在降維的效果上好于主成分分析。
?????? 特征降維廣泛應(yīng)用于分類(lèi)、可視化、通信和高緯數(shù)據(jù)存儲(chǔ)過(guò)程。一個(gè)簡(jiǎn)單和廣泛應(yīng)用的降維方法是主成分分析PCA,他通過(guò)尋找數(shù)據(jù)集合最大偏差方向?并?映射數(shù)據(jù)集到此方向,獲得主成分。我們描述了一個(gè)非線性PCA產(chǎn)生方法,使用動(dòng)態(tài)的多層編碼器網(wǎng)絡(luò)?轉(zhuǎn)化高緯數(shù)據(jù)到低維數(shù)據(jù),并且可以使用一個(gè)?類(lèi)似的自編碼網(wǎng)絡(luò)?可以從?低維數(shù)據(jù)恢復(fù)出元數(shù)據(jù)。(使用壓縮表示,用數(shù)據(jù)預(yù)訓(xùn)練——獲取近似最優(yōu)權(quán)值,用以生成可以刻畫(huà)樣本隱含性質(zhì)的壓縮結(jié)構(gòu))
Fig. 1. Pretraining consists of learning a stack of restricted Boltzmann machines (RBMs), each having only one layer of feature detectors. The learned feature activations of one RBMare used as the ‘‘data’’ for training the next RBM in the stack. After the pretraining, the RBMs are ‘‘unrolled’’ to create a deep autoencoder, which is then fine-tuned using backpropagation of error derivatives.
??????? 預(yù)處理包含了?學(xué)習(xí) 一個(gè)?受限玻爾茲曼機(jī)棧(?堆疊的RBM),每一個(gè)只有一層特征監(jiān)測(cè)子。一層RBM學(xué)習(xí)過(guò)的數(shù)據(jù)作為下一層RBM的輸入,然后使用BP算法調(diào)整參數(shù)。
??????? 初始化:隨機(jī)產(chǎn)生兩個(gè)網(wǎng)絡(luò)的權(quán)值,他們可以?同時(shí) 使用?最小化偏差(原數(shù)據(jù)和重建數(shù)據(jù))方法進(jìn)行訓(xùn)練。梯度可以?由先通過(guò)解碼網(wǎng)絡(luò)再經(jīng)過(guò)編碼網(wǎng)絡(luò)反傳導(dǎo)數(shù)誤差鏈獲得。整個(gè)系統(tǒng)叫做”自編碼器“,在圖表1中?闡述。
?????? 優(yōu)化有多層網(wǎng)絡(luò)的?非線性自編碼器?是非常困難的(2–4),使用大量的初始大參數(shù),自編碼器容易陷入局部最優(yōu);使用小的初始化參數(shù),前幾層的梯度?較小,使自編碼器?的多層訓(xùn)練變得不可行。?若初始化權(quán)值接近一個(gè)最優(yōu)方案,梯度衰減可以正常運(yùn)行,但是尋找這一個(gè)近鄰最優(yōu)權(quán)值?需要一個(gè)特別的算法, 可以一次性訓(xùn)練一個(gè)特征提取層。?我們?yōu)槎M(jìn)制數(shù)據(jù)引入一個(gè)”預(yù)處理“過(guò)程,并推廣它到?實(shí)數(shù)數(shù)據(jù),結(jié)果顯示此過(guò)程適用于廣泛的數(shù)據(jù)集。
?????? 一個(gè)二進(jìn)制向量的組合(比如?一個(gè)圖片)可以使用 ”受限玻爾茲曼機(jī)RBM“?建模,使用對(duì)稱(chēng)加權(quán)連接? 隨機(jī)二進(jìn)制特征 到隨機(jī)二進(jìn)制特征探測(cè)器。像素點(diǎn)值對(duì)應(yīng)于RBM的“可見(jiàn)”元,因?yàn)?他們是可見(jiàn)的;特征探測(cè)子/描述子 對(duì)應(yīng)”隱藏“單元。一個(gè)?可見(jiàn)和隱藏單元?生成 聯(lián)合分布/配置(v,h)能量:
??????????????????????
where vi and hj are the binary states of pixel i and feature j, biand bjare their biases, and wij is the weight between them.
?這里vi 和 hj?為點(diǎn)i 和特征j 的二進(jìn)制狀態(tài), bi和 bj為他們的基,wij?為他們的權(quán)值。
?????? 網(wǎng)絡(luò)通過(guò)這個(gè)方程 分配一個(gè)概率到每一個(gè)可能的圖像,正如(8)解釋的。這個(gè)訓(xùn)練圖像的概率?可以 通過(guò)調(diào)整權(quán)值和基 以降低圖片的能量 產(chǎn)生,并生成相似的、”虛構(gòu)/構(gòu)建“?的圖片(更偏向于真實(shí)數(shù)據(jù)的網(wǎng)絡(luò))能量。
?????? 特征探測(cè)子 j 的二進(jìn)制狀態(tài) Hj?設(shè)定為1以 F(bj +Add(Vi*Wij) ) 的概率,在此F()是邏輯斯特函數(shù)(1/(1+exp(-x))),bj 是j的偏差,Vi是i的狀態(tài),Wij是i和j之間的權(quán)值。
?????? 一旦二進(jìn)制狀態(tài)被選定到隱藏元,一個(gè)?虛構(gòu)/構(gòu)建?產(chǎn)生?通過(guò)設(shè)定每一個(gè)Vi為1?以F(bj +?sigma(Vi*Wij)? )的概率,此時(shí)bi為i的偏差。隱藏元的權(quán)值被更新?以使他們可以?表示"虛構(gòu)/構(gòu)建" 的特征,權(quán)值更新通過(guò)公式
????????? 得出,
?????? 這里emuxilong?是學(xué)習(xí)率,<ViHi>data為分裂的次數(shù)(點(diǎn)i 和 特征檢測(cè)子j )當(dāng)特征檢測(cè)子受數(shù)據(jù)驅(qū)動(dòng),<ViHi>recon為”虛擬/構(gòu)建“ 的響應(yīng)速率。同樣的簡(jiǎn)化版本?的學(xué)習(xí)規(guī)則可用于偏差。這個(gè)學(xué)習(xí)過(guò)程工作良好即使它并不事實(shí)沿著訓(xùn)練數(shù)據(jù)(6)的邏輯概率?的梯度方向。
Fig. 2. (A) Top to bottom: Random samples of curves from the test data set; reconstructions produced by the six-dimensional deep autoencoder; reconstructions
by? ‘‘logistic PCA’’ (8) using six components; reconstructions by logistic PCA and standard PCA using 18 components. The average squared error per image for the last four rows is 1.44, 7.64, 2.45, 5.90.?
由頂至下:來(lái)自于測(cè)試集的隨機(jī)采樣曲線;由六維深度自編碼器重建,使用Logistic?PCA方法重建(8)使用6個(gè)主元;使用Logistic?PCA方法重建使用18個(gè)主元.每個(gè)圖像最后四行 平均方差是 1.44, 7.64, 2.45, 5.90.
(B) Top to bottom: A random test image from each class; reconstructions by the 30-dimensional autoencoder; reconstructions by 30- dimensional logistic PCA and standard PCA. The average squared errors for the last three rows are 3.00, 8.01, and 13.87.
自頂向下:每一類(lèi)的 一個(gè)隨機(jī)測(cè)試圖像;由30維自編碼器重建;使用30維 Logistic?PCA和標(biāo)準(zhǔn)PCA方法重建;最下三行的平均方差?是3.00, 8.01, and 13.87.
(C) Top to bottom: Random samples from the test data set; reconstructions by the 30- dimensional autoencoder; reconstructions by 30-dimensional PCA. The average squared errors are 126 and 135.
自頂向下:每一類(lèi)的 一個(gè)隨機(jī)測(cè)試樣本;由30維自編碼器重建;使用30維? PCA重建;均方差是126 and 135.
?????? 一個(gè)單層二進(jìn)制特征提取層并非是 為一個(gè)圖像集合?建立模型最好的方法。訓(xùn)練完一層網(wǎng)絡(luò)之后,我們可以使它激活,當(dāng)這一層被數(shù)據(jù)驅(qū)動(dòng)——進(jìn)而生成數(shù)據(jù)作為學(xué)習(xí)第二層特征的輸入。第一層的特征探測(cè)子成為第二層RBM的可見(jiàn)元。這種一層接一層/逐層的學(xué)習(xí) 當(dāng)必要時(shí)可以重復(fù)多次/反復(fù)進(jìn)行。
?????? 可以看出:增加一個(gè)額外的層一般可以促進(jìn)更低的?(這個(gè)模型指定給訓(xùn)練數(shù)據(jù)的)邏輯概率邊界,此時(shí)應(yīng)假定每層特征檢測(cè)子的數(shù)目不減少并且他們的初始權(quán)值被正確初始化(9)。這個(gè)約束不能應(yīng)用于當(dāng)一個(gè)更高的層具有更少的特征探測(cè)子的情況,但 即使如此?逐層學(xué)習(xí)算法?依然是一個(gè)有效去預(yù)訓(xùn)練深度編碼器的權(quán)值的方法。每一層的特征捕獲 底層網(wǎng)絡(luò)單元中? 更穩(wěn)定/強(qiáng) 的更高階的聯(lián)系。對(duì)于更廣泛的數(shù)據(jù)集,這是漸進(jìn)地揭示低維數(shù)據(jù)結(jié)構(gòu)的 有效結(jié)構(gòu)?的一個(gè)有效方法。
??????? 預(yù)訓(xùn)練多層網(wǎng)絡(luò)之后,模型 對(duì)于產(chǎn)生(使用相同權(quán)值初始化的)編碼和解碼器?網(wǎng)絡(luò) 是 ”開(kāi)放“的(圖表1)。全局參數(shù)調(diào)整過(guò)程隨后? 用確定性的實(shí)值概率和?使用?通過(guò)對(duì)整個(gè)自編碼器反傳?調(diào)整權(quán)值 取代(stochastic activities)隨機(jī)激活去優(yōu)化結(jié)構(gòu)。
?????? 對(duì)于連續(xù)數(shù)據(jù),第一層RBM隱藏元保持二進(jìn)制,但是可見(jiàn)元使用高斯噪音處理過(guò)的線性單元取代(10)。若噪音單元變量,隱藏元的隨機(jī)更新規(guī)則?保持相同,這個(gè)可見(jiàn)元i的更新規(guī)則來(lái)自于?使用?單元方差和均值(bj + Add(H j +W ij) )。
??????? 在我們的試驗(yàn)中,每一個(gè)RBM和實(shí)值激活?的可見(jiàn)元,邏輯元變化范圍為[0,1]。當(dāng)訓(xùn)練更高層的RBM,可見(jiàn)元內(nèi)設(shè)定為激活概率(來(lái)自于前一層的?隱藏元——除了頂層RBM的隨機(jī)二進(jìn)制值)。頂層的隱藏元的權(quán)值 為隨機(jī)實(shí)數(shù)值 從 一個(gè)單變量高斯 提取(其均值 由RBM的 邏輯可見(jiàn)元 決定 )。這?就使得?低維編碼?可以更好地利用連續(xù)數(shù)據(jù)?并且?方便與PCA? 對(duì)比。預(yù)訓(xùn)練和參數(shù)調(diào)整?可以參考(8)。
??????? 為證實(shí)我們的預(yù)訓(xùn)練算法可以使我們有效地調(diào)節(jié)參數(shù),我們訓(xùn)練一個(gè)特定的深度編碼器在一個(gè)合成的數(shù)據(jù)集上(數(shù)據(jù)集 包含由兩個(gè)維度的三個(gè)隨機(jī)選擇點(diǎn)?生成的 ”曲線“ 圖片? )。對(duì)于這個(gè)數(shù)據(jù)集,這個(gè)本質(zhì)/真實(shí) 維度是已知的,這個(gè)映射從 點(diǎn)的強(qiáng)度到 六個(gè)參數(shù) 是高度非線性的。點(diǎn)強(qiáng)度范圍為[0,1]?并且是非高斯的,因此我們使用邏輯斯特輸出單元在自編碼器,學(xué)習(xí)的 參數(shù)微調(diào)階段使用 最小化 交叉熵?fù)p失[-?Add(Pi*? log?M(Pi)? ) - Add( (1-Pi )* log(1-Pi )? )? ] , Pi?為點(diǎn)i的強(qiáng)度,M(Pi)??? 為??此點(diǎn)的重建。
?????? 自編碼器包含了一個(gè)尺寸為(28* 28)的編碼器400-200-100-50-25-6和一個(gè)合成解碼器。這?在編碼層的六個(gè)單元是線性的,且所有的其他單元是?Logistic。此網(wǎng)絡(luò)由20000個(gè)圖片訓(xùn)練并使用10000個(gè)測(cè)試。這個(gè)自編碼器?發(fā)現(xiàn)?如何轉(zhuǎn)化784個(gè)點(diǎn)圖像?到6個(gè)實(shí)數(shù)(圖表2.A : 可實(shí)現(xiàn)完美重建),PCA給出的效果壞的多(有損壓縮?)。若沒(méi)有預(yù)訓(xùn)練過(guò)程,特定的自編碼器?即使?延長(zhǎng)?參數(shù)微調(diào)(8),也只能恢復(fù)出平均數(shù)據(jù)。只有一層的淺層自編碼器?可以不經(jīng)預(yù)訓(xùn)練學(xué)習(xí),但是經(jīng)過(guò)預(yù)訓(xùn)練可以很大地降低訓(xùn)練時(shí)間(8)。當(dāng)參數(shù)相同時(shí),深度自編碼器?可以比淺層模型 產(chǎn)生更低的重建誤差,但是這種?優(yōu)勢(shì)會(huì)隨著參數(shù)增長(zhǎng)而遞減。
?????? 下一步,我們使用一個(gè) 784-1000-500-250-30?自編碼器?提取所有的MINIST訓(xùn)練集的 編碼。我們使用的訓(xùn)練和調(diào)參Matlab代碼在[ 8 ] 。然后,除 編碼層?? 的30個(gè)線性單元?之外,所有單元是?Logistic單元。?在訓(xùn)練600000?個(gè)樣本之后,模型在10000個(gè)樣本上測(cè)試,取得了比PCA更好的重建結(jié)果(圖表2.B)。一個(gè)二維?自編碼器?可視化效果?超過(guò)?PCA?兩主元分析(圖表3)。
???????? 我們使用?一個(gè)625-2000-1000-500-30自編碼器??利用線性輸入元?為灰度圖像塊(Olivetti face data set)?產(chǎn)生30維編碼。自編碼器?明確顯示出PCA(圖表2C).
?????? 當(dāng)訓(xùn)練用于文檔,自編碼器產(chǎn)生?允許快速檢索的?編碼。我們?把 804 414?個(gè) 每個(gè)新聞故事作為一個(gè)向量(13), 每個(gè)向量對(duì)應(yīng) 文檔特定概率 ——2000個(gè)通用詞根之中的。我們訓(xùn)練?一個(gè) 2000-500-250-125-10?自編碼器,使用一半的故事,使用多類(lèi)交叉熵[-?Add(Pi*? log?M(Pi)? )]?用于參數(shù)微調(diào)。10個(gè)碼為線性 ,其余的隱藏元?為L(zhǎng)ogistic。兩個(gè)編碼的?余弦用于相似性度量,自編碼器(8)依然?效果好于?局部線性嵌入LLE,一個(gè)最近?發(fā)現(xiàn)的非線性降維方法。
???????逐層/一層又一層預(yù)訓(xùn)練?也可以用于?分類(lèi)和回歸。在廣泛使用的MNIST手寫(xiě)數(shù)字識(shí)別任務(wù)上,隨機(jī)初始化的BP網(wǎng)絡(luò)最好的錯(cuò)誤率為1.6% ,支持向量機(jī)最好為1.4%。在逐層預(yù)訓(xùn)練?的784-500-500-2000-10?網(wǎng)絡(luò),使用梯度下降法和小學(xué)習(xí)速率 的反傳網(wǎng)絡(luò)達(dá)到了1.2%。預(yù)處理?幫助/促進(jìn)泛化?是因?yàn)闄?quán)值產(chǎn)生的大多數(shù)信息來(lái)自于圖像本身的建模。只有特定的受限制的帶標(biāo)簽的訓(xùn)練信息用于調(diào)整權(quán)值。
??????? 從1980年之后,已證明若在計(jì)算速度較快、數(shù)據(jù)集足夠大,初始權(quán)值接近最優(yōu)權(quán)值,反傳算法用于深度自編碼將是一個(gè)?非常有效?的方法?,F(xiàn)在所有三個(gè)條件都已經(jīng)滿足。不像非參數(shù)模型(15,16),自編碼器給出了方向和范圍兩方面的映射,并且可以用于大數(shù)據(jù)集合 ,因?yàn)?預(yù)處理和?參數(shù)微調(diào)?都在線性時(shí)間和空間?內(nèi)執(zhí)行。
參考文獻(xiàn):
1. D. C. Plaut, G. E. Hinton, Comput. Speech Lang. 2, 35(1987).
2. D. DeMers, G. Cottrell, Advances in Neural Information Processing Systems 5 (Morgan Kaufmann, San Mateo, CA,1993), pp. 580–587.
3. R. Hecht-Nielsen, Science 269, 1860 (1995).
4. N. Kambhatla, T. Leen, Neural Comput. 9, 1493(1997).
5. P. Smolensky, Parallel Distributed Processing: Volume 1:Foundations, D. E. Rumelhart, J. L. McClelland, Eds. (MITPress, Cambridge, 1986), pp. 194–281.
6. G. E. Hinton, Neural Comput. 14, 1711 (2002).
7. J. J. Hopfield, Proc. Natl. Acad. Sci. U.S.A. 79, 2554(1982).
8. See supporting material on Science Online.
9. G. E. Hinton, S. Osindero, Y. W. Teh, Neural Comput. 18,1527 (2006).
10. M. Welling, M. Rosen-Zvi, G. Hinton, Advances in Neural Information Processing Systems 17 (MIT Press, Cambridge,MA, 2005), pp. 1481–1488.
11. The MNIST data set is available at http://yann.lecun.com/exdb/mnist/index.html.
12. The Olivetti face data set is available at www.cs.toronto.edu/ roweis/data.html.
13. The Reuter Corpus Volume 2 is available at http://trec.nist.gov/data/reuters/reuters.html.
14. S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W.Furnas, R. A. Harshman, J. Am. Soc. Inf. Sci. 41, 391(1990).
15. S. T. Roweis, L. K. Saul, Science 290, 2323 (2000).
16. J. A. Tenenbaum, V. J. de Silva, J. C. Langford, Science
290, 2319 (2000).
17. We thank D. Rumelhart, M. Welling, S. Osindero, and S. Roweis for helpful discussions, and the Natural Sciences and Engineering Research Council of Canada for
funding. G.E.H. is a fellow of the Canadian Institute for Advanced Research.
Supporting Online Material
www.sciencemag.org/cgi/content/full/313/5786/504/DC1
Materials and Methods
Figs. S1 to S5
Matlab Code
20 March 2006; accepted 1 June 2006
10.1126/science.1127647
后記:
????????有一天,把感知和決策?劃歸到?觸發(fā)器?分類(lèi)的范疇,把多類(lèi)分類(lèi)?劃歸為?維度壓縮,把任意?物體?壓縮到特征空間 、把特征集合 壓縮到任意?一維?的離散個(gè)點(diǎn)上,這就是特征提取和分類(lèi)器設(shè)計(jì)。特征提取?和?分類(lèi)器設(shè)計(jì)??都是降維?
????????這樣不好吧?
????????參考一下鏈接:http://blog.csdn.net/yihaizhiyan/article/details/8189731?????
????? 代碼下載:http://www.cs.toronto.edu/~hinton/MatlabForSciencePaper.html? (一個(gè)需要注意的地方,就是數(shù)據(jù)文件:要使用gunziptrain-images-idx3-ubyte.gz 進(jìn)行解壓~若使用winzip解壓后,會(huì)損壞相關(guān)數(shù)據(jù)文件~)
總結(jié):
? ? ? ? 參考鏈接:http://blog.csdn.net/zouxy09/article/details/8781543/
工程角度理解:
訓(xùn)練方法:
1)首先逐層構(gòu)建單層神經(jīng)元,這樣每次都是訓(xùn)練一個(gè)單層網(wǎng)絡(luò)。
2)當(dāng)所有層訓(xùn)練完后,Hinton使用wake-sleep算法進(jìn)行調(diào)優(yōu)。
??????? 將除最頂層的其它層間的權(quán)重變?yōu)殡p向的,這樣最頂層仍然是一個(gè)單層神經(jīng)網(wǎng)絡(luò),而其它層則變?yōu)榱藞D模型。向上的權(quán)重用于“認(rèn)知”,向下的權(quán)重用于“生成”。然后使用Wake-Sleep算法調(diào)整所有的權(quán)重。讓認(rèn)知和生成達(dá)成一致,也就是保證生成的最頂層表示能夠盡可能正確的復(fù)原底層的結(jié)點(diǎn)。
?????? 比如頂層的一個(gè)結(jié)點(diǎn)表示人臉,那么所有人臉的圖像應(yīng)該激活這個(gè)結(jié)點(diǎn),并且這個(gè)結(jié)果向下生成的圖像應(yīng)該能夠表現(xiàn)為一個(gè)大概的人臉圖像。Wake-Sleep算法分為醒(wake)和睡(sleep)兩個(gè)部分。
1)wake階段:認(rèn)知過(guò)程,通過(guò)外界的特征和向上的權(quán)重(認(rèn)知權(quán)重)產(chǎn)生每一層的抽象表示(結(jié)點(diǎn)狀態(tài)),并且使用梯度下降修改層間的下行權(quán)重(生成權(quán)重)。也就是“如果現(xiàn)實(shí)跟我想象的不一樣,改變我的權(quán)重使得我想象的東西就是這樣的”。
2)sleep階段:生成過(guò)程,通過(guò)頂層表示(醒時(shí)學(xué)得的概念)和向下權(quán)重,生成底層的狀態(tài),同時(shí)修改層間向上的權(quán)重。也就是“如果夢(mèng)中的景象不是我腦中的相應(yīng)概念,改變我的認(rèn)知權(quán)重使得這種景象在我看來(lái)就是這個(gè)概念”。
?
DL具體訓(xùn)練過(guò)程:
1)使用自下上升非監(jiān)督學(xué)習(xí):
???? (就是從底層開(kāi)始,一層一層的往頂層訓(xùn)練)采用無(wú)標(biāo)定數(shù)據(jù)(有標(biāo)定數(shù)據(jù)也可)分層訓(xùn)練各層參數(shù),這一步可以看作是一個(gè)無(wú)監(jiān)督訓(xùn)練過(guò)程,是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分(這個(gè)過(guò)程可以看作是feature learning過(guò)程):
?????? 具體的,先用無(wú)標(biāo)定數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時(shí)先學(xué)習(xí)第一層的參數(shù)(這一層可以看作是得到一個(gè)使得輸出和輸入差別最小的三層神經(jīng)網(wǎng)絡(luò)的隱層),由于模型capacity的限制以及稀疏性約束,使得得到的模型能夠?qū)W習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更具有表示能力的特征;在學(xué)習(xí)得到第n-1層后,將n-1層的輸出作為第n層的輸入,訓(xùn)練第n層,由此分別得到各層的參數(shù);
2)自頂向下的監(jiān)督學(xué)習(xí):
????? (就是通過(guò)帶標(biāo)簽的數(shù)據(jù)去訓(xùn)練,誤差自頂向下傳輸,對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào))基于第一步得到的各層參數(shù)進(jìn)一步fine-tune整個(gè)多層模型的參數(shù),這一步是一個(gè)有監(jiān)督訓(xùn)練過(guò)程;第一步類(lèi)似神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化初值過(guò)程,由于DL的第一步不是隨機(jī)初始化,而是通過(guò)學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個(gè)初值更接近全局最優(yōu),從而能夠取得更好的效果;所以deep learning效果好很大程度上歸功于第一步的feature learning過(guò)程。
總結(jié)
以上是生活随笔為你收集整理的Reducing the Dimensionality of Data with Neural Networks:神经网络用于降维的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 无线路由器怎么设置-如何重新设置无线路由
- 下一篇: 人工机器:人工智能中的机器学习方法