當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

重新认识维数灾难--反直觉的高维空间

發(fā)布時間：2024/6/21 综合教程 49 生活家

生活随笔收集整理的這篇文章主要介紹了重新认识维数灾难--反直觉的高维空间小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

curse of dimensionality維數(shù)災(zāi)難

或者翻譯成維度的咒語，這個咒語出現(xiàn)在很多方面：

sampling采樣

如果數(shù)據(jù)是低維的，所需的采樣點相對就比較少；如果數(shù)據(jù)是高維的，所需的采樣點就會指數(shù)級增加，而實現(xiàn)中面對高維問題時往往無法獲得如此多的樣本點（即使獲得了也無法處理這么龐大數(shù)據(jù)量），樣本少不具有代表性自然不能獲得正確的結(jié)果。

combinatorics組合數(shù)學(xué)

由于每個維度上候選集合是固定的，維度增加后所有組合的總數(shù)就會指數(shù)級增加。

machine learning機器學(xué)習(xí)

在機器學(xué)習(xí)中要求有相當數(shù)量的訓(xùn)練數(shù)據(jù)含有一些樣本組合。給定固定數(shù)量的訓(xùn)練樣本，其預(yù)測能力隨著維度的增加而減小，這就是所謂的Hughes影響或Hughes現(xiàn)象。

data mining數(shù)據(jù)挖掘

在組織和搜索數(shù)據(jù)時有賴于檢測對象區(qū)域，這些區(qū)域中的對象通過相似度屬性而形成分組。然而在高維空間中，所有的數(shù)據(jù)都很稀疏，從很多角度看都不相似，因而平常使用的數(shù)據(jù)組織策略變得極其低效。

距離在高維環(huán)境下失去意義

在某種意義上，幾乎所有的高維空間都遠離其中心，或者從另一個角度來看，高維單元空間可以說是幾乎完全由超立方體的“邊角”所組成的，沒有“中部”。一維正態(tài)分布有68%的值落于正負標準差之間，而在十維空間上只有0.02%。這對于理解卡方分布是很重要的直覺理解。

卡方分布：若N個隨機變量服從標準正態(tài)分布，那么它們的平方和（注意在計算歐氏距離時就要用到各個變量的平方和）構(gòu)成的新的變量服從卡方分布，N是自由度。下面是其概率密度圖：

自由度越大（維度越高）時，圖形越”平闊“。

然而，也由于本征維度的存在，其概念是指任意低維數(shù)據(jù)空間可簡單地通過增加空余（如復(fù)制）或隨機維將其轉(zhuǎn)換至更高維空間中，相反地，許多高維空間中的數(shù)據(jù)集也可削減至低維空間數(shù)據(jù)，而不必丟失重要信息。這一點也通過眾多降維方法的有效性反映出來，如應(yīng)用廣泛的主成分分析方法。針對距離函數(shù)和最近鄰搜索，當前的研究也表明除非其中存在太多不相關(guān)的維度，帶有維數(shù)災(zāi)難特色的數(shù)據(jù)集依然可以處理，因為相關(guān)維度實際上可使得許多問題（如聚類分析）變得更加容易。另外，一些如馬爾可夫蒙特卡羅或共享最近鄰搜索方法^[3]經(jīng)常在其他方法因為維數(shù)過高而處理棘手的數(shù)據(jù)集上表現(xiàn)得很好。

原文來自:博客園（華夏35度）http://www.cnblogs.com/zhangchaoyang 作者:張朝陽

關(guān)于高維空間降維的重要性：

1.通過公式的推導(dǎo)（這里就不推導(dǎo)了），會發(fā)現(xiàn)高維度空間的體積主要分布在殼部和角部。

2.隨著維度的增加，體積（Vc（正方形），Vr（圓形））會迅速增加。這樣的好處是在樣本空間，樣本的分布會非常稀疏，不易重疊，利于分類。
然后老師又說了一句話：對高維進行概率密度函數(shù)設(shè)計特別困難，設(shè)計分類器也很困難，所以降維是必須的。
這里的理解是，對于高維空間，人為的靠感覺設(shè)定一個超平面是可以的，但是要通過計算機計算設(shè)定一個超平面，是很困難的，因為概率密度函數(shù)不好的設(shè)計，所以要降維。

3.高維度空間樣本分布稀疏，導(dǎo)致同類樣本分布相對集中，落在一個較低的子空間中，利于投影，不會導(dǎo)致信息丟失。

4.高維度空間的數(shù)據(jù)主要分布在殼部和角部，不是均勻分布在整個空間中。

5.根據(jù)中心極限定理，高維空間的數(shù)據(jù)投影到很低維度的空間中，數(shù)據(jù)將會呈現(xiàn)正態(tài)分布。所以，說降維是對分類有效的。

6.根據(jù)一個人fakanage的實驗結(jié)論：
對于監(jiān)督分布，設(shè)計分類器所需要的樣本數(shù)量于空間的維度呈現(xiàn)正比例關(guān)系。
對于非監(jiān)督分布，設(shè)計分類器所需要的樣本數(shù)量于空間的維度呈現(xiàn)指數(shù)關(guān)系。
這就解釋了，神經(jīng)網(wǎng)絡(luò)的隱藏層的數(shù)量不是越多越好，而是要有足夠的數(shù)據(jù)樣本作為支持才行。

還有對于高維度空間投影理解：就是讓投影的坐標軸為0.
————————————————
版權(quán)聲明：本文為CSDN博主「DX_ByYourself」的原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議，轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/CV_YOU/article/details/78412800

總結(jié)

以上是生活随笔為你收集整理的重新认识维数灾难--反直觉的高维空间的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：安装包制作工具 SetupFactory
下一篇：渠道运营一点事