对The Curse of Dimensionality(维度灾难)的理解
生活随笔
收集整理的這篇文章主要介紹了
对The Curse of Dimensionality(维度灾难)的理解
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一個特性:低維(特征少)轉向高維的過程中,樣本會變的稀疏(可以有兩種理解方式:1.樣本數目不變,樣本彼此之間距離增大。2.樣本密度不變,所需的樣本數目指數倍增長)。
高維度帶來的影響:
1.變得可分。
? ?由于變得稀疏,之前低維不可分的,在合適的高維度下可以找到一個可分的超平面。
2.過擬合風險。
? 過高維度會帶來過擬合的風險(會學習到數據集中的特例或異常,對現實測試數據效果較差)。增加維度的線性模型等效于低維空間里較復雜的非線性分類器。
3.需要更多訓練數據。我們需要更多的訓練數據進行參數估計。
4.過高維度會讓分類變難。
? ? 高維下數據更多分布在空間角落(因為單位球占單位立方體下的空間比例隨著維度增加,越來越小。處于單位球內的可以看出靠近中心),而角落處的特征更難分,因為距離更大。
5.高維度中用距離來衡量樣本相似性的方法已經漸漸失效。
? ?(幾乎所有的高維空間都遠離其中心,任意兩點的距離會趨向收斂,意思是任意兩點的最大距離和最小距離會變為相同。因此基于歐式距離的k-means算法,會無法進行聚類(因為距離會趨于收斂)。而K-NN會的臨近K個點中,會出現更多非同類的點(遠多于低維度的情況)。)
轉載于:https://www.cnblogs.com/dingz/p/9029395.html
總結
以上是生活随笔為你收集整理的对The Curse of Dimensionality(维度灾难)的理解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ATM系统之分析类
- 下一篇: Luogu P2341 [HAOI20