机器学习 数据增加_【机器学习】数据降维概述
生活随笔
收集整理的這篇文章主要介紹了
机器学习 数据增加_【机器学习】数据降维概述
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
機器學習領域中所謂的降維就是指采用某種映射方法,將原高維空間中的數據點映射到低維度的空間中。
機器學習主要問題數據維數
維數 (又稱維度)
- 數學中:獨立參數的數目
- 物理中:獨立時空坐標的數目
例 “點是0維、直線是1維、平面是2維、體是3維”
- 點基于點是 0 維:在點上定位一個點,不需要參數
- 點基于直線是 1 維:在直線上定位一個點,需要 1 個參數
- 點基于平面是 2 維:在平面上定位一個點,需要 2 個參數
- 點基于體是 3 維:在體上定位一個點,需要 3 個參數
又如, 像素數字放入 像素白板
像素白板實際上中,可以通過如下操作增加維數:
- 水平 / 垂直的平移變化
- 旋轉變化
- 尺度變化
- 形狀變化(不同人寫作的習慣)
- 光照變換
- ……
這些變換的因素是潛變量(Latent Variables),潛變量在。
數據降維
為什么要降維?
- 在原始的高維空間中,包含冗余信息和噪聲信息,會在實際應用中引入誤差,影響準確率;而降維可以提取數據內部的本質結構,減少冗余信息和噪聲信息造成的誤差,提高應用中的精度。
降維的好處
- 直觀地好處是維度降低了,便于計算和可視化,其更深層次的意義在于有效信息的提取綜合及無用信息的擯棄。
一個簡單的例子
含有噪聲的數據低冗余數據高冗余數據- 冗余
- 噪聲:選擇一個方向投影過濾噪聲
降維
高冗余數據- 利用某種映射將原高維度空間的數據點投影到低維度的空間:
降維的本質
- 學習一個映射函數 ,其中 是原始數據點的表達,目前最多使用向量表達形式。 是數據點映射后的低維向量表達,通常 的維度小于 的維度(當然提高維度也是可以的)。 可能是顯式的或隱式的、線性的或非線性的。
降維方法
- 主成分分析(Principal Component Analysis)
- 等距映射(Isometric Mapping)
- 局部線性嵌入(Locally Linear Embedding)
- ……
總結
以上是生活随笔為你收集整理的机器学习 数据增加_【机器学习】数据降维概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vs 无法解析变量$_C语言新手常见错误
- 下一篇: java登录界面_java实现登陆页面