机器学习——数据降维和相关性分析
特征工程中數據降維方法思想有兩種:
1. 破壞數據原有的結構從而提取數據的主要特征,例如主成分分析(PCA);
2. 對數據進行相關性分析,按照一定的法則來對數據的屬性進行取舍達到降維的目的。
? ?相關性分析主要考量兩組數據之間的相關性,以一種指標來判定,觀察數據中哪些屬性與目標數據的相關性較強,從而做出保留,哪些較弱,進行剔除。
? ?相關性分析方法也分為線性相關性分析與非線性相關性分析兩種,分別應用于不同的場景。
一、 線性相關性分析
1.數據可視化方法:數據可視化在某些情況下可以簡單且直觀的判定數據之間的相關性,但是無法很好的展現出數據之間的關系。
2.皮爾遜相關性分析(還有斯皮爾曼)
使用pearson相關系數之前需要檢查數據是否滿足牽制條件:
1.兩個變量間有線性關系;
2.變量是連續變量;
3.變量符合正態分布,且二元分布也符合正態分布‘
4.兩變量獨立;
5.兩變量的方差不為0’
?
結果判斷與分析:
相關系數的絕對值越大,相關性越強(-1 , 1)
通常情況下通過以下取值范圍判斷變量的相關強度:
相關系數 0.8~1.0? 極強相關
? ? ? ? ? ? ? ? 0.6~0.8? 強相關
? ? ? ? ? ? ? ? 0.4~0.6 中等程度相關
? ? ? ? ? ? ? ? 0.2~0.4? 弱相關
? ?? ? ? ? ? ? ?0.0~0.2? 極弱相關或無相關
以上的分析是針對理論環境下,在實際的工程應用中也有學者發現且表明當相關性大于0.2即代表存在相關性。
注意:
1.Pearson相關系數是用來檢測兩個連續型變量之間線性相關的程度,并且要求這兩個變量分別分布服從正態分布;
2.pearson相關系數僅能度量變量間的線性相關性,如果變量間相關性未知,則pearson相關系數的大小沒有指導意義,此時需要借助可視化手段輔助判斷;
3.兩變量的pearson相關系數實際上是這兩個變量0均值化后的cosine相似度;
4.如果兩個變量是非線性相關,為了使用線性模型,可以先將特征變量進行非線性變換,使之與目標線性相關‘
5.pearson相關系數對異常值比較敏感,在數據清洗階段需要將異常值過濾或者平滑處理。
二、 非線性相關性分析
1,最大信息系數(maximal information coefficient, MIC)
最大信息系數是一種現代的相關性分析方法,該方法可以考察兩個變量(大量數據,通常數據量在500條以上)之間的線性關系和非線性關系。
最大信息系數:?https://minepy.readthedocs.io/en/latest/index.html#
?
(大概這么多,以后再補充)
參考:
https://www.cnblogs.com/zhuozige/p/12891600.html
?
?
?
?
?
總結
以上是生活随笔為你收集整理的机器学习——数据降维和相关性分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超超超超超详细的数据库课设报告-学生公寓
- 下一篇: HDU 5745 La Vie en