3. 机器学习中为什么需要梯度下降_机器学习中一些模型为什么要对数据归一化?...
一般做機(jī)器學(xué)習(xí)應(yīng)用的時(shí)候大部分時(shí)間是花費(fèi)在特征處理上,其中很關(guān)鍵的一步就是對(duì)特征數(shù)據(jù)進(jìn)行歸一化,為什么要?dú)w一化呢?很多同學(xué)并未搞清楚,維基百科給出的解釋:
1)歸一化后加快了梯度下降求最優(yōu)解的速度
藍(lán)色的圈圈圖代表的是兩個(gè)特征的等高線。其中左圖兩個(gè)特征X1和X2的區(qū)間相差非常大,X1區(qū)間是[0,2000],X2區(qū)間是[1,5],其所形成的等高線非常尖。當(dāng)使用梯度下降法尋求最優(yōu)解時(shí),很有可能走“之字型”路線(垂直等高線走),從而導(dǎo)致需要迭代很多次才能收斂;
而右圖對(duì)兩個(gè)原始特征進(jìn)行了歸一化,其對(duì)應(yīng)的等高線顯得很圓,在梯度下降進(jìn)行求解時(shí)能較快的收斂。
因此如果機(jī)器學(xué)習(xí)模型使用梯度下降法求最優(yōu)解時(shí),歸一化往往非常有必要,否則很難收斂甚至不能收斂。
2)歸一化有可能提高精度
一些分類器需要計(jì)算樣本之間的距離(如歐氏距離),例如KNN。如果一個(gè)特征值域范圍非常大,那么距離計(jì)算就主要取決于這個(gè)特征,從而與實(shí)際情況相悖(比如這時(shí)實(shí)際情況是值域范圍小的特征更重要)。
歡迎關(guān)注我的公眾號(hào),第一時(shí)間追蹤相關(guān)面試題和總結(jié):百面機(jī)器學(xué)習(xí)。回復(fù)干貨獲取相關(guān)資料和面試題總結(jié)(定期更新)。
處理數(shù)據(jù)時(shí)不進(jìn)行歸一化會(huì)有什么影響?歸一化的作用是什么?什么時(shí)候需要?dú)w一化?有哪些歸一化的方法? 機(jī)器學(xué)習(xí)中為什么需要對(duì)數(shù)據(jù)進(jìn)行歸一化? - CSDN博客 為什么要特征標(biāo)準(zhǔn)化 (機(jī)器學(xué)習(xí)) (簡單理解一下標(biāo)準(zhǔn)化的意思)概率模型不需要?dú)w一化,因?yàn)樗鼈儾魂P(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率,如決策樹、rf。而像adaboost、gbdt、xgboost、svm、lr、KNN、KMeans之類的最優(yōu)化問題就需要?dú)w一化。(小伙伴要記清楚哦,或者用sklearn里面的庫跑一下模型看看呢)
筆者只是一些問題的搬運(yùn)工,具體需要對(duì)問題進(jìn)行深入的小伙伴還望自己閱讀相關(guān)文獻(xiàn),這里只是提出一些問題,以便于面試時(shí)問到,如果內(nèi)容有一些錯(cuò)誤,還望批評(píng)指正!
米娜 Thanks?(・ω・)ノ
總結(jié)
以上是生活随笔為你收集整理的3. 机器学习中为什么需要梯度下降_机器学习中一些模型为什么要对数据归一化?...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文讲清,MySQL数据库一行数据在磁盘
- 下一篇: rust如何进枪战服_rust手机版