机器学习面试问题2
算法原理
LR
logistic(邏輯回歸)是一種廣義線性回歸分析模型,是一種分類算法。?
通過函數(shù)L將w‘x+b對應一個隱狀態(tài)p,p =L(w‘x+b),然后根據(jù)p 與1-p的大小決定因變量的值。L是logistic函數(shù).?
該模型是典型的數(shù)學模型,它服從邏輯斯蒂分布。?
二項邏輯斯蒂回歸模型是如下的條件概率分布:?
?
在這里,x是輸入,y是輸出,w是權值向量參數(shù),b是偏置參數(shù)。?
對于給定的輸入實例x,按照以上兩個公式可以求得P(Y=1|x)和P(Y=0|x)。邏輯斯蒂回歸比較兩個條件概率值的大小,將實例x分到概率值較大的那一類。?
將權值向量和輸入向量加以擴充,仍記作w,x,即w=(x1,x2,…,wn,b),x=(x1,x2,…,xn,1)。這時,邏輯斯蒂回歸模型如下:?
?
?
線性函數(shù)的值越接近正無窮,概率值就越接近1;線性函數(shù)的值越接近負無窮,概率值就越接近0.如下圖:?
?
邏輯斯蒂回歸模型學習時,對于給定的訓練數(shù)據(jù)集可以應用極大似然估計法估計模型參數(shù),這樣,問題就變成了以對數(shù)似然函數(shù)為目標函數(shù)的最優(yōu)化問題,邏輯斯蒂回歸模型學習中通常采用的方法是梯度下降法及擬牛頓法。得到w的極大似然估計值w’,就可以得到邏輯斯蒂回歸模型。
?
二項邏輯斯蒂回歸模型可以推廣到多項邏輯斯蒂回歸模型:?
?
?
二項邏輯斯蒂回歸的參數(shù)估計法也可以推廣到多維邏輯斯蒂回歸。
k-NN
k-NN(k近鄰法)是一種基本分類和回歸方法。
k近鄰模型的三個基本要素:距離度量,k值的選擇,分類決策規(guī)則。常用的距離度量是歐式距離及更一般的Lp距離。k值小時,k近鄰模型更復雜;k值大時,k近鄰模型更簡單。k值的選擇反映了對近似誤差與估計誤差之間的權衡,通常由交叉驗證選擇最優(yōu)的k。常用的分類決策規(guī)則是多數(shù)表決,對應于經(jīng)驗風險最小化。
k近鄰模型對應于訓練數(shù)據(jù)集對特征空間的一個劃分。k近鄰法中,當三個基本要素確定后,其結果唯一確定。
k近鄰法的基本做法:?
對給定的訓練實例點和輸入實例點,首先確定輸入實例點的k個最近鄰訓練實例點,然后利用這k個訓練實例點的類的多數(shù)來預測輸入實例的類。
k近鄰法的實現(xiàn)需要考慮如何快速搜索k個最近鄰點。kd樹是一種便于對k維空間中的數(shù)據(jù)進行快速檢索的數(shù)據(jù)結構。kd樹是二叉樹,表示對k維空間的一個劃分,其每個節(jié)點對應于k維空間劃分中的一個超矩形區(qū)域。利用kd樹可以省去對大部分數(shù)據(jù)點的搜索,從而減少搜索的計算量。
K-Means
K-Means算法是一種聚類算法。?
以歐式距離作為相似度測度,它是求對應某一初始聚類中心向量V最優(yōu)分類,使得評價指標J最小。算法采用誤差平方和準則函數(shù)作為聚類準則函數(shù)。
基本思想:從n個對象中任意選擇k個對象為中心進行聚類,而對于剩下的其他對象,則根據(jù)它們與這些聚類中心(距離均值所對應的對象)的相似度(距離),按照最小距離分別將它們分配給與其最相似的(距離聚類中心所代表的聚類是最小的)聚類,然后再計算每個所獲新聚類的聚類中心(該聚類中的中心對象)結果將n個對象劃分為k個聚類,且這些聚類滿足:同一聚類中的對象相似度較高,不同聚類中的對象相似度較小。
算法流程:?
首先從n個數(shù)據(jù)對象中任意選擇k個對象作為初始聚類中心,將剩下的其他對象分別計算它們到這k個聚類中心的距離,歸到距離最小的聚類中,每聚一次類,都要重新計算一次聚類中心,規(guī)則是將所有對象的距離均值所對應的對象作為聚類中心。?
轉載于:https://www.cnblogs.com/hellochennan/p/6654126.html
總結
- 上一篇: webpack环境搭建使用
- 下一篇: rtpdhw04