當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

svm训练完保存权重_assignment1-SVM

發(fā)布時(shí)間：2025/3/12 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 svm训练完保存权重_assignment1-SVM 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

理論知識(shí)

這次的分類器要比之前的KNN更加得靈活，效果也會(huì)更好。這種方法主要有兩部分組成：一個(gè)是評(píng)分函數(shù)（score function），它是原始圖像數(shù)據(jù)到類別分值的映射。另一個(gè)是損失函數(shù)（loss function），它是用來(lái)量化預(yù)測(cè)分類標(biāo)簽的得分與真實(shí)標(biāo)簽之間一致性的。該方法可轉(zhuǎn)化為一個(gè)最優(yōu)化問(wèn)題，在最優(yōu)化過(guò)程中，將通過(guò)更新評(píng)分函數(shù)的參數(shù)來(lái)最小化損失函數(shù)值。

評(píng)分函數(shù)可以表示為：

對(duì)于

，可以看下面的圖片：

當(dāng)然更好的方法是把W和b合并：

的選取也有很多，這里看做對(duì) 不做處理。

評(píng)分函數(shù)在正確的分類的位置應(yīng)當(dāng)?shù)玫阶罡叩脑u(píng)分（score）。使用損失函數(shù)（Loss Function）（有時(shí)也叫代價(jià)函數(shù)Cost Function或目標(biāo)函數(shù)Objective）來(lái)衡量我們對(duì)結(jié)果的不滿意程度。直觀地講，當(dāng)評(píng)分函數(shù)輸出結(jié)果與真實(shí)結(jié)果之間差異越大，損失函數(shù)輸出越大，反之越小。

損失函數(shù)的形式很多，這里使用的是SVM損失函數(shù)。

對(duì)于第j個(gè)類別的得分為

，針對(duì)第i個(gè)數(shù)據(jù)的多分類SVM的損失函數(shù)定義如下：

SVM的損失函數(shù)想要正確分類類別

的分?jǐn)?shù)比不正確類別分?jǐn)?shù)高，而且至少要高。如果不滿足這點(diǎn)，就開始計(jì)算損失值。

那么根據(jù)之前的評(píng)分函數(shù)，最終的損失函數(shù)為：

被稱為折葉損失（hinge loss）

正則化（Regularization）：課程中是這么解釋的，由于使所有樣本都能正確分類的

并不唯一，可能有很多相似的W都能夠正確地分類所有數(shù)據(jù)，比如對(duì)于每個(gè)數(shù)據(jù)，損失值都為0，那么對(duì)于時(shí)，任何都可以使損失值為0。那么哪個(gè) 最好呢？

正則化的想法就是向某些特定的權(quán)重W添加一些偏好，對(duì)其他權(quán)重則不添加，以此來(lái)消除這種模糊性。常用的正則化懲罰是L2范數(shù)：

可以看出，對(duì)于比較大的權(quán)重，它可以使其損失函數(shù)更大，從而抑制大數(shù)值的權(quán)重。

我的理解是：在訓(xùn)練完后發(fā)現(xiàn)了過(guò)擬合，那么此時(shí)雖然訓(xùn)練集的損失很小了，但是還不是最好的W，所以要調(diào)整W，W還有偏好的含義，越大表示對(duì)某個(gè)特征反應(yīng)越激烈，而較大的W在預(yù)測(cè)中往往有著決定性的作用，所以要降低這些權(quán)重，對(duì)大數(shù)值進(jìn)行懲罰，來(lái)讓分類器把所有維度上的特征都利用起來(lái)，從而提升其泛化能力。

最后的loss如下：

不想再輸公式了。。。

算法實(shí)現(xiàn)

整個(gè)線性分類器的設(shè)計(jì)過(guò)程總結(jié)如下：

對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。包括劃分訓(xùn)練集，驗(yàn)證集和測(cè)試集。零均值化和歸一化。

設(shè)計(jì)損失函數(shù)

計(jì)算梯度和loss

設(shè)計(jì)優(yōu)化算法進(jìn)行權(quán)重更新

訓(xùn)練

調(diào)優(yōu)

算法框架如下：

class LinearClassifier(object):def __init__(self):self.W = Nonedef train(self, X, y, learning_rate=1e-3, reg=1e-5, num_iters=100,batch_size=200, verbose=False):passreturn loss_historydef predict(self, X):passreturn y_preddef loss(self, X_batch, y_batch, reg):pass class LinearSVM(LinearClassifier):""" A subclass that uses the Multiclass SVM loss function """def loss(self, X_batch, y_batch, reg):return svm_loss_vectorized(self.W, X_batch, y_batch, reg)

因?yàn)椴煌瑩p失函數(shù)的train和predict的代碼是相同的，所以作業(yè)中使用了繼承來(lái)復(fù)用這些代碼，以后只需要寫loss的代碼即可。

train代碼實(shí)現(xiàn)：

def train(self, X, y, learning_rate=1e-3, reg=1e-5, num_iters=100,batch_size=200, verbose=False):num_train, dim = X.shapenum_classes = np.max(y) + 1 # 這里用 0...K-1 來(lái)表示不同的標(biāo)簽#權(quán)重初始化，使用小隨機(jī)數(shù)if self.W is None:# lazily initialize Wself.W = 0.001 * np.random.randn(dim, num_classes)#使用GD進(jìn)行W的優(yōu)化loss_history = []for it in range(num_iters):X_batch = Noney_batch = Nonenum_train = X.shape[0]batch_indices = np.random.choice(num_train, batch_size)X_batch = X[batch_indices]y_batch = y[batch_indices]loss, grad = self.loss(X_batch, y_batch, reg)loss_history.append(loss)self.W -=learning_rate*gradif verbose and it % 100 == 0:#用于觀察loss的情況print('iteration %d / %d: loss %f' % (it, num_iters, loss))return loss_history

這里說(shuō)明下batch_size，epoch的區(qū)別。

當(dāng)一個(gè)完整的數(shù)據(jù)集通過(guò)了分類器一次并且完成了一次梯度更新，這個(gè)過(guò)程稱為一個(gè)epoch。然而，當(dāng)一個(gè) epoch 對(duì)于計(jì)算機(jī)而言太龐大的時(shí)候，就需要把它分成多個(gè)小塊。分成的塊數(shù)就是batch的數(shù)量，每一個(gè)batch的大小就為batchsize。現(xiàn)在變成了每一個(gè)batch進(jìn)行一次梯度更新。batch_size和梯度下降也有一定關(guān)系：

批量梯度下降(BGD)。batch_size=訓(xùn)練集的大小

隨機(jī)梯度下降(SGB)。batch_size= 1

小批量梯度下降(MBGD)。1 <batch_size<訓(xùn)練集的大小

predict的代碼實(shí)現(xiàn)：

def predict(self, X):y_pred = np.zeros(X.shape[0])y_pred = np.argmax(X.dot(self.W),axis=1)return y_pred

svm_loss_vectorized的實(shí)現(xiàn)：

def svm_loss_vectorized(W, X, y, reg):loss = 0.0dW = np.zeros(W.shape) # initialize the gradient as zeroscores = X.dot(W) # N by Cnum_train = X.shape[0]num_classes = W.shape[1]#計(jì)算loss#numpy的這種技巧要記牢啊scores_correct = scores[np.arange(num_train), y] #1 by Nscores_correct = np.reshape(scores_correct, (num_train, 1)) # N by 1margins = scores - scores_correct + 1.0 # N by Cmargins[np.arange(num_train), y] = 0.0 margins[margins <= 0] = 0.0loss += np.sum(margins) / num_trainloss += 0.5 * reg * np.sum(W * W)#計(jì)算梯度margins[margins > 0] = 1.0 # 示性函數(shù)的意義row_sum = np.sum(margins, axis=1) # 1 by Nmargins[np.arange(num_train), y] = -row_sum dW += np.dot(X.T, margins)/num_train + reg * W # D by Creturn loss, dW

（關(guān)于loss和梯度計(jì)算的實(shí)現(xiàn)想專門總結(jié)下）

訓(xùn)練集和驗(yàn)證集的正確率為：

調(diào)優(yōu)

這次直接使用驗(yàn)證集來(lái)進(jìn)行調(diào)整學(xué)習(xí)率和正則化系數(shù)，具體代碼如下：

learning_rates = [1e-7,5e-5] regularization_strengths = [2.5e4,5e4] #對(duì)于每一個(gè)超參數(shù)集合，用訓(xùn)練集訓(xùn)練一個(gè)SVM，計(jì)算訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率，并存放在 #result字典中，存放最好的驗(yàn)證集準(zhǔn)確率在best_val中，最好的模型放在best_svm中 #result中是(learning_rate, regularization_strength):(training_accuracy, validation_accuracy) results = {} best_val = -1 best_svm = None for lr in learning_rates:for rs in regularization_strengths:svm = LinearSVM()loss_hist = svm.train(X_train, y_train, learning_rate=lr, reg=rs,num_iters=500, verbose=False)#num_iters設(shè)為500，調(diào)高查找速度y_train_pred = svm.predict(X_train)train_accuracy = np.mean(y_train == y_train_pred)y_val_pred = svm.predict(X_val)validation_accuracy = np.mean(y_val == y_val_pred)results[(lr,rs)] = (train_accuracy,validation_accuracy)if best_val < validation_accuracy:best_svm = svmbest_val = validation_accuracy # Print out results. for lr, reg in sorted(results):train_accuracy, val_accuracy = results[(lr, reg)]print('lr %e reg %e train accuracy: %f val accuracy: %f' % (lr, reg, train_accuracy, val_accuracy)) print('best validation accuracy achieved during cross-validation: %f' % best_val)

正確率與超參數(shù)的關(guān)系如下：

在原有的數(shù)量上又增加了一些取值

左上方的顏色為深紅色，表明準(zhǔn)確率最高。學(xué)習(xí)率為1e-7 ，正則化系數(shù)為 5e4，驗(yàn)證集上的準(zhǔn)確率為38%左右。

之后要注意的是在對(duì)測(cè)試集進(jìn)行預(yù)測(cè)之前，要把num_iters調(diào)到較大的值，這里是1500，來(lái)更好地優(yōu)化W。最后測(cè)試集的準(zhǔn)確率為37%左右。

作業(yè)中還把權(quán)重矩陣中各個(gè)類別的權(quán)重繪圖，結(jié)果如下：

可以發(fā)現(xiàn)，SVM分類器是在進(jìn)行著模板匹配的工作。

一些問(wèn)題：

1.多類SVM損失函數(shù)的最大/最小值是多少？

最小值：0 最大值：無(wú)窮大

2.如果初始化時(shí)w和b很小，損失L會(huì)是多少？

設(shè)標(biāo)簽數(shù)為n，單個(gè)樣本的L為n-1。這可以驗(yàn)證編碼是否正確

3.考慮所有類別（包括j=yi）,損失Li會(huì)有什么變化？

會(huì)比原來(lái)多1

4.在求總損失L計(jì)算時(shí)，如果用求和代替平均？

沒有什么影響，可以調(diào)學(xué)習(xí)率

5.如果使用

會(huì)使損失值變很大，對(duì)最終的效果有影響。

與50位技術(shù)專家面對(duì)面20年技術(shù)見證，附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的svm训练完保存权重_assignment1-SVM的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

权重
SVM

上一篇：五行塔怎么吃第五个_中医美容——“五行美
下一篇：不挂载组件渲染_让你的 React 组

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

svm训练完保存权重_assignment1-SVM

理論知識(shí)

算法實(shí)現(xiàn)

調(diào)優(yōu)

總結(jié)