當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Lesson 6.动态计算图与梯度下降入门

發(fā)布時(shí)間：2025/4/5 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 Lesson 6.动态计算图与梯度下降入门小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

? ? ? ?在《Lesson 5.基本優(yōu)化思想與最小二乘法》的結(jié)尾，我們提到PyTorch中的AutoGrad（自動(dòng)微分）模塊，并簡單嘗試使用該模塊中的autograd.grad進(jìn)行函數(shù)的微分運(yùn)算，我們發(fā)現(xiàn)，autograd.grad函數(shù)可以靈活進(jìn)行函數(shù)某一點(diǎn)的導(dǎo)數(shù)或偏導(dǎo)數(shù)的運(yùn)算，但微分計(jì)算其實(shí)也只是AutoGrad模塊中的一小部分功能。本節(jié)課，我們將繼續(xù)講解AutoGrad模塊中的其他常用功能，并在此基礎(chǔ)上介紹另一個(gè)常用優(yōu)化算法：梯度下降算法。

import numpy as np import torch

一、AutoGrad的回溯機(jī)制與動(dòng)態(tài)計(jì)算圖

1.可微分性相關(guān)屬性

??在上一節(jié)中我們提到，新版PyTorch中的張量已經(jīng)不僅僅是一個(gè)純計(jì)算的載體，張量本身也可支持微分運(yùn)算。這種可微分性其實(shí)不僅體現(xiàn)在我們可以使用grad函數(shù)對其進(jìn)行求導(dǎo)，更重要的是這種可微分性會(huì)體現(xiàn)在可微分張量參與的所有運(yùn)算中。

requires_grad屬性：可微分性

# 構(gòu)建可微分張量 x = torch.tensor(1.,requires_grad = True) x #tensor(1., requires_grad=True)# 構(gòu)建函數(shù)關(guān)系 y = x ** 2'''grad_fn屬性：存儲Tensor微分函數(shù)''' y #tensor(1., grad_fn=<PowBackward0>) '''我們發(fā)現(xiàn)，此時(shí)張量y具有了一個(gè)grad_fn屬性，并且取值為<PowBackward0>，我們可以查看該屬性''' y.grad_fn #<PowBackward0 at 0x200a2047208> '''grad_fn其實(shí)是存儲了Tensor的微分函數(shù)，或者說grad_fn存儲了可微分張量在進(jìn)行計(jì)算的過程中函數(shù)關(guān)系，此處x到y(tǒng)其實(shí)就是進(jìn)行了冪運(yùn)算'''# 但x作為初始張量，并沒有g(shù)rad_fn屬性 x.grad_fn'''這里值得主要的是，y不僅和x存在冪運(yùn)算關(guān)系（y = x**2），更重要的是，y本身還是一個(gè)有x張量計(jì)算得出的一個(gè)張量''' y #tensor(1., grad_fn=<PowBackward0>)'''而對于一個(gè)可微分張量生成的張量，也是可微分的''' y.requires_grad #True'''也就是相比于x，y不僅同樣擁有張量的取值，并且同樣可微，還額外存儲了x到y(tǒng)的函數(shù)計(jì)算信息。我們再嘗試圍繞y創(chuàng)建新的函數(shù)關(guān)系，z = y + 1''' z = y + 1 z #tensor(2., grad_fn=<AddBackward0>)z.requires_grad #Truez.grad_fn #<AddBackward0 at 0x200a2037648>

不難發(fā)現(xiàn)，z也同時(shí)存儲了張量計(jì)算數(shù)值、z是可微的，并且z還存儲了和y的計(jì)算關(guān)系（add）。據(jù)此我們可以知道，在PyTorch的張量計(jì)算過程中，如果我們設(shè)置初始張量是可微的，則在計(jì)算過程中，每一個(gè)由原張量計(jì)算得出的新張量都是可微的，并且還會(huì)保存此前一步的函數(shù)關(guān)系，這也就是所謂的回溯機(jī)制。而根據(jù)這個(gè)回溯機(jī)制，我們就能非常清楚掌握張量的每一步計(jì)算，并據(jù)此繪制張量計(jì)算圖。

2.張量計(jì)算圖

??借助回溯機(jī)制，我們就能將張量的復(fù)雜計(jì)算過程抽象為一張圖（Graph），例如此前我們定義的x、y、z三個(gè)張量，三者的計(jì)算關(guān)系就可以由下圖進(jìn)行表示。

計(jì)算圖的定義

??上圖就是用于記錄可微分張量計(jì)算關(guān)系的張量計(jì)算圖，圖由節(jié)點(diǎn)和有向邊構(gòu)成，其中節(jié)點(diǎn)表示張量，邊表示函數(shù)計(jì)算關(guān)系，方向則表示實(shí)際運(yùn)算方向，張量計(jì)算圖本質(zhì)是有向無環(huán)圖。

節(jié)點(diǎn)類型

??在張量計(jì)算圖中，雖然每個(gè)節(jié)點(diǎn)都表示可微分張量，但節(jié)點(diǎn)和節(jié)點(diǎn)之間卻略有不同。就像在前例中，y和z保存了函數(shù)計(jì)算關(guān)系，但x沒有，而在實(shí)際計(jì)算關(guān)系中，我們不難發(fā)現(xiàn)z是所有計(jì)算的終點(diǎn)，因此，雖然x、y、z都是節(jié)點(diǎn)，但每個(gè)節(jié)點(diǎn)卻并不一樣。此處我們可以將節(jié)點(diǎn)分為三類，分別是：
a)：葉節(jié)點(diǎn)，也就是初始輸入的可微分張量，前例中x就是葉節(jié)點(diǎn)；
b)：輸出節(jié)點(diǎn)，也就是最后計(jì)算得出的張量，前例中z就是輸出節(jié)點(diǎn)；
c)：中間節(jié)點(diǎn)，在一張計(jì)算圖中，除了葉節(jié)點(diǎn)和輸出節(jié)點(diǎn)，其他都是中間節(jié)點(diǎn)，前例中y就是中間節(jié)點(diǎn)。
當(dāng)然，在一張計(jì)算圖中，可以有多個(gè)葉節(jié)點(diǎn)和中間節(jié)點(diǎn)，但大多數(shù)情況下，只有一個(gè)輸出節(jié)點(diǎn)，若存在多個(gè)輸出結(jié)果，我們也往往會(huì)將其保存在一個(gè)張量中。

3.計(jì)算圖的動(dòng)態(tài)性

??值得一提的是，PyTorch的計(jì)算圖是動(dòng)態(tài)計(jì)算圖，會(huì)根據(jù)可微分張量的計(jì)算過程自動(dòng)生成，并且伴隨著新張量或運(yùn)算的加入不斷更新，這使得PyTorch的計(jì)算圖更加靈活高效，并且更加易于構(gòu)建，相比于先構(gòu)件圖后執(zhí)行計(jì)算的部分框架（如老版本的TensorFlow），動(dòng)態(tài)圖也更加適用于面向?qū)ο缶幊獭?/p>

二、反向傳播與梯度計(jì)算

1.反向傳播的基本過程

??在《Lesson 5.》中，我們曾使用autograd.grad進(jìn)行函數(shù)某一點(diǎn)的導(dǎo)數(shù)值得計(jì)算，其實(shí)，除了使用函數(shù)以外，我們還有另一種方法，也能進(jìn)行導(dǎo)數(shù)運(yùn)算：反向傳播。當(dāng)然，此時(shí)導(dǎo)數(shù)運(yùn)算結(jié)果我們也可以有另一種解讀：計(jì)算梯度結(jié)果。

注：此處我們暫時(shí)不區(qū)分微分運(yùn)算結(jié)果、導(dǎo)數(shù)值、梯度值三者區(qū)別，目前位置三個(gè)概念相同，后續(xù)講解梯度下降時(shí)再進(jìn)行區(qū)分。

首先，對于某一個(gè)可微分張量的導(dǎo)數(shù)值（梯度值），存儲在grad屬性中。

x.grad

在最初，x.grad屬性是空值，不會(huì)返回任何結(jié)果，我們雖然已經(jīng)構(gòu)建了x、y、z三者之間的函數(shù)關(guān)系，x也有具體取值，但要計(jì)算x點(diǎn)導(dǎo)數(shù)，還需要進(jìn)行具體的求導(dǎo)運(yùn)算，也就是執(zhí)行所謂的反向傳播。所謂反向傳播，我們可以簡單理解為，在此前記錄的函數(shù)關(guān)系基礎(chǔ)上，反向傳播函數(shù)關(guān)系，進(jìn)而求得葉節(jié)點(diǎn)的導(dǎo)數(shù)值。在必要時(shí)求導(dǎo)，這也是節(jié)省計(jì)算資源和存儲空間的必要規(guī)定。

z #tensor(2., grad_fn=<AddBackward0>)z.grad_fn #<AddBackward0 at 0x7fad381971c0># 執(zhí)行反向傳播 z.backward() '''反向傳播結(jié)束后，即可查看葉節(jié)點(diǎn)的導(dǎo)數(shù)值'''x #tensor(1., requires_grad=True)# 在z=y+1=x**2+1函數(shù)關(guān)系基礎(chǔ)上，x取值為1時(shí)的導(dǎo)數(shù)值 x.grad #tensor(2.)'''注意，在默認(rèn)情況下，在一張計(jì)算圖上執(zhí)行反向傳播，只能計(jì)算一次，再次調(diào)用backward方法將報(bào)錯(cuò)''' z.backward() #--------------------------------------------------------------------------- #RuntimeError Traceback (most recent call last) #<ipython-input-52-40c0c9b0bbab> in <module> #----> 1 z.backward()

當(dāng)然，在y上也能執(zhí)行反向傳播

x = torch.tensor(1.,requires_grad = True) y = x ** 2 z = y + 1y.backward()x.grad #tensor(2.)'''第二次執(zhí)行時(shí)也會(huì)報(bào)錯(cuò)''' y.backward() #--------------------------------------------------------------------------- #RuntimeError Traceback (most recent call last) #<ipython-input-60-ab75bb780f4c> in <module> #----> 1 y.backward() z.backward() #--------------------------------------------------------------------------- #RuntimeError Traceback (most recent call last) #<ipython-input-61-40c0c9b0bbab> in <module> #----> 1 z.backward()'''無論何時(shí)，我們只能計(jì)算葉節(jié)點(diǎn)的導(dǎo)數(shù)值''' y.grad #D:\Users\ASUS\anaconda3\lib\site-packages\ipykernel_launcher.py:1: UserWarning: #The .grad attribute of a Tensor that is not a leaf Tensor is being accessed. Its #.grad attribute won't be populated during autograd.backward(). If you indeed want #the gradient for a non-leaf Tensor, use .retain_grad() on the non-leaf Tensor. If #you access the non-leaf Tensor by mistake, make sure you access the leaf Tensor #instead. See github.com/pytorch/pytorch/pull/30531 for more informations. # """Entry point for launching an IPython kernel.

至此，我們就了解了反向傳播的基本概念和使用方法：

反向傳播的本質(zhì)：函數(shù)關(guān)系的反向傳播（不是反函數(shù)）；
反向傳播的執(zhí)行條件：擁有函數(shù)關(guān)系的可微分張量（計(jì)算圖中除了葉節(jié)點(diǎn)的其他節(jié)點(diǎn)）；
反向傳播的函數(shù)作用：計(jì)算葉節(jié)點(diǎn)的導(dǎo)數(shù)/微分/梯度運(yùn)算結(jié)果；

2.反向傳播運(yùn)算注意事項(xiàng)

中間節(jié)點(diǎn)反向傳播和輸出節(jié)點(diǎn)反向傳播區(qū)別

??盡管中間節(jié)點(diǎn)也可進(jìn)行反向傳播，但很多時(shí)候由于存在復(fù)合函數(shù)關(guān)系，中間節(jié)點(diǎn)反向傳播的計(jì)算結(jié)果和輸出節(jié)點(diǎn)反向傳播輸出結(jié)果并不相同。

x = torch.tensor(1.,requires_grad = True) y = x ** 2 z = y ** 2 z.backward() x.grad #tensor(4.)x = torch.tensor(1.,requires_grad = True) y = x ** 2 z = y ** 2 y.backward() x.grad #tensor(2.)

中間節(jié)點(diǎn)的梯度保存

??默認(rèn)情況下，在反向傳播過程中，中間節(jié)點(diǎn)并不會(huì)保存梯度

x = torch.tensor(1.,requires_grad = True) y = x ** 2 z = y ** 2 z.backward() y.grad #D:\Users\ASUS\anaconda3\lib\site-packages\ipykernel_launcher.py:2: UserWarning: #The .grad attribute of a Tensor that is not a leaf Tensor is being accessed. Its #.grad attribute won't be populated during autograd.backward(). If you indeed want #the gradient for a non-leaf Tensor, use .retain_grad() on the non-leaf Tensor. If #you access the non-leaf Tensor by mistake, make sure you access the leaf Tensor #instead. See github.com/pytorch/pytorch/pull/30531 for more informations. x.grad #tensor(4.)'''若想保存中間節(jié)點(diǎn)的梯度，我們可以使用retain_grad()方法''' x = torch.tensor(1.,requires_grad = True) y = x ** 2 y.retain_grad() z = y ** 2 z.backward() y #tensor(1., grad_fn=<PowBackward0>) y.grad #tensor(2.) x.grad #tensor(4.)

3.阻止計(jì)算圖追蹤

??在默認(rèn)情況下，只要初始張量是可微分張量，系統(tǒng)就會(huì)自動(dòng)追蹤其相關(guān)運(yùn)算，并保存在計(jì)算圖關(guān)系中，我們也可通過grad_fn來查看記錄的函數(shù)關(guān)系，但在特殊的情況下，我們并不希望可微張量從創(chuàng)建到運(yùn)算結(jié)果輸出都被記錄，此時(shí)就可以使用一些方法來阻止部分運(yùn)算被記錄。

with torch.no_grad()：阻止計(jì)算圖記錄

??例如，我們希望x、y的函數(shù)關(guān)系被記錄，而y的后續(xù)其他運(yùn)算不被記錄，可以使用with torch.no_grad()來組織部分y的運(yùn)算不被記錄。

x = torch.tensor(1.,requires_grad = True) y = x ** 2with torch.no_grad():z = y ** 2'''with相當(dāng)于是一個(gè)上下文管理器，with torch.no_grad()內(nèi)部代碼都“屏蔽”了計(jì)算圖的追蹤記錄''' z #tensor(1.)z.requires_grad #Falsey #tensor(1., grad_fn=<PowBackward0>)

.detach()方法：創(chuàng)建一個(gè)不可導(dǎo)的相同張量

在某些情況下，我們也可以創(chuàng)建一個(gè)不可導(dǎo)的相同張量參與后續(xù)運(yùn)算，從而阻斷計(jì)算圖的追蹤

x = torch.tensor(1.,requires_grad = True) y = x ** 2 y1 = y.detach() z = y1 ** 2y #tensor(1., grad_fn=<PowBackward0>)y1 #tensor(1.)z #tensor(1.)

4.識別葉節(jié)點(diǎn)

??由于葉節(jié)點(diǎn)較為特殊，如果需要識別在一個(gè)計(jì)算圖中某張量是否是葉節(jié)點(diǎn)，可以使用is_leaf屬性查看對應(yīng)張量是否是葉節(jié)點(diǎn)。

x.is_leaf #Truey.is_leaf #False'''但is_leaf方法也有容易混淆的地方，對于任何一個(gè)新創(chuàng)建的張量，無論是否可導(dǎo)、是否加入計(jì)算圖，都是可以是葉節(jié)點(diǎn)，這些節(jié)點(diǎn)距離真正的葉節(jié)點(diǎn)，只差一個(gè)requires_grad屬性調(diào)整。''' torch.tensor([1]).is_leaf #True# 經(jīng)過detach的張量，也可以是葉節(jié)點(diǎn) y1 #tensor(1.)y1.is_leaf #True

三、梯度下降基本思想

??有了AutoGrad模塊中各函數(shù)方法的支持，接下來，我們就能嘗試手動(dòng)構(gòu)建另一個(gè)優(yōu)化算法：梯度下降算法。

1.最小二乘法的局限與優(yōu)化

??在《Lesson 5.》中，我們嘗試使用最小二乘法求解簡單線性回歸的目標(biāo)函數(shù)，并順利的求得了全域最優(yōu)解。但正如上節(jié)所說，在所有的優(yōu)化算法中最小二乘法雖然高效并且結(jié)果精確，但也有不完美的地方，核心就在于最小二乘法的使用條件較為苛刻，要求特征張量的交叉乘積結(jié)果必須是滿秩矩陣，才能進(jìn)行求解。而在實(shí)際情況中，很多數(shù)據(jù)的特征張量并不能滿足條件，此時(shí)就無法使用最小二乘法進(jìn)行求解。

最小二乘法結(jié)果：

??當(dāng)最小二乘法失效的情況時(shí)，其實(shí)往往也就代表原目標(biāo)函數(shù)沒有最優(yōu)解或最優(yōu)解不唯一。針對這樣的情況，有很多中解決方案，例如，我們可以在原矩陣方程中加入一個(gè)擾動(dòng)項(xiàng)𝜆𝐼，修改后表達(dá)式如下：

其中，𝜆是擾動(dòng)項(xiàng)系數(shù)，𝐼是單元矩陣。由矩陣性質(zhì)可知，加入單位矩陣后，(𝑋^𝑇𝑋+𝜆𝐼)部分一定可逆，而后即可直接求解𝑤?^𝑇?，這也就是嶺回歸的一般做法。

??當(dāng)然，上式修改后求得的結(jié)果就不再是全域最小值，而是一個(gè)接近最小值的點(diǎn)。鑒于許多目標(biāo)函數(shù)本身也并不存在最小值或者唯一最小值，在優(yōu)化的過程中略有偏差也是可以接受的。當(dāng)然，伴隨著深度學(xué)習(xí)的逐漸深入，我們會(huì)發(fā)現(xiàn)，最小值并不唯一存在才是目標(biāo)函數(shù)的常態(tài)。基于此情況，很多根據(jù)等式形變得到的精確的求解析解的優(yōu)化方法（如最小二乘）就無法適用，此時(shí)我們需要尋找一種更加通用的，能夠高效、快速逼近目標(biāo)函數(shù)優(yōu)化目標(biāo)的最優(yōu)化方法。在機(jī)器學(xué)習(xí)領(lǐng)域，最通用的求解目標(biāo)函數(shù)的最優(yōu)化方法就是著名的梯度下降算法。

??值得一提的是，我們通常指的梯度下降算法，并不是某一個(gè)算法，而是某一類依照梯度下降基本理論基礎(chǔ)展開的算法簇，包括梯度下降算法、隨機(jī)梯度下降算法、小批量梯度下降算法等等。接下來，我們就從最簡單的梯度下降入手，講解梯度下降的核心思想和一般使用方法。

2.梯度下降核心思想

??梯度下降的基本思想其實(shí)并不復(fù)雜，其核心就是希望能夠通過數(shù)學(xué)意義上的迭代運(yùn)算，從一個(gè)隨機(jī)點(diǎn)出發(fā)，一步步逼近最優(yōu)解。

例如，在此前求解簡單線性回歸方程的過程中，我們曾查看SSE的三維函數(shù)圖像如下：

from matplotlib import pyplot as plt from mpl_toolkits.mplot3d import Axes3Dx = np.arange(-1,3,0.05) y = np.arange(-1,3,0.05) a, b = np.meshgrid(x, y) SSE = (2 - a - b) ** 2 + (4 - 3 * a - b) ** 2fig = plt.figure() ax = plt.axes(projection='3d')ax.plot_surface(a, b, SSE, cmap='rainbow') ax.contour(a, b, SSE, zdir='z', offset=0, cmap="rainbow") #生成z方向投影，投到x-y平面 plt.show()

而梯度下降，作為最優(yōu)化算法，核心目標(biāo)也是找到或者逼近最小值點(diǎn)，而其基本過程則：

在目標(biāo)函數(shù)上隨機(jī)找到一個(gè)初始點(diǎn)；
通過迭代運(yùn)算，一步步逼近最小值點(diǎn)；

數(shù)學(xué)意義上的迭代運(yùn)算，指的是上一次計(jì)算的結(jié)果作為下一次運(yùn)算的初始條件帶入運(yùn)算

3.梯度下降的方向與步長

??當(dāng)然，梯度下降的基本思想好理解，但實(shí)現(xiàn)起來卻并不容易（這也是大多數(shù)機(jī)器學(xué)習(xí)算法的常態(tài)）。在實(shí)際沿著目標(biāo)函數(shù)下降的過程中，我們核心需要解決兩個(gè)問題，其一是往哪個(gè)方向走，其二是每一步走多遠(yuǎn)。以上述簡單線性回歸的目標(biāo)函數(shù)為例，在三維空間中，目標(biāo)函數(shù)上的每個(gè)點(diǎn)理論上都有無數(shù)個(gè)移動(dòng)的方向，每次移動(dòng)多遠(yuǎn)的物理距離也沒有明顯的約束，而這些就是梯度下降算法核心需要解決的問題，也就是所謂的方向和步長。

首先，是關(guān)于方向的討論。

關(guān)于方向的討論，其實(shí)梯度下降是采用了一種局部最優(yōu)推導(dǎo)全域最優(yōu)的思路，我們首先是希望能夠找到讓目標(biāo)函數(shù)變化最快的方向作為移動(dòng)的方向，而這個(gè)方向，就是梯度。

3.1 導(dǎo)數(shù)與梯度

??我們都知道，函數(shù)上某一點(diǎn)的導(dǎo)數(shù)值的幾何含義就是函數(shù)在該點(diǎn)上切線的斜率。例如y=x**2中，x在1點(diǎn)的導(dǎo)數(shù)就是函數(shù)在1點(diǎn)的切線的斜率。

x = np.arange(-10,10,0.1) y = x ** 2 # y = 2x z = 2 * x - 1 # 在（1，1）點(diǎn)的切線方程 plt.plot(x, y, '-') plt.plot(x, z, 'r-') plt.plot(1, 1, 'bo') plt.show()

而更進(jìn)一步來講，對于上述函數(shù)，x取值為1的時(shí)候，導(dǎo)數(shù)和切線的斜率為2，代表含義是給1這個(gè)點(diǎn)一個(gè)無窮小的增量，1只能沿著切向方向移動(dòng)（但仍然在曲線上）。當(dāng)然，該點(diǎn)導(dǎo)數(shù)值的另外一個(gè)解釋就是該點(diǎn)的梯度，梯度的值（grad）和導(dǎo)數(shù)相同，而梯度的概念可以視為導(dǎo)數(shù)概念的延申，只不過梯度更側(cè)重方向的概念，也就是從梯度的角度解讀導(dǎo)數(shù)值，就代表著當(dāng)前這個(gè)點(diǎn)的可以使得y值增加最快的移動(dòng)方向。

梯度：梯度本身是一個(gè)代表方向的矢量，代表某一函數(shù)在該點(diǎn)處沿著梯度方向變化時(shí)，變化率最大。當(dāng)然，梯度的正方向代表函數(shù)值增長最快的方向，梯度的負(fù)方向表示函數(shù)減少最快的方向。

x = torch.tensor(1., requires_grad = True) y = x ** 2 y.backward() x.grad #tensor(2.)

不過此時(shí)由于自變量存在一維空間，只能沿著x軸變化（左右移動(dòng)，只有兩個(gè)方向），梯度給出的方向只能解讀為朝著2，也就是正方向變化時(shí)，y的增加最快（確實(shí)如此，同時(shí)也顯而易見）。

3.2 梯度與方向

??為了更好的解讀梯度與方向之間的關(guān)系，我們以《Lesson 5.》中簡單線性回歸損失函數(shù)為例來進(jìn)行查看。我們有目標(biāo)函數(shù)及其圖像如下：

fig = plt.figure() ax = plt.axes(projection='3d')ax.plot_surface(a, b, SSE, cmap='rainbow') ax.contour(a, b, SSE, zdir='z', offset=0, cmap="rainbow") #生成z方向投影，投到x-y平面 plt.show()

此時(shí)a、b是在實(shí)數(shù)域上取值。假設(shè)二者初始值為0，也就是初始隨機(jī)點(diǎn)為原點(diǎn)。對于（0，0）點(diǎn)，有梯度計(jì)算如下

a = torch.tensor(0., requires_grad = True) a #tensor(0., requires_grad=True)b = torch.tensor(0., requires_grad = True) b #tensor(0., requires_grad=True)s0 = torch.pow((2 - a - b), 2) + torch.pow((4 - 3 * a - b), 2) s0 #tensor(20., grad_fn=<AddBackward0>) s0.backward() a.grad, b.grad #(tensor(-28.), tensor(-12.)) '''也就是原點(diǎn)和（-28，-12）這個(gè)點(diǎn)之間連成直線的方向，就是能夠使得sse變化最快的方向，并且朝向（-28，-12）方向就是使得sse增加最快的方向，反方向則是令sse減少最快的方向。''' # 通過繪制直線，確定原點(diǎn)的移動(dòng)方向 x = np.arange(-30,30,0.1) y = (12/28) * x plt.plot(x, y, '-') plt.plot(0, 0, 'ro') plt.plot(-28, -12, 'ro')

Point:這里有關(guān)于方向的兩點(diǎn)討論

方向沒有大小，雖然這是個(gè)顯而易見的觀點(diǎn)，但我們當(dāng)我們說朝著（-28，-12）方向移動(dòng)，只是說沿著直線移動(dòng)，并非一步移動(dòng)到（-28，-12）上；
方向跟隨梯度，隨時(shí)在發(fā)生變化。值得注意的是，一旦點(diǎn)發(fā)生移動(dòng)，梯度就會(huì)隨之發(fā)生變化，也就是說，哪怕是沿著讓sse變化最快的方向移動(dòng)，一旦“沿著方向”移動(dòng)了一小步，這個(gè)方向就不再是最優(yōu)方向了。

當(dāng)然，逆梯度值的方向變化是使得sse變小的最快方向，我們嘗試移動(dòng)“一小步”。一步移動(dòng)到(28,12)是沒有意義的，梯度各分量數(shù)值的絕對值本身也沒有距離這個(gè)層面的數(shù)學(xué)含義。由于a和b的取值要按照（28，12）等比例變化，因此我們不妨采用如下方法進(jìn)行移動(dòng)：

s0 #tensor(20., grad_fn=<AddBackward0>)a = torch.tensor(0.28, requires_grad = True) a #tensor(0.2800, requires_grad=True) b = torch.tensor(0.12, requires_grad = True) b #tensor(0.1200, requires_grad=True) s1 = (2 - a - b) ** 2 + (4 - 3 * a - b) ** 2 s1 #tensor(11.8016, grad_fn=<AddBackward0>)'''確實(shí)有所下降，繼續(xù)求解新的點(diǎn)的梯度''' s1.backward() a.grad, b.grad #(tensor(-21.4400), tensor(-9.2800))

不難看出，方向已經(jīng)發(fā)生變化。其實(shí)無論移動(dòng)“多小”一步，只要移動(dòng)，方向就需要重新計(jì)算。如果每個(gè)點(diǎn)的梯度提供了移動(dòng)方向的最優(yōu)解，那移動(dòng)多長，其實(shí)并沒有統(tǒng)一的規(guī)定。這里，我們將上述0.01稱作學(xué)習(xí)率，而學(xué)習(xí)率乘以梯度，則是原點(diǎn)移動(dòng)的“長度”。

當(dāng)然，在移動(dòng)到(0.28,0.12)之后，還沒有取到全域最優(yōu)解，因此還需要繼續(xù)移動(dòng)，當(dāng)然我們還可以繼續(xù)按照0.01這個(gè)學(xué)習(xí)率繼續(xù)移動(dòng)，此時(shí)，新的梯度為（-21.44,-9.28)，則有

接下來，我們可以繼續(xù)計(jì)算新的(0.94,0.148)這個(gè)點(diǎn)的梯度，然后繼續(xù)按照學(xué)習(xí)率0.01繼續(xù)移動(dòng)，在移動(dòng)若干次之后，就將得到非常接近于（1，1）的結(jié)果。

四、梯度下降的數(shù)學(xué)表示

1.梯度下降的代數(shù)表示

??根據(jù)上述描述過程，我們可以通過代數(shù)運(yùn)算方式總結(jié)梯度下降運(yùn)算的一般過程

令多元線性回歸方程為

令

出于加快迭代收斂速度的目標(biāo)，我們在定義梯度下降的損失函數(shù)L時(shí)，在原SSE基礎(chǔ)上進(jìn)行比例修正，新的損失函數(shù)𝐿(𝑤1,𝑤2,...,𝑤𝑑,𝑏)=1/(2m)*SSE，其中，m為樣本個(gè)數(shù)。?

損失函數(shù)有：

并且，根據(jù)此前描述過程，在開始梯度下降求解參數(shù)之前，我們首先需要設(shè)置一組參數(shù)的初始取值(𝑤1,𝑤2...,𝑤𝑑,𝑏)，以及學(xué)習(xí)率𝛼，然后即可執(zhí)行迭代運(yùn)算，其中每一輪迭代過程需要執(zhí)行以下三步

Step 1.計(jì)算梯度表達(dá)式

?Step 2.用學(xué)習(xí)率乘以損失函數(shù)梯度，得到迭代移動(dòng)距離

?Step 3.用原參數(shù)減Step 2中計(jì)算得到的距離，更新所有的參數(shù)w

更新完所有參數(shù)，即完成了一輪的迭代，接下來就能以新的一組𝑤𝑖參與下一輪迭代。

上一輪計(jì)算結(jié)果作為下一輪計(jì)算的初始值，就是所謂的迭代。

而何時(shí)停止迭代，一般來說有兩種情況，其一是設(shè)置迭代次數(shù)，到達(dá)迭代次數(shù)即停止迭代；其二則是設(shè)置收斂區(qū)間，即當(dāng)某兩次迭代過程中，每個(gè)𝑤𝑖更新的數(shù)值都小于某個(gè)預(yù)設(shè)的值，則停止迭代。

2.再次理解步長

根據(jù)梯度下降的線性代數(shù)表示方法，我們可以通過某個(gè)實(shí)例來強(qiáng)化理解步長這一概念。

有數(shù)據(jù)集表示如下：

?假設(shè)，我們使用𝑦=𝑤𝑥進(jìn)行擬合，則SSE為：

此時(shí)，SSE就是一個(gè)關(guān)于w的一元函數(shù)。當(dāng)使用最小二乘法進(jìn)行求解時(shí)，SSE就是損失函數(shù)，并且SSE對于w求導(dǎo)為0的點(diǎn)就是最小值點(diǎn)，因此有：

?但我們使用梯度下降求解時(shí)：

由于梯度表示方向，在某些情況下我們可以對其絕對數(shù)值進(jìn)行一定程度上的“縮放”，此時(shí)我們規(guī)定有效梯度是原梯度的1/28，則有

設(shè)步長α=0.5，初始值點(diǎn)取為𝑤0=0，則迭代過程如下：

第一輪迭代：

第二輪迭代：

第三輪迭代：

第四輪迭代：

依次類推：

我們不難發(fā)現(xiàn)，如果損失函數(shù)是凸函數(shù)，并且全域最小值存在，則步長可以表示當(dāng)前點(diǎn)和最小值點(diǎn)之間距離的比例關(guān)系。但總的來說，對于步長的設(shè)置，我們有如下初步結(jié)論：

步長太短：會(huì)極大的影響迭代收斂的時(shí)間，整體計(jì)算效率會(huì)非常低；

步長太長：容易跳過最優(yōu)解，導(dǎo)致結(jié)果震蕩。

關(guān)于步長的設(shè)置，其實(shí)更多的會(huì)和實(shí)際使用情況相關(guān)，和實(shí)際損失函數(shù)特性相關(guān)，因此我們會(huì)在后續(xù)使用梯度下降求解目標(biāo)函數(shù)時(shí)根據(jù)實(shí)際情況，講解步長的實(shí)際調(diào)整策略。

3.梯度下降的矩陣表示

??和最小二乘法一樣，代數(shù)表示形式易于理解但不易與代碼操作，在實(shí)際編程實(shí)現(xiàn)梯度下降的過程中，我們還是更傾向于使用矩陣來表示梯度下降計(jì)算過程。

令?

𝑤? ：方程系數(shù)所組成的向量，并且我們將自變量系數(shù)和截距放到了一個(gè)向量中，此處𝑤? 就相當(dāng)于前例中的a、b組成的向量(a,b)；
𝑥? ：方程自變量和1共同組成的向量；

因此，方程可表示為

另外，我們將所有自變量的值放在一個(gè)矩陣中，并且和此前A矩陣類似，為了捕捉截距，添加一列全為1的列在矩陣的末尾，設(shè)總共有m組取值，則

對應(yīng)到前例中的A矩陣，A矩陣就是擁有一個(gè)自變量、兩個(gè)取值的X矩陣。令y為自變量的取值，則有

?此時(shí)，SSE可表示為：

梯度下降損失函數(shù)為：

同樣，我們需要設(shè)置初始化參數(shù)(𝑤1,𝑤2...,𝑤𝑑,𝑏)，以及學(xué)習(xí)率𝛼，然后即可開始執(zhí)行迭代過程，同樣，每一輪迭代需要有三步計(jì)算：

Step 1.計(jì)算梯度表達(dá)式

對于參數(shù)向量𝑤? ，其梯度計(jì)算表達(dá)式如下：

Step 2.用學(xué)習(xí)率乘以損失函數(shù)梯度，得到迭代移動(dòng)距離

Step 3.用原參數(shù)減Step 2中計(jì)算得到的距離，更新所有的參數(shù)w

更新完所有參數(shù)，即完成了一輪的迭代，接下來就能以新的𝑤? 參與下一輪迭代。

五、手動(dòng)實(shí)現(xiàn)梯度下降

??接下來，我們使用上述矩陣表示的梯度下降公式，圍繞此前的簡單線性回歸的目標(biāo)函數(shù)，利用此前介紹的AutoGrad模塊中的梯度計(jì)算功能，來進(jìn)行手動(dòng)求解梯度下降。

在轉(zhuǎn)化為矩陣表示的過程中，我們令?

手動(dòng)嘗試實(shí)現(xiàn)一輪迭代

# 設(shè)置初始參數(shù) weights = torch.zeros(2, 1, requires_grad = True) weights #tensor([[0.], # [0.]], requires_grad=True)# 特征張量 X = torch.tensor([[1.,1],[3, 1]], requires_grad = True) X #tensor([[1., 1.], # [3., 1.]], requires_grad=True)y = torch.tensor([2.,4], requires_grad = True).reshape(2,1) y #tensor([[2.], # [4.]], grad_fn=<ViewBackward>)# 設(shè)置步長 eps = torch.tensor(0.01, requires_grad = True) eps #tensor(0.0100, requires_grad=True)# 梯度計(jì)算公式 grad = torch.mm(X.t(), (torch.mm(X, weights) - y))/2 grad #tensor([[-7.], # [-3.]], grad_fn=<DivBackward0>) '''注意對比代數(shù)方程計(jì)算結(jié)果，初始梯度為（-28，-12），此處相差4，也就是2m，m是樣本個(gè)數(shù)。'''weights = weights - eps * grad weights #tensor([[0.0700], # [0.0300]], grad_fn=<SubBackward0>)'''迭代3輪''' for k in range(3):grad = torch.mm(X.t(), (torch.mm(X, weights) - y))/2weights = weights - eps * grad weights #tensor([[0.2563], # [0.1102]], grad_fn=<SubBackward0>)'''編寫函數(shù)進(jìn)行迭代運(yùn)算''' def gradDescent(X, y, eps = torch.tensor(0.01, requires_grad = True), numIt = 1000):m, n = X.shapeweights = torch.zeros(n, 1, requires_grad = True)for k in range(numIt):grad = torch.mm(X.t(), (torch.mm(X, weights) - y))/2weights = weights - eps * gradreturn weightsX = torch.tensor([[1.,1],[3, 1]], requires_grad = True) X #tensor([[1., 1.], # [3., 1.]], requires_grad=True)y = torch.tensor([2.,4], requires_grad = True).reshape(2,1) y #tensor([[2.], # [4.]], grad_fn=<ViewBackward>)gradDescent(X, y) #tensor([[1.0372], # [0.9102]], grad_fn=<SubBackward0>)weights = gradDescent(X, y, numIt = 10000) weights #tensor([[1.0000], # [1.0000]], grad_fn=<SubBackward0>)

torch.mm((torch.mm(X,weights)-y).t(), torch.mm(X,weights)-y) #tensor([[2.8518e-10]], grad_fn=<MmBackward>) 《新程序員》：云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的Lesson 6.动态计算图与梯度下降入门的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Lesson 5.基本优化思想与最小二乘
下一篇： Lesson 7（12）神经网络的诞生与