python向量化编程技巧_神经网络基础之Python与向量化
Vectorization
深度學習算法中,數據量很大,在程序中盡量減少使用loop循環語句,而可以使用向量運算來提高程序運行速度。
向量化(Vectorization)就是利用矩陣運算的思想,大大提高運算速度。例如下面所示在Python中使用向量化要比使用循環計算速度快得多。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21import numpy as np
import time
a = np.random.rand(1000000)
b = np.random.rand(1000000)
tic = time.time()
c = np.dot(a,b)
toc = time.time()
print(c)
print("Vectorized version:" + str(1000*(toc-tic)) + "ms")
c = 0
tic = time.time()
for i in range(1000000):
c += a[i]*b[i]
toc = time.time()
print(c)
print("for loop:" + str(1000*(toc-tic)) + "ms")
輸出結果類似于:1
2
3
4250286.989866
Vectorized version:1.5027523040771484ms
250286.989866
For loop:474.29513931274414ms
從程序運行結果上來看,該例子使用for循環運行時間是使用向量運算運行時間的約300倍。因此,深度學習算法中,使用向量化矩陣運算的效率要高得多。
為了加快深度學習神經網絡運算速度,可以使用比CPU運算能力更強大的GPU。事實上,GPU和CPU都有并行指令(parallelization instructions),稱為Single Instruction Multiple Data(SIMD)。SIMD是單指令多數據流,能夠復制多個操作數,并把它們打包在大型寄存器的一組指令集。SIMD能夠大大提高程序運行速度,例如python的numpy庫中的內建函數(build-in function) 就是使用了SIMD指令。相比而言,GPU的SIMD要比CPU更強大一些。
More Vectorization Examples
盡量避免使用for循環而使用向量化矩陣運算。在python的numpy庫中,我們通常使用np.dot()函數來進行矩陣運算。
我們將向量化的思想使用在邏輯回歸算法,盡可能減少for循環,而只使用矩陣運算。值得注意的是,算法最頂層的迭代訓練的for循環是不能替換的。而每次迭代過程對J,dw,b的計算是可以直接使用矩陣運算。
Vectorizing Logistic Regression
整個訓練樣本構成的輸入矩陣X的維度是$(n_X,1)$,b是一個常數值,而整個訓練忘本構成的輸出矩陣Y的維度是(1,m)。利用向量化的思想,所有m個樣本的線性輸出Z可以用矩陣表示:
在python的numpy庫中可以表示為:1
2Z = np.dot(w.T,X) + b
A = sigmoid(Z)
其中,w,T表示w的轉置
這樣,我們就能夠使用向量化矩陣運算代替for循環,對所有m個樣本同時運算,大大提高了運算速度。
Vectorizing Logistic Regression’s Gradient Output
再來看邏輯回歸中的梯度下降算法如何轉化為向量化的矩陣形式。對于所有m個樣本,db可表示為:
db可表示為:
對應的程序為:1db=1/m*np.sum(dZ)
dw課表示為:
對應的程序為1dw=1/m*np.dot(X,dZ,T)
這樣,我們把整個邏輯回歸中的for循環盡可能用矩陣運算代替,對于單次迭代,梯度下降算法流程如下所示:1
2
3
4
5
6
7
8Z=np.dot(w.T,X)+b
A= sigmoid(Z)
dZ= A-Y
dw = 1/m*np.dot(X,dZ.T)
db = 1/m*np.sum(dZ)
w = w - alpha*dw
b = b - alpha*db
其中,alpha是學習因子,決定w和b的更新速度。上述代碼只是單次訓練更新而言的,外層還需要一個for循環,代表迭代次數。
Broadcasting in Python
下面介紹使用python的另一種技巧:廣播(Broadcasting).python中的廣播機制可以由下面四條表示:
·讓所有輸入數組都向其中shape最長的數組看齊,shape中不足的部分都通過在前面加1補齊
·輸出數組的shape是輸入數組shape的各軸上的最大值
·如果輸入數組的某個軸和輸出數組的對應軸的長度相同或者其長度為1時,這個數組能夠用來計算,否則出錯
·當輸入數組的某個軸的長度為1時,沿著此軸運算時都用此軸上的第一組值
簡而言之,就是用python中可以對不同維度的矩陣進行四則混合運算,但至少保證有一個維度是相同的。下面給出幾個廣播的例子,具體細節可參閱python的相關手冊,這里就不贅述了。
在python程序中為了保證矩陣運算正確,可以使用reshape()函數來對矩陣設定所需的維度。這是一個很好且有用的習慣。
A note on python/numpy vectors
總結一些python的小技巧,避免不必要的code bug
python中,如果我們用下列語句來定義一個變量:1a = np.random.randn(5)
這條語句生成的a維度是(5, )。它既不是行向量也不是列向量,我們把a叫做rank 1 array。這種定義會帶來一些問題。例如我們對a進行轉置,還會得到a本身。所以,如果我們要定義(5,1)的列向量,最好使以下標準語句,避免使用rank 1 array。1
2a = np.random.randn(5,1)
b = np.random.randn(1,5)
除此之外,我們還可以使用assert語句對向量或者數組的維度進行判斷,例如:1assert(a.shape == (5,1))
assert語句會對內嵌語句進行判斷,即判斷a的維度是不是(5,1)的。如果不是,則程序在此處停止。使用assert語句也是一種很好的習慣,能夠幫我們及時檢查、發現語句是否正確。
另外,還可以使用reshape函數對數組設定所需的維度:1a.shape((5,1))
Quick tour of Jupyter/iPython Notebooks
Jupyter notebook是一個交互筆記本,支持運行40中編程語言,本課程所有的編程練習題都將在Jupyter notebook上進行,使用語言是python。
Explanation of logistic regression cost function(optional)
接下來簡要介紹邏輯回歸的Cost function是怎么來的
首先,預測輸出$hat{y}$的表達式可以寫成:
其中,$sigma(z)=frac{1}{1+exp(-z)}$。$hat{y}$可以看成是預測輸出為正類(+1)的概率:
那么,當y=1時:
當y= 0時:
我們把上面兩個式子整合到一個式子中,得到:
由于log函數的單調性,可以對上式P(y|x)進行log處理
我們希望上述概率P(y|x)越大越好,對上式加上負號,則轉化成額單個樣本的Loss function,越小越好,也iu得到了我們之前介紹的邏輯回歸的Loss function形式
如果對于所有m個訓練樣本,假設樣本之間是獨立同分布的(iid),我們希望總的概率越大越好:
同樣引入log函數,加上負號,將上式轉化為Cost function:
上式中,$frac{1}{m}$表示對所有m個樣本的Cost function求平均,是縮放因子。
Summary
本節課我們主要介紹了神經網絡基礎————python和向量話。在深度學習程序中,使用向量化和矩陣運算的方法能夠大大提高運行速度,節省時間。以邏輯回歸威力,我們將算法流程包括梯度下降轉化為向量化的形式,同時,我們也介紹了python的相關編程方法和技巧。
總結
以上是生活随笔為你收集整理的python向量化编程技巧_神经网络基础之Python与向量化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 类似endnote_求推荐一款文献管理软
- 下一篇: websocket python爬虫_p