當(dāng)前位置：首頁 >

深度学习（22）神经网络与全连接层五: 误差计算

發(fā)布時(shí)間：2023/12/15 32 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习（22）神经网络与全连接层五: 误差计算小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

深度學(xué)習(xí)（22）神經(jīng)網(wǎng)絡(luò)與全連接層五: 誤差計(jì)算

1. MSE
2. Entropy（熵）
3. Cross Entropy
4. Binary Classification
5. Single output（單一輸出）
6. Classification（多分類問題）
7. Categorical Cross Entropy（交叉熵計(jì)算）
8. Why not MSE?
9. Number Stability
附錄: 關(guān)于信息熵的思考

Outline

MSE
Cross Entropy Loss
Hinge Loss
$_imax?(0,1-y_i*h_θ (x_i))$

1. MSE

$loss=1N∑(y?out)2loss=\frac{1}{N} ∑(y-out)^2$
$L2?norm=∑(y?out)2L_{2-norm}=\sqrt{∑(y-out)^2 }$

（a）y = tf.constant([1, 2, 3, 0, 2]): 創(chuàng)建Label（標(biāo)簽）值集y;
（b）y = tf.one_hot(y, depth=4): 將y進(jìn)行one-hot編碼; depth=4代表一共有5位編碼;
（c）y = cast(y, dtype=tf.float32): 將y的數(shù)據(jù)類型轉(zhuǎn)換為float32，以便能和out進(jìn)行數(shù)學(xué)運(yùn)算;
（d）out = tf.random.normal([5, 4]): 創(chuàng)建輸出值（即預(yù)測值）集out;
（e）loss1 = tf.reduce_mean(tf.square(y-out)): 利用 $loss=1N∑(y?out)2loss=\frac{1}{N} ∑(y-out)^2$ 計(jì)算損失值loss;
（f）loss2 = yf.square(tf.norm(y-out))/(5*4): 利用 $L2?norm=∑(y?out)2L_{2-norm}=\sqrt{∑(y-out)^2 }$ ，即二范數(shù)計(jì)算損失值 $l o s s$ ;
（g）loss3 = tf.reduce_mean(tf.losses.MSE(y, out)): 利用MSE函數(shù)計(jì)算損失值 $l o s s$ ;
注: 這里返回的值并不是一個(gè)標(biāo)量，而是一個(gè)shape=[b]的Tensor。

2. Entropy（熵）

Uncertainty
不確定性
measure of surprise
“驚喜度”的數(shù)值。熵值越低，“驚喜度”越高; 熵值越高，“驚喜度越低”;
lower entropy $→\to$ more info
更低的熵值 $→\to$ 更多的信息;
$Entropy=-∑_iP(i)\log{P(i)}$

$ClaudeShannonClaude\ Shannon$

Lottery

（a）a = tf.fill([4], 0.25): 創(chuàng)建一個(gè)shape=[4]，元素值都為0.25的Tensor;
（b）a*tf.math.log(a)/tf.math.log(2.): 因?yàn)門ensorFlow2中沒有 $log_2n$ 的API，只有 $log_en$ ，而entropy使用的是 $log_2{n}$ ，所以根據(jù):
$log?ealog?eb=log?ba\frac{\log_ea}{\log_eb}=\log_ba$
可得:
$log?ealog?e2=log?2a\frac{\log_ea}{\log_e2}=\log_2a$
那么a*tf.math.log(a)/tf.math.log(2.)就為 $a*\log_2a$ ;
（c）-tf.reduce_sum(a*tf.math.log(a)/tf.math.log(2.)): 求其entropy值，即:
$Entropy=-∑_iP(i)\log{P(i)}$
可以看到其熵值為2，較大，那么其“驚喜度”較小，我們能從中獲得的信息也較少;
（d）a = tf.([0.1, 0.1, 0.1, 0.7]): 如果輸入值為[0.1, 0.1, 0.1, 0.7]，計(jì)算其熵值為1.3567796，那么其“驚喜度”較熵為2時(shí)8大，我們能從中獲得的信息也較熵為2時(shí)多;
（e）a = tf.([0.01, 0.01, 0.01, 0.97]): 如果輸入值為[0.01, 0.01, 0.01, 0.97]，計(jì)算其熵值為0.24194098，那么其“驚喜度”較熵為1.3567796時(shí)大，我們能從中獲得的信息也較熵為1.3567796時(shí)多;

3. Cross Entropy

$H(p,q)=-∑p(x)\log{q(x)}$
$H(p,q)=H(p)+D_{KL}(p|q)$
其中， $D_{KL}(p|q)$ 為散度，是衡量 $p$ 和 $q$ 之間的距離的標(biāo)準(zhǔn); 當(dāng) $p = q$ 時(shí)， $D_{KL}(p│q)=0$ ;

for $p = q$
- Minima: $H (p, q) = H (p)$
for $p$ : one-hot encoding
- $h(p:[0,1,0])=?1log?1=0h(p:[0,1,0])=-1\log1=0$
- $H([0,1,0],[p_0,p_1,p_2 ])=0+D_{KL}(p│q)=-1\log{q_1}$
- 注: 這里“1”是指 $p$ 的one-hot編碼中只有1個(gè)1，其余都是0; $q_1$ 是指如果當(dāng)前節(jié)點(diǎn)label值為i的話，那么在 $i$ 號(hào)節(jié)點(diǎn)輸出的概率就為 $q_1$ ，即 $p (y = i │ x)$ ，也就是說，當(dāng) $p (y = i │ x) = 1$ 時(shí)，預(yù)測值就等于標(biāo)簽值;
  這里也能看出如果預(yù)測值 $p_0,p_1,p_2]$ 與真實(shí)值（標(biāo)簽值） $[0, 1, 0]$ 相等的話，那么其交叉熵值為0，否則就會(huì)退化為 $D_{KL}(p│q)$ ; 所以我們將交叉熵作為 $l o s s$ 的優(yōu)化目標(biāo)是完全合理的。

4. Binary Classification

Two cases
（a） 多個(gè)輸出（判斷目標(biāo)屬于哪類）

$o u t$ :
- $p (y = 0 ∣ x)$
- $p (y = 1 ∣ x)$

（b） 單一輸出（判斷目標(biāo)是否屬于一類）

$o u t$ :
- $p (y = 1 │ x)$

5. Single output（單一輸出）

這里模型的輸出（即 $o u t$ ）為目標(biāo)是貓的概率（即 $p (c a t)$ ）;
$H(P,Q)=-P(cat)\log{Q(cat)}-(1-P(cat))\log?{(1-Q(cat))}$
$P (d o g) = (1 ? P (c a t))$
$H(P,Q)=-∑_{i=(cat,dog)}P(i)\log{Q(i)} \\ =-P(cat)\log{Q(cat)}-P(dog)\log{Q(dog)} \\ =-(y\log{(p)}+(1-y)\log?{(1-p)})$
如果 $y (c a t) = 1$ ， $H(P,Q)=-\log{(p)}$ ;
如果 $y (c a t) = 0$ ， $H(P,Q)=- \log{(1-p)}$ ;

6. Classification（多分類問題）

$H([0,1,0],[p_0,p_1,p_2 ])=0+D_{KL} (p│q)=-1\log{q_1}$

也就是說，如果輸入值的標(biāo)簽為 $x = 1$ 的話，那么輸出值為1的節(jié)點(diǎn)（ $o u t p u t [1]$ ）的 $q_1=-\log?{(y=1|x)}$ ; $q_1$ 越大，越接近1，那么交叉熵 $H([0,1,0],[p_0,p_1,p_2 ])$ 就越接近0;
例子:

$P1=[10000]P_1=[1 \quad 0\quad 0 \quad0 \quad 0]$

$Q1=[0.40.30.050.050.2]Q_1=[0.4 \quad0.3 \quad 0.05\quad 0.05 \quad 0.2]$
當(dāng) $Q_1$ 的置信度并不是很高時(shí)（0.4與0.3相差不明顯），其交叉熵:
$H(P_1,Q_1 )=-∑_iP_1 (i)\log{Q_1 (i)} \\=-(1\log0.4+0\log0.3+0\log0.05+0\log0.05+0\log0.2) \\=-\log0.4 \\≈0.916$
$Q1=[0.980.01000.01]Q_1=[0.98 \quad 0.01\quad 0 \quad 0 \quad0.01]$
當(dāng) $Q_1$ 的置信度很高時(shí)（0.98明顯遠(yuǎn)大于其它概率），其交叉熵:
$H(P_1,Q_1 )=-∑_iP_1 (i)\log{Q_1 (i)} \\=-(1\log0.98+0\log0.01+0\log0+0\log0+0\log0.01) \\=-\log0.98 \\≈0.02$
可以看到，經(jīng)過優(yōu)化后的 $l o s s$ 明顯更接近于0，分類更加明顯;

7. Categorical Cross Entropy（交叉熵計(jì)算）

(1) tf.losses.categorical_crossentropy([0, 1, 0, 0], [0.25, 0.25, 0.25, 0.25]): 交叉熵計(jì)算，預(yù)測正確，但其置信度不高，所以交叉熵較高，為1.3862944;
(2) tf.losses.categorical_crossentropy([0, 1, 0, 0], [0.1, 0.1, 0.7, 0.1]): 交叉熵計(jì)算，預(yù)測錯(cuò)誤，所以交叉熵非常高，為2.3978953;
(3) tf.losses.categorical_crossentropy([0, 1, 0, 0], [0.1, 0.7, 0.1, 0.1]): 交叉熵計(jì)算，預(yù)測正確，其置信度較高，所以交叉熵較低，為0.35667497;
(4) tf.losses.categorical_crossentropy([0, 1, 0, 0], [0.01, 0.97, 0.01, 0.01]): 交叉熵計(jì)算，其置信度非常高，所以交叉熵非常低，為0.030459179;
不同的調(diào)用方法:

(5) criteno([0, 1, 0, 0], [0.1, 0.7, 0.1, 0.1]): criteno為BinaryCrossentropy類的實(shí)例，作用也是計(jì)算交叉熵;
(6) tf.losses.BinaryCrossentropy()([1], [0.1]): 表示計(jì)算交叉熵，其中第2個(gè)元素為1的概率為0.1，這個(gè)預(yù)測是錯(cuò)誤的，所以其交叉熵很高;
(7) tf.losses.binary_crossentropy()([1], [0.1]): 作用與tf.losses.BinaryCrossentropy()([1], [0.1])一樣;

8. Why not MSE?

(1) sigmoid + MSE

gradient vanish
如果使用sigmoid + MSE的更新方法，很容易出現(xiàn)梯度消失問題，即當(dāng)值很大或者很小時(shí)，梯度為0，這樣的話更新會(huì)非常慢;

(2) converge slower
收斂速度更慢;

(3) However

e.g. meta-learning
有些前沿學(xué)科，例如meta-learning，使用MSE更加科學(xué)。所以使用哪種損失函數(shù)計(jì)算方法取決于我們的應(yīng)用，以及我們的經(jīng)驗(yàn)。

9. Number Stability

logits $→\to$ CrossEntropy

為了數(shù)值穩(wěn)定，需要設(shè)置參數(shù): from_logits=True;

(1) tf.losses.categorical_crossentropy([0, 1], logits, from_logits=True): 這里要注意兩點(diǎn)，一是必須要將輸入進(jìn)行one-hot編碼操作，即[0, 1]，二是傳入的數(shù)據(jù)必須是logits，而不能是softmax處理過的數(shù)據(jù)，而且要設(shè)置參數(shù)from_logits=True，這樣做是為了防止出現(xiàn)數(shù)據(jù)不穩(wěn)定的情況;
(2) tf.losses.categorical_crossentropy([0, 1], prob): 當(dāng)然也可以經(jīng)過softmax處理過的數(shù)據(jù)，即將prob傳入，也就是設(shè)置from_logits=False，但是不推薦這樣做，因?yàn)闀?huì)出現(xiàn)數(shù)值不穩(wěn)定的問題。

附錄: 關(guān)于信息熵的思考

作者：錢彥波
鏈接：link.
來源：知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請注明出處。
這個(gè)問題我覺得大家理解混淆了。。。
首先大家不要把信息熵理解成信息本身了，其實(shí)對(duì)信息熵來講（當(dāng)然大家不要把這個(gè)直接當(dāng)成熱力學(xué)的熵），其表示的是某一事件的不確定性，而信息的作用就是用于降低這種不確定性，其中輸入的信息量就等于該事件不確定性減少的大小，也就是熵減少的大小，所以熵本身不是對(duì)信息量的一個(gè)度量，而是對(duì)事件不確定性的一個(gè)度量，而熵減才是對(duì)信息量的度量。當(dāng)然如果某個(gè)輸入的信息并沒有減少熵，那么說明輸入的可能是噪音。
下面我舉一個(gè)例子給大家來直觀的理解一下什么是信息熵和信息量。
首先我們需要想一下的我們應(yīng)該怎么樣去度量一個(gè)屬性，比如質(zhì)量我們用的是kG，長度我們用的是m,但是如果我們問你什么是1kg的時(shí)候，其實(shí)你會(huì)很迷茫，因?yàn)榇_實(shí)不知道什么樣才是1kg。其實(shí)不是說這個(gè)世界上原本就存在1kg，而是我們?yōu)榱朔奖?#xff0c;比如規(guī)定了某一塊石頭的質(zhì)量是1kg，而我們在度量其他物理質(zhì)量的時(shí)候，就以這塊石頭為標(biāo)準(zhǔn)，比如一張桌子的質(zhì)量等于30塊這樣石頭的質(zhì)量，所以我們就說這張桌子的質(zhì)量我30kg。
同樣的對(duì)于不確定性的度量也一樣，我們必須定義一個(gè)標(biāo)準(zhǔn)，從而對(duì)不確定性進(jìn)行度量。那么這個(gè)不確定性怎么去定義呢？最簡單的，我們拋一枚硬幣，其可能產(chǎn)生兩種情況（一種正面，一面反面），如果我們把拋一枚硬幣產(chǎn)生等概率的兩種情況確定為不確定性的一個(gè)基本度量單位，那么我們就可以對(duì)其他的不確定性加以度量。比如小明在做選擇題的時(shí)候面臨A,B,C,D四種情況，那么這相當(dāng)于拋了兩次硬幣，相同的如果我們面臨8種不確定性，那么我們就相當(dāng)于拋了3次硬幣。這個(gè)時(shí)候我們會(huì)發(fā)現(xiàn)，如果在一次事件中可能出現(xiàn)n種情況，那么就相當(dāng)于拋了以2為底n的對(duì)數(shù)次硬幣，即次。現(xiàn)在我們把拋一枚硬幣產(chǎn)生兩種等概率的情況的不確定性定義為1bit,那么做選擇題目時(shí)候的不確定性就是2bit，以此類推。
但是現(xiàn)在又會(huì)產(chǎn)生一個(gè)問題，那就是對(duì)于有的情況下，比如有人告訴小明A,B,C,D中選擇A的概率為1/2，那這個(gè)時(shí)候概率發(fā)生了變化怎么辦呢？這種非等概率的情況下不確定性又該怎么度量呢？我們可以這么想，對(duì)于概率為1/2的等概率事件而言，其可能產(chǎn)生的是2種等概率情況，相當(dāng)于拋一枚硬幣；對(duì)于概率為1/6的等概率事件而言，其可能產(chǎn)生的情況是6種等概率情況，相當(dāng)于拋了次硬幣。所以把每個(gè)可能概率取倒數(shù)就得到了可能產(chǎn)生幾種等概率情況，就可以用等概率的情況來計(jì)算了，最后再對(duì)得到的結(jié)果求期望，就可以得到最終的對(duì)不確定性的度量，即信息熵。在例子中當(dāng)有人告訴小明選A的概率為1/2后，小明做這個(gè)選擇題面臨的不確定性就等于 =1.792bit,所以在這個(gè)例子中，有人告訴了小明A的概率為1/2的信息量就是2-1.792 = 0.208bit.
當(dāng)然這里還有其他的信息量的單位，比如以自然對(duì)數(shù)e為底或者是以10為底，得到的單位也不同，分別是nat和Hart，但是理解都是一樣的。
所以信息熵本身不是衡量信息量的，而是對(duì)某一事件的不確定性的衡量，信息量的輸入導(dǎo)致熵減少，才是對(duì)信息量的衡量。大家謹(jǐn)記呀。

參考文獻(xiàn):
[1] 龍良曲:《深度學(xué)習(xí)與TensorFlow2入門實(shí)戰(zhàn)》
[2] https://towardsdatascience.com/demystifying-cross-entropy-e80e3ad54a8
[3] https://www.zhihu.com/question/274997106
[4] https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html

總結(jié)

以上是生活随笔為你收集整理的深度学习（22）神经网络与全连接层五: 误差计算的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：如何找出基金的分位点
下一篇：深度学习（23）随机梯度下降一: 随机梯