1.13 总结-深度学习第五课《序列模型》-Stanford吴恩达教授
| 1.12 深層循環神經網絡 | 回到目錄 | 1.13 總結 |
總結
習題
第 141 題
假設你的訓練樣本是句子(單詞序列),下面哪個選項指的是第i個訓練樣本中的第j個詞?
A.x(i)<j>x^{(i)<j>}x(i)<j>
B.x<i>(j)x^{<i>(j)}x<i>(j)
C.x(j)<i>x^{(j)<i>}x(j)<i>
D.x<j>(i)x^{<j>(i)}x<j>(i)
第 142 題
看一下下面的這個循環神經網絡:
在下面的條件中,滿足上圖中的網絡結構的參數是:
A.Tx=TyT_x=T_yTx?=Ty?
B.Tx<TyT_x<T_yTx?<Ty?
C.Tx>TyT_x>T_yTx?>Ty?
D.Tx=1T_x=1Tx?=1
第 143 題
這些任務中的哪一個會使用多對一的RNN體系結構?
A.語音識別(輸入語音,輸出文本)
B.情感分類(輸入一段文字,輸出0或1表示正面或者負面的情緒)
C.圖像分類(輸入一張圖片,輸出對應的標簽)
D.人聲性別識別(輸入語音,輸出說話人的性別)
第 144 題
假設你現在正在訓練下面這個RNN的語言模型:
在 ttt 時,這個RNN在做什么?
A.計算P(y<1>,y<2>,…,y<t?1>)P(y^{<1>},y^{<2>},…,y^{<t-1>})P(y<1>,y<2>,…,y<t?1>)
B.計算P(y<t>)P(y^{<t>})P(y<t>)
C.計算P(y<t>∣y<1>,y<2>,…,y<t?1>)P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>})P(y<t>∣y<1>,y<2>,…,y<t?1>)
D.計算P(y<t>∣y<1>,y<2>,…,y<t>)P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t>})P(y<t>∣y<1>,y<2>,…,y<t>)
第 145 題
你已經完成了一個語言模型RNN的訓練,并用它來對句子進行隨機取樣,如下圖:
在每個時間步 ttt 都在做什么?
A.(1)使用RNN輸出的概率,選擇該時間步的最高概率單詞作為y^<t>\hat{y}^{<t>}y^?<t>,(2)然后將訓練集中的正確的單詞傳遞到下一個時間步
B.(1)使用由RNN輸出的概率將該時間步的所選單詞進行隨機采樣作為y^<t>\hat{y}^{<t>}y^?<t>,(2)然后將訓練集中的實際單詞傳遞到下一個時間步
C.(1)使用由RNN輸出的概率來選擇該時間步的最高概率詞作為y^<t>\hat{y}^{<t>}y^?<t>,(2)然后將該選擇的詞傳遞給下一個時間步
D.(1)使用RNN該時間步輸出的概率對單詞隨機抽樣的結果作為y^<t>\hat{y}^{<t>}y^?<t>,(2)然后將此選定單詞傳遞給下一個時間步
第 146 題
你正在訓練一個RNN網絡,你發現你的權重與激活值都是“NaN”,下列選項中,哪一個是導致這個問題的最有可能的原因?
A.梯度消失
B.梯度爆炸
C.ReLU函數作為激活函數g(.),在計算g(z)時,z的數值過大了
D.Sigmoid函數作為激活函數g(.),在計算g(z)時,z的數值過大了
第 147 題
假設你正在訓練一個LSTM網絡,你有一個10,000詞的詞匯表,并且使用一個激活值維度為100的LSTM塊,在每一個時間步中, Γu\Gamma_uΓu? 的維度是多少?
A.1
B.100
C.300
D.10000
第 148 題
這里有一些GRU的更新方程:
愛麗絲建議通過移除 Γu\Gamma_uΓu? 來簡化GRU,即設置 Γu=1\Gamma_u=1Γu?=1 。貝蒂提出通過移除 Γr\Gamma_rΓr? 來簡化GRU,即設置 Γr=1\Gamma_r=1Γr?=1 。哪種模型更容易在梯度不消失問題的情況下訓練,即使在很長的輸入序列上也可以進行訓練?
A.愛麗絲的模型(即移除 Γu\Gamma_uΓu? ),因為對于一個時間步而言,如果 Γr≈0\Gamma_r\approx0Γr?≈0 ,梯度可以通過時間步反向傳播而不會衰減。
B.愛麗絲的模型(即移除 Γu\Gamma_uΓu? ),因為對于一個時間步而言,如果 Γr≈1\Gamma_r\approx1Γr?≈1 ,梯度可以通過時間步反向傳播而不會衰減。
C.貝蒂的模型(即移除 Γr\Gamma_rΓr? ),因為對于一個時間步而言,如果 Γu≈0\Gamma_u\approx0Γu?≈0 ,梯度可以通過時間步反向傳播而不會衰減。
D.貝蒂的模型(即移除 Γr\Gamma_rΓr? ),因為對于一個時間步而言,如果 Γu≈1\Gamma_u\approx1Γu?≈1 ,梯度可以通過時間步反向傳播而不會衰減。
第 149 題
這里有一些GRU和LSTM的方程:
從這些我們可以看到,在LSTM中的更新門和遺忘門在GRU中扮演類似___與___的角色,空白處應該填什么?
A. Γu\Gamma_uΓu? 與 1?Γu1-\Gamma_u1?Γu?
B. Γu\Gamma_uΓu? 與 Γr\Gamma_rΓr?
C. 1?Γu1-\Gamma_u1?Γu? 與 Γu\Gamma_uΓu?
D. Γr\Gamma_rΓr? 與 Γu\Gamma_uΓu?
第 150 題
你有一只寵物狗,它的心情很大程度上取決于當前和過去幾天的天氣。你已經收集了過去365天的天氣數據 x<1>,?,x<365>x^{<1>},\cdots,x^{<365>}x<1>,?,x<365> ,這些數據是一個序列,你還收集了你的狗心情的數據 y<1>,?,y<365>y^{<1>},\cdots,y^{<365>}y<1>,?,y<365> ,你想建立一個模型來從x到y進行映射,你應該使用單向RNN還是雙向RNN來解決這個問題?
A.雙向RNN,因為在 ttt 日的情緒預測中可以考慮到更多的信息。
B.雙向RNN,因為這允許反向傳播計算中有更精確的梯度。
C.單向RNN,因為y的值僅依賴于x<1>,…,x,而不依賴于x,…,x<365>y^{}的值僅依賴于x^{<1>},…,x^{},而不依賴于x^{},…,x^{<365>}y的值僅依賴于x<1>,…,x,而不依賴于x,…,x<365>
D.單向RNN,因為y的值只取決于xy^{}的值只取決于x^{}y的值只取決于x,而不是其他天的天氣。
141-150題 答案
141.A 142.A 143.BD 144.C 145.D 146.B 147.B 148.C 149.A 150.C
| 1.12 深層循環神經網絡 | 回到目錄 | 1.13 總結 |
總結
以上是生活随笔為你收集整理的1.13 总结-深度学习第五课《序列模型》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 1.12 深层循环神经网络-深度学习第五
- 下一篇: 2.1 词汇表征-深度学习第五课《序列模