3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授
習題
第二周 - 自然語言處理與詞嵌入
第 151 題
假設你為10000個單詞學習詞嵌入,為了捕獲全部范圍的單詞的變化以及意義,那么詞嵌入向量應該是10000維的。
A.正確 B.錯誤
第 152 題
什么是t-SNE?
A.一種非線性降維算法
B.一種能夠解決詞向量上的類比的線性變換
C.一種用于學習詞嵌入的監督學習算法
D.一個開源序列模型庫
第 153 題
假設你下載了一個已經在一個很大的文本語料庫上訓練過的詞嵌入的數據,然后你要用這個詞嵌入來訓練RNN并用于識別一段文字中的情感,判斷這段文字的內容是否表達了“快樂”。
| 我今天感覺很好! | 1 |
| 我覺得很沮喪,因為我的貓生病了。 | 0 |
| 真的很享受這個! | 1 |
那么即使“欣喜若狂”這個詞沒有出現在你的小訓練集中,你的RNN也會認為“我欣喜若狂”應該被貼上 y=1y=1y=1 的標簽。
A.正確 B.錯誤
第 154 題
對于詞嵌入而言,下面哪一個(些)方程是成立的?
A. eboy?egirl≈ebrother?esistere_{boy} - e_{girl} \approx e_{brother} - e_{sister}eboy??egirl?≈ebrother??esister?
B. eboy?egirl≈esister?ebrothere_{boy} - e_{girl} \approx e_{sister} - e_{brother}eboy??egirl?≈esister??ebrother?
C. eboy?ebrother≈egirl?esistere_{boy} - e_{brother} \approx e_{girl} - e_{sister}eboy??ebrother?≈egirl??esister?
D. eboy?ebrother≈esister?egirle_{boy} - e_{brother} \approx e_{sister} - e_{girl}eboy??ebrother?≈esister??egirl?
第 155 題
設 EEE 為嵌入矩陣, e1234e_{1234}e1234? 對應的是詞“1234”的獨熱向量,為了獲得1234的詞嵌入,為什么不直接在Python中使用代碼 E?e1234E*e_{1234}E?e1234? 呢?
A.因為這個操作是在浪費計算資源
B.因為正確的計算方式是 ET?e1234E^T*e_{1234}ET?e1234?
C.因為它沒有辦法處理未知的單詞(<UNK>)
D.以上全都不對,因為直接調用 E?e1234E*e_{1234}E?e1234? 是最好的方案
第 156 題
在學習詞嵌入時,我們創建了一個預測 P(target∣context)P(target|context)P(target∣context) 的任務,如果這個預測做的不是很好那也是沒有關系的,因為這個任務更重要的是學習了一組有用的嵌入詞。
A.正確 B.錯誤
第 157 題
在word2vec算法中,你要預測 P(t∣c)P(t|c)P(t∣c) ,其中 ttt 是目標詞(target word), ccc 是語境詞(context word)。你應當在訓練集中怎樣選擇 ttt 與 ccc 呢?
A. ttt 與 ccc 應當在附近詞中
B. ccc 是 ttt 在前面的一個詞
C. ccc 是 ttt 之前句子中所有單詞的序列
D. ccc 是 ttt 之前句子中幾個單詞的序列
第 158 題
假設你有1000個單詞詞匯,并且正在學習500維的詞嵌入,word2vec模型使用下面的softmax函數:
P(t∣c)=exp(θtTec)∑t′=110,000exp(θt′Tec)P(t|c)=\frac{exp(\theta^T_te_c)}{\sum_{t\prime=1}^{10,000}exp(\theta^T_{t\prime}e_c)}P(t∣c)=∑t′=110,000?exp(θt′T?ec?)exp(θtT?ec?)?
以下說法中哪一個(些)是正確的?
A. θt\theta_tθt? 與 ece_cec? 都是500維的向量
B. θt\theta_tθt? 與 ece_cec? 都是10000維的向量
C. θt\theta_tθt? 與 ece_cec? 都是通過Adam或梯度下降等優化算法進行訓練的
D.訓練之后, θt\theta_tθt? 應該非常接近 ece_cec? ,因為ttt和ccc是一個詞
第 159 題
假設你有10000個單詞詞匯,并且正在學習500維的詞嵌入,GloVe模型最小化了這個目標:
min?∑i=110,000∑j=110,000f(Xi,j)(θiTej+bi+bj′?log?Xij)2\min\sum_{i=1}^{10,000}\sum_{j=1}^{10,000}f(X_{i,j})(\theta^T_ie_j+b_i+b_j^\prime-\log X_{ij})^2mini=1∑10,000?j=1∑10,000?f(Xi,j?)(θiT?ej?+bi?+bj′??logXij?)2
以下說法中哪一個(些)是正確的?
A. θi\theta_iθi? 與 eje_jej? 應當初始化為0
B. θi\theta_iθi? 與 eje_jej? 與應當使用隨機數進行初始化
C. Xi,jX_{i,j}Xi,j? 是單詞 iii 在 jjj 中出現的次數
D.加權函數 f(.)f(.)f(.) 必須滿足 f(0)=0f(0)=0f(0)=0
第 160 題
你已經在文本數據集上 m1m_1m1? 訓練了詞嵌入,現在準備將它用于一個語言任務中,對于這個任務,你有一個單獨標記的數據集 m2m_2m2? ,請記住,使用詞嵌入是一種遷移學習的形式。在以下那種情況中,詞嵌入會有幫助?
A. m1>>m2m_1>>m_2m1?>>m2?
B. m1<<m2m_1<<m_2m1?<<m2?
151-160題 答案
151.B 152.A 153.A 154.AC 155.A 156.B 157.A 158.AC 159.BCD 160.A
第三周 - 序列模型與注意力機制
第 161 題
想一想使用如下的編碼-解碼模型來進行機器翻譯:
這個模型是“條件語言模型”,編碼器部分(綠色顯示)的意義是建模中輸入句子x的概率
A.正確 B.錯誤
第 162 題
在集束搜索中,如果增加集束寬度 bbb ,以下哪一項是正確的?
A.集束搜索將運行的更慢
B.集束搜索將使用更多的內存
C.集束搜索通常將找到更好地解決方案(比如:在最大化概率 P(y∣x)P(y|x)P(y∣x) 上做的更好)
D.集束搜索將在更少的步驟后收斂
第 163 題
在機器翻譯中,如果我們在不使用句子歸一化的情況下使用集束搜索,那么算法會輸出過短的譯文。
A.正確 B.錯誤
第 164 題
假設你正在構建一個能夠讓語音片段 xxx 轉為譯文 yyy 的基于RNN模型的語音識別系統,你的程序使用了集束搜索來試著找尋最大的 P(y∣x)P(y|x)P(y∣x) 的值yyy。在開發集樣本中,給定一個輸入音頻,你的程序會輸出譯文 y^\hat{y}y^? = “I’m building an A Eye system in Silly con Valley.”,人工翻譯為 y?y*y? = “I’m building an AI system in Silicon Valley.”
在你的模型中,
P(y^∣x)=1.09?10?7P(\hat{y}|x)=1.09*10^{-7}P(y^?∣x)=1.09?10?7P(y?∣x)=7.21?10?8P(y*|x)=7.21*10^{-8}P(y?∣x)=7.21?10?8
那么,你會增加集束寬度 BBB 來幫助修正這個樣本嗎?
A.不會,因為 P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x) 說明了問題在RNN,而不是搜索算法
B.不會,因為 P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x) 說明了問題在搜索算法,而不是RNN
C.會的,因為 P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x) 說明了問題在RNN,而不是搜索算法
D.會的,因為 P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x) 說明了問題在搜索算法,而不是RNN
第 165 題
接著使用第4題的樣本,假設你花了幾周的時間來研究你的算法,現在你發現,對于絕大多數讓算法出錯的例子而言,P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x),這表明你應該將注意力集中在改進搜索算法上,對嗎?
A.正確 B.錯誤
第 166 題
回想一下機器翻譯的模型:
除此之外,還有個公式 α<t,t′>=exp(e<t,t′>)∑t′=1Txexp(<t,t′>)\alpha^{<t,t\prime>}=\frac{exp(e^{<t,t\prime>})}{\sum_{t\prime=1}^{T_x}exp(^{<t,t\prime>})}α<t,t′>=∑t′=1Tx??exp(<t,t′>)exp(e<t,t′>)?下面關于 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 的選項那個(些)是正確的?
A.對于網絡中與輸出 y<t>y^{<t>}y<t> 高度相關的 α<t′>\alpha^{<t\prime>}α<t′> 而言,我們通常希望α<t,t>\alpha^{<t,t>}α<t,t>的值更大(請注意上標)
B.對于網絡中與輸出 y<t>y^{<t>}y<t> 高度相關的 α<t>\alpha^{<t>}α<t> 而言,我們通常希望 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 的值更大(請注意上標)
C. ∑tα<t,t′>=1\sum_t\alpha^{<t,t\prime>}=1∑t?α<t,t′>=1 (注意是和除以t)
D. ∑t′α<t,t′>=1\sum_{t\prime}\alpha^{<t,t\prime>}=1∑t′?α<t,t′>=1 (注意是和除以t’)
第 167 題
網絡通過學習的值 e<t,t′>e^{<t,t\prime>}e<t,t′> 來學習在哪里關注“關注點”,這個值是用一個小的神經網絡的計算出來的:
這個神經網絡的輸入中,我們不能將 s<t>s^{<t>}s<t> 替換為 s<t?1>s^{<t-1>}s<t?1> 這是因為 s<t>s^{<t>}s<t> 依賴于 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> ,而 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 又依賴于 e<t,t′>e^{<t,t\prime>}e<t,t′> ;所以在我們需要評估這個網絡時,我們還沒有計算出 sts^tst
A.正確 B.錯誤
第 168 題
與題1中的編碼-解碼模型(沒有使用注意力機制)相比,我們希望有注意力機制的模型在下面的情況下有著最大的優勢:
A.輸入序列的長度 TxT_xTx? 比較大
B.輸入序列的長度 TxT_xTx? 比較小
第 169 題
在CTC模型下,不使用"空白"字符(_)分割的相同字符串將會被折疊。那么在CTC模型下,以下字符串將會被折疊成什么樣子?__c_oo_o_kk___booooo_oo__kkk
A.cokbok
B.cookbook
C.cook book
D.coookkboooooookkk
第 170 題
在觸發詞檢測中, x<t>x^{<t>}x<t> 是:
A.時間 ttt 時的音頻特征(就像是頻譜特征一樣)
B.第 ttt 個輸入字,其被表示為一個獨熱向量或者一個字嵌入
C.是否在第 ttt 時刻說出了觸發詞
D.是否有人在第 ttt 時刻說完了觸發詞
161-170題 答案
161.B 162.ABC 163.A 164.A 165.A 166.AD 167.A 168.A 169.B 170.A
總結
以上是生活随笔為你收集整理的3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3.11 结论和致谢-深度学习第五课《序
- 下一篇: 大总结-深度学习全五课-Stanford