2.11 总结-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
| 2.10 是否要使用端到端的深度學習 | 回到目錄 | 1.1 計算機視覺 |
總計
習題
為了幫助你練習機器學習的策略,本周我們將介紹另一個場景,并詢問你將如何行動。我們認為這個在機器學習項目中工作的“模擬器”將給出一個任務,即領導一個機器學習項目可能是什么樣的! 您受雇于一家初創公司,制造自動駕駛汽車。您負責檢測圖像中的道路標志(停車標志、人行橫道標志、施工先行標志)和交通信號(紅綠燈)。目標是識別每張圖像中的這些對象。例如,上面的圖像包含人行橫道標志和紅色交通燈
第 86 題
您的100,000張帶標簽的圖片是使用您汽車的前置攝像頭拍攝的,這也是你最關心的數據分布,您認為您可以從互聯網上獲得更大的數據集,即使互聯網數據的分布不相同,這也可能對訓練有所幫助。你剛剛開始著手這個項目,你做的第一件事是什么?假設下面的每個步驟將花費大約相等的時間(大約幾天)。
A.花幾天時間去獲取互聯網的數據,這樣你就能更好地了解哪些數據是可用的。
B.花幾天的時間檢查這些任務的人類表現,以便能夠得到貝葉斯誤差的準確估計。
C.花幾天的時間使用汽車前置攝像頭采集更多數據,以更好地了解每單位時間可收集多少數據。
D.花幾天時間訓練一個基本模型,看看它會犯什么錯誤。
第 87 題
您的目標是檢測道路標志(停車標志、行人過路標志、前方施工標志)和交通信號(紅燈和綠燈)的圖片,目標是識別這些圖片中的哪一個標志出現在每個圖片中。 您計劃在隱藏層中使用帶有ReLU單位的深層神經網絡。
對于輸出層,使用Softmax激活將是輸出層的一個比較好的選擇,因為這是一個多任務學習問題,對嗎?
A.對 B.不對
第 88 題
你正在做誤差分析并計算錯誤率,在這些數據集中,你認為你應該手動仔細地檢查哪些圖片(每張圖片都做檢查)?
A.隨機選擇10,000圖片
B.隨機選擇500圖片
C.500張算法分類錯誤的圖片
D.10,000張算法分類錯誤的圖片
第 89 題
在處理了數據幾周后,你的團隊得到以下數據:
100,000 張使用汽車前攝像頭拍攝的標記了的圖片。 900,000 張從互聯網下載的標記了道路的圖片。
每張圖片的標簽都精確地表示任何的特定路標和交通信號的組合。 例如, y(i)=[10010]y^{(i)}=\left[ \begin{matrix} 1\\0\\0\\1\\0 \end{matrix}\right]y(i)=???????10010???????? 表示圖片包含了停車標志和紅色交通信號燈。
因為這是一個多任務學習問題,你需要讓所有 y(i)y(i)y(i)y(i)y(i)y(i) 向量被完全標記。 如果一個樣本等于 [1?01?]\left[ \begin{matrix} 1\\?\\0\\1\\? \end{matrix}\right]???????1?01????????? 那么學習算法將無法使用該樣本,是正確的嗎?
A.對 B.不對
第 90 題
你所關心的數據的分布包含了你汽車的前置攝像頭的圖片,這與你在網上找到并下載的圖片不同。如何將數據集分割為訓練/開發/測試集?
A.將10萬張前攝像頭的圖片與在網上找到的90萬張圖片隨機混合,使得所有數據都隨機分布。 將有100萬張圖片的數據集分割為:有60萬張圖片的訓練集、有20萬張圖片的開發集和有20萬張圖片的測試集。
B.將10萬張前攝像頭的圖片與在網上找到的90萬張圖片隨機混合,使得所有數據都隨機分布。將有100萬張圖片的數據集分割為:有98萬張圖片的訓練集、有1萬張圖片的開發集和有1萬張圖片的測試集。
C.選擇從互聯網上的90萬張圖片和汽車前置攝像頭的8萬張圖片作為訓練集,剩余的2萬張圖片在開發集和測試集中平均分配。
D.選擇從互聯網上的90萬張圖片和汽車前置攝像頭的2萬張圖片作為訓練集,剩余的8萬張圖片在開發集和測試集中平均分配。
第 91 題
假設您最終選擇了以下拆分數據集的方式:
您還知道道路標志和交通信號分類的人為錯誤率大約為0.5%。以下哪項是對的?(選出所有正確項)
A.由于開發集和測試集的錯誤率非常接近,所以你過擬合了開發集。
B.你有很大的數據不匹配問題,因為你的模型在訓練-開發集上比在開發集上做得好得多。
C.你有很大的可避免偏差問題,因為你的訓練集上的錯誤率比人為錯誤率高很多。
D.你有很大的方差問題,因為你的訓練集上的錯誤率比人為錯誤率要高得多。
E.你有很大的方差問題,因為你的模型不能很好地適應它從來沒有見過,但是來自訓練集同一分布的數據
第 92 題
根據上一個問題的表格,一位朋友認為訓練數據分布比開發/測試分布要容易得多。你怎么看?
A.你的朋友是對的。(即訓練數據分布的貝葉斯誤差可能低于開發/測試分布)。
B.你的朋友錯了。(即訓練數據分布的貝葉斯誤差可能比開發/測試分布更高)。
C.沒有足夠的信息來判斷你的朋友是對還是錯。
D.無論你的朋友是對還是錯,這些信息都對你沒有用。
第 93 題
您決定將重點放在開發集上, 并手動檢查是什么原因導致的錯誤。下面是一個表, 總結了您的發現: 開發集總誤差 14.3% 由于數據標記不正確而導致的錯誤 4.1% 由于霧天的圖片引起的錯誤 8.0% 由于雨滴落在汽車前攝像頭上造成的錯誤 2.2% 其他原因引起的錯誤 1.0%
在這個表格中,4.1%、8.0%這些比例是占總開發集的比例(不僅僅是您的算法錯誤標記的樣本),即大約8.0 / 14.3 = 56%的錯誤是由于霧天的圖片造成的。
從這個分析的結果意味著團隊最先做的應該是把更多霧天的圖片納入訓練集,以便解決該類別中的8%的錯誤,對嗎?
A.錯誤,因為這取決于添加這些數據的容易程度以及您要考慮團隊認為它會有多大幫助。
B.是的,因為它是錯誤率最大的類別。正如視頻中所討論的,我們應該對錯誤率進行按大小排序,以避免浪費團隊的時間。
C.是的,因為它比其他的錯誤類別錯誤率加在一起都大(8.0 > 4.1+2.2+1.0)。
D.錯誤,因為數據增強(通過清晰的圖像+霧的效果合成霧天的圖像)更有效。
第 94 題
你可以買一個專門設計的雨刮,幫助擦掉正面相機上的一些雨滴。 根據上一個問題的表格,您同意以下哪些陳述?
A.對于擋風玻璃雨刷可以改善模型的性能而言,2.2%是改善的最大值。
B.對于擋風玻璃雨刷可以改善模型的性能而言,2.2%是改善最小值。
C.對于擋風玻璃雨刷可以改善模型的性能而言,改善的性能就是2.2%。
D.在最壞的情況下,2.2%將是一個合理的估計,因為擋風玻璃刮水器會損壞模型的性能。
第 95 題
您決定使用數據增強來解決霧天的圖像,您可以在互聯網上找到1,000張霧的照片,然后拿清晰的圖片和霧來合成霧天圖片,如下所示:
你同意下列哪種說法?(選出所有正確項)
A.只要你把它與一個更大(遠大于1000)的清晰/不模糊的圖像結合在一起,那么對霧的1000幅圖片就沒有太大的過擬合的風險。
B.將合成的看起來像真正的霧天圖片添加到從你的汽車前攝像頭拍攝到的圖片的數據集對與改進模型不會有任何幫助,因為它會引入可避免的偏差。
C.只要合成的霧對人眼來說是真實的,你就可以確信合成的數據和真實的霧天圖像差不多,因為人類的視覺對于你正在解決的問題是非常準確的。
第 96 題
在進一步處理問題之后,您已決定更正開發集上錯誤標記的數據。 您同意以下哪些陳述? (選出所有正確項)
A.您不應更正訓練集中的錯誤標記的數據, 因為這不值得
B.您應該更正訓練集中的錯誤標記數據, 以免您訓練集與開發集差距更大
C.您不應該更正測試集中錯誤標記的數據,以便開發和測試集來自同一分布
D.您還應該更正測試集中錯誤標記的數據,以便開發和測試集來自同一分布
第 97 題
到目前為止,您的算法僅能識別紅色和綠色交通燈,該公司的一位同事開始著手識別黃色交通燈(一些國家稱之為橙色光而不是黃色光,我們將使用美國的黃色標準),含有黃色燈的圖像非常罕見,而且她沒有足夠的數據來建立一個好的模型,她希望你能用轉移學習幫助她。
你告訴你的同事怎么做?
A.她應該嘗試使用在你的數據集上預先訓練過的權重,并用黃光數據集進行進一步的微調。
B.如果她有10,000個黃光圖像,從您的數據集中隨機抽取10,000張圖像,并將您和她的數據放在一起,這可以防止您的數據集“淹沒”她的黃燈數據集。
C.你沒辦法幫助她,因為你的數據分布與她的不同,而且缺乏黃燈標簽的數據。
D.建議她嘗試多任務學習,而不是使用所有數據進行遷移學習。
第 98 題
另一位同事想要使用放置在車外的麥克風來更好地聽清你周圍是否有其他車輛。 例如,如果你身后有警車,你就可以聽到警笛聲。 但是,他們沒有太多的訓練這個音頻系統,你能幫忙嗎?
A.從視覺數據集遷移學習可以幫助您的同事加快步伐,多任務學習似乎不太有希望。
B.從您的視覺數據集中進行多任務學習可以幫助您的同事加快步伐,遷移學習似乎不太有希望。
C.遷移學習或多任務學習可以幫助我們的同事加快步伐。
D.遷移學習和多任務學習都不是很有希望。
第 99 題
要識別紅色和綠色的燈光,你一直在使用這種方法:
(A)將圖像 xxx 輸入到神經網絡,并直接學習映射以預測是否存在紅光(和/或)綠光 yyy 。
一個隊友提出了另一種兩步的方法:
(B)先要檢測圖像中的交通燈(如果有),然后確定交通信號燈中照明燈的顏色。
在這兩者之間,方法B更多的是端到端的方法,因為它在輸入端和輸出端有不同的步驟,這種說法正確嗎?
A.對 B.不對
第 100 題
上一題中,A方法似乎比B方法更有效,如果你有一個__
A.大訓練集 B.多任務學習的問題 C.偏差比較大的問題 D.高貝葉斯誤差的問題
86-100題 答案
86.D 87.B 88.C 89.B 90.C 91.BC 92.C 93.A 94.A 95.C 96.AD 98.A 99.D 99.B 100.A
| 2.10 是否要使用端到端的深度學習 | 回到目錄 | 1.1 計算機視覺 |
總結
以上是生活随笔為你收集整理的2.11 总结-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.10 是否要使用端到端的深度学习-深
- 下一篇: Python对比两个txt文件的不同