日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

一天搞懂深度学习—学习笔记4(knowledge and tricks)

發布時間:2023/12/10 pytorch 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一天搞懂深度学习—学习笔记4(knowledge and tricks) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.ultra deep network

世界上的摩天大樓有很多,而且大家也都一直在互相攀比誰的更高。文中給出了幾個標志性建筑,Great Pyramid < Eiffel Tower < Empire State < World Trade Center < CN Tower < Burj Khalifa,有興趣可以去查查

在神經網絡的世界里,前面也提到過了,Thin and Tall會好一些,文中給出了幾個經典的CNN網絡層次圖,如下

網絡的層數越多,意味著能夠提取到不同level的特征越豐富。并且,越深的網絡提取的特征越抽象,越具有語義信息。原來的網絡,如果簡單地增加深度,會導致梯度彌散或梯度爆炸。即使通過上述方法能夠訓練了,但是又會出現另一個問題,就是退化問題,網絡層數增加,但是在訓練集上的準確率卻飽和甚至下降了。這個不能解釋為overfitting,因為overfit應該表現為在訓練集上表現更好才對。退化問題說明了深度網絡不能很簡單地被很好地優化。作者通過實驗證明:通過淺層網絡+ y=x 等同映射構造深層模型,結果深層模型并沒有比淺層網絡有等同或更低的錯誤率,推斷退化問題可能是因為深層的網絡并不是那么好訓練,也就是求解器很難去利用多層網絡擬合同等函數。 參考http://www.jianshu.com/p/e58437f39f65

2.Attention-based Model

這個地方我覺得PDF文檔寫的不怎么精細,找了一個知乎的回答,算是個學習了參考https://www.zhihu.com/question/36591394

在大部分的論文中,Attention是一個權重vector(通常是softmax的輸出),其維度等于context的長度。越大的權重代表對應位置的context越重要。不同論文對attention權重的計算方式不同,但其核心拋不開上述兩點。

這篇博文沒什么自己的內容,主要對幾個比較重要的知識點做了提及,并且給出了相應的好的解釋博文的連接。這篇加上以上三篇論文作為自己進入這個領域的理論知識點的一個歸納總結。希望自己以后多閱讀一些機器學習的論文,向前輩學習,同時多進行整理歸納。

總結

以上是生活随笔為你收集整理的一天搞懂深度学习—学习笔记4(knowledge and tricks)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。