nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展...
作者:Pratik Bhavsar
編譯:ronghuaiyang
導讀
如果這21個問題你全部了解的話,你對最新的NLP進展的了解已經過關了。
2018年10月BERT發布之后發生了很多事情。
你知道BERT的掩碼語言模型是老派模型嗎?
你知道注意力的計算不需要平方時間復雜度嗎?
你知道你可以偷用谷歌的模型嗎?
我們這一代人中一些最聰明的人一直在緊張地工作,并有大量的產出!NLP現在是最性感的領域
NLProc已經走了很長的路。
我們需要另一個總結!!
這20個問題會測試你對NLP當前狀態的更新程度的了解,并為任何技術討論做好準備。
什么是最新的預訓練模型(PTM)?
https://arxiv.org/pdf/2003.08271.pdf
PTMs的訓練任務是什么?
https://arxiv.org/pdf/2003.08271.pdf
在GLUE上,最好的PTMs是什么?
https://arxiv.org/pdf/2003.08271.pdf
更多的數據是不是總是可以得到更好的語言模型?
T5論文說不是的,質量比數量更重要。
https://arxiv.org/pdf/1910.10683.pdf
什么tokenisation方法對于訓練語言模型是最好的?
這篇文章:https://arxiv.org/pdf/2004.03720.pdf,說一種新的方法Unigram LM要比BPE和WordPiece更好一些。
訓練語言模型的最好的任務是什么
目前最好的方法是ELECTRA→在生成器的幫助下替換輸入token,然后使用識別器來預測哪個token被替換了。
https://arxiv.org/pdf/2003.10555.pdf
https://arxiv.org/pdf/2003.10555.pdf
Also T5論文還說, dropping a span為3是最好的。
https://arxiv.org/pdf/1910.10683.pdf
Transformer訓練的時候是否需要逐步的解凍參數?
T5 論文說不需要。
https://arxiv.org/pdf/1910.10683.pdf
如果你有固定的訓練預算,你會通過改變什么來得到更好的語言模型?
T5 paper建議同時提升訓練的步數和模型的大小。
https://arxiv.org/pdf/1910.10683.pdf
如果你的序列長度超過了512,你會用什么模型?
Transformer-XL或者Longformer
Transformer的處理時間隨著序列的長度是怎么擴展的?
平方擴展。
如何降低長文檔的transformers處理時間,因為它是序列長度的二次函數?
Longformer使用了一種隨著序列長度線性擴展的注意力機制。
https://arxiv.org/pdf/2004.05150.pdf
Longformer在語義搜索中對編碼長文檔非常有用。下表顯示了到目前為止所做的工作。
https://arxiv.org/pdf/2004.05150.pdf
BERT表現這么好是因為注意力層嗎?
論文Attention is not Explanation認為注意力沒有正確地與輸出相關,因此我們不能說由于注意機制,模型的表現更好。
如果我們去掉一個注意力頭,BERT的表現會下降很多嗎?
不會 —見論文 Revealing the Dark Secrets of BERT
如果我們去掉一層,BERT的表現會下降很多嗎?
不會 —見論文 Revealing the Dark Secrets of BERT
如果我們隨機初始化BERT,BERT的表現會下降很多嗎
不會 —見論文 Revealing the Dark Secrets of BERT
我們真的需要模型壓縮嗎?
也許不是!這篇文章的筆記:http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。
“模型壓縮技術通過解釋過度參數化模型趨向于收斂的結果類型,給我們一個關于如何訓練適當參數化模型的提示。模型壓縮有很多種類型,每一種都利用了一種不同類型的“簡單性”,這種“簡單性”通常在訓練過的神經網絡中可以找到:
- 許多權重接近于零(修剪)
- 權重矩陣是低秩的(權重分解)
- 權重能只用幾個位表示(量化)
- 層通常學習類似的功能(權重共享)
如果暴露為API,我們可以偷一個模型來用嗎?
可以的Y → 在這里解釋了:http://www.cleverhans.io/2020/04/06/stealing-bert.html
當前蒸餾的最新進展是什么樣的?
https://arxiv.org/pdf/2003.08271.pdf
更大的Transformer模型訓練起來比小的更快?
更大的模型更快,見這篇文章:https://bair.berkeley.edu/blog/2020/03/05/compress/.
student-teacher框架的應用是什么?
Knowledge distillation用來產生更小的模型。
https://arxiv.org/pdf/1909.10351.pdf
對于不同的語言產生相似句子嵌入:https://arxiv.org/pdf/2004.09813v1.pdf
https://arxiv.org/pdf/2004.09813v1.pdf
如何設計模型?哪些是更重要的參數
這是一個很難回答的問題!所有這些都在“Scaling Laws for Neural Language Models”:https://arxiv.org/pdf/2001.08361.pdf中得到了解釋
- 測試損失 Vs 計算
- 測試損失 Vs 數據集大小
- 測試損失 Vs 參數
要設計和訓練一個模型,首先要確定架構。然后得到它的參數量。由此,你可以計算出損失。然后選擇所需的數據大小和計算量。
看一下圖中的比例方程。
Scaling Laws for Neural Language Models
最后…
我希望你們能像我一樣通過這些問題學到很多東西。要成為更好的NLP工程師,我們需要對快速發展的遷移學習有更深的理解。我相信這些想法會讓你忙上幾周
總結
以上是生活随笔為你收集整理的nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python getattr_来一点Py
- 下一篇: nginx动静分离配置_nginx动静分