nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展...
作者:Pratik Bhavsar
編譯:ronghuaiyang
導(dǎo)讀
如果這21個問題你全部了解的話,你對最新的NLP進展的了解已經(jīng)過關(guān)了。
2018年10月BERT發(fā)布之后發(fā)生了很多事情。
你知道BERT的掩碼語言模型是老派模型嗎?
你知道注意力的計算不需要平方時間復(fù)雜度嗎?
你知道你可以偷用谷歌的模型嗎?
我們這一代人中一些最聰明的人一直在緊張地工作,并有大量的產(chǎn)出!NLP現(xiàn)在是最性感的領(lǐng)域
NLProc已經(jīng)走了很長的路。
我們需要另一個總結(jié)!!
這20個問題會測試你對NLP當前狀態(tài)的更新程度的了解,并為任何技術(shù)討論做好準備。
什么是最新的預(yù)訓(xùn)練模型(PTM)?
https://arxiv.org/pdf/2003.08271.pdf
PTMs的訓(xùn)練任務(wù)是什么?
https://arxiv.org/pdf/2003.08271.pdf
在GLUE上,最好的PTMs是什么?
https://arxiv.org/pdf/2003.08271.pdf
更多的數(shù)據(jù)是不是總是可以得到更好的語言模型?
T5論文說不是的,質(zhì)量比數(shù)量更重要。
https://arxiv.org/pdf/1910.10683.pdf
什么tokenisation方法對于訓(xùn)練語言模型是最好的?
這篇文章:https://arxiv.org/pdf/2004.03720.pdf,說一種新的方法Unigram LM要比BPE和WordPiece更好一些。
訓(xùn)練語言模型的最好的任務(wù)是什么
目前最好的方法是ELECTRA→在生成器的幫助下替換輸入token,然后使用識別器來預(yù)測哪個token被替換了。
https://arxiv.org/pdf/2003.10555.pdf
https://arxiv.org/pdf/2003.10555.pdf
Also T5論文還說, dropping a span為3是最好的。
https://arxiv.org/pdf/1910.10683.pdf
Transformer訓(xùn)練的時候是否需要逐步的解凍參數(shù)?
T5 論文說不需要。
https://arxiv.org/pdf/1910.10683.pdf
如果你有固定的訓(xùn)練預(yù)算,你會通過改變什么來得到更好的語言模型?
T5 paper建議同時提升訓(xùn)練的步數(shù)和模型的大小。
https://arxiv.org/pdf/1910.10683.pdf
如果你的序列長度超過了512,你會用什么模型?
Transformer-XL或者Longformer
Transformer的處理時間隨著序列的長度是怎么擴展的?
平方擴展。
如何降低長文檔的transformers處理時間,因為它是序列長度的二次函數(shù)?
Longformer使用了一種隨著序列長度線性擴展的注意力機制。
https://arxiv.org/pdf/2004.05150.pdf
Longformer在語義搜索中對編碼長文檔非常有用。下表顯示了到目前為止所做的工作。
https://arxiv.org/pdf/2004.05150.pdf
BERT表現(xiàn)這么好是因為注意力層嗎?
論文Attention is not Explanation認為注意力沒有正確地與輸出相關(guān),因此我們不能說由于注意機制,模型的表現(xiàn)更好。
如果我們?nèi)サ粢粋€注意力頭,BERT的表現(xiàn)會下降很多嗎?
不會 —見論文 Revealing the Dark Secrets of BERT
如果我們?nèi)サ粢粚?#xff0c;BERT的表現(xiàn)會下降很多嗎?
不會 —見論文 Revealing the Dark Secrets of BERT
如果我們隨機初始化BERT,BERT的表現(xiàn)會下降很多嗎
不會 —見論文 Revealing the Dark Secrets of BERT
我們真的需要模型壓縮嗎?
也許不是!這篇文章的筆記:http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。
“模型壓縮技術(shù)通過解釋過度參數(shù)化模型趨向于收斂的結(jié)果類型,給我們一個關(guān)于如何訓(xùn)練適當參數(shù)化模型的提示。模型壓縮有很多種類型,每一種都利用了一種不同類型的“簡單性”,這種“簡單性”通常在訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)中可以找到:
- 許多權(quán)重接近于零(修剪)
- 權(quán)重矩陣是低秩的(權(quán)重分解)
- 權(quán)重能只用幾個位表示(量化)
- 層通常學(xué)習(xí)類似的功能(權(quán)重共享)
如果暴露為API,我們可以偷一個模型來用嗎?
可以的Y → 在這里解釋了:http://www.cleverhans.io/2020/04/06/stealing-bert.html
當前蒸餾的最新進展是什么樣的?
https://arxiv.org/pdf/2003.08271.pdf
更大的Transformer模型訓(xùn)練起來比小的更快?
更大的模型更快,見這篇文章:https://bair.berkeley.edu/blog/2020/03/05/compress/.
student-teacher框架的應(yīng)用是什么?
Knowledge distillation用來產(chǎn)生更小的模型。
https://arxiv.org/pdf/1909.10351.pdf
對于不同的語言產(chǎn)生相似句子嵌入:https://arxiv.org/pdf/2004.09813v1.pdf
https://arxiv.org/pdf/2004.09813v1.pdf
如何設(shè)計模型?哪些是更重要的參數(shù)
這是一個很難回答的問題!所有這些都在“Scaling Laws for Neural Language Models”:https://arxiv.org/pdf/2001.08361.pdf中得到了解釋
- 測試損失 Vs 計算
- 測試損失 Vs 數(shù)據(jù)集大小
- 測試損失 Vs 參數(shù)
要設(shè)計和訓(xùn)練一個模型,首先要確定架構(gòu)。然后得到它的參數(shù)量。由此,你可以計算出損失。然后選擇所需的數(shù)據(jù)大小和計算量。
看一下圖中的比例方程。
Scaling Laws for Neural Language Models
最后…
我希望你們能像我一樣通過這些問題學(xué)到很多東西。要成為更好的NLP工程師,我們需要對快速發(fā)展的遷移學(xué)習(xí)有更深的理解。我相信這些想法會讓你忙上幾周
總結(jié)
以上是生活随笔為你收集整理的nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python getattr_来一点Py
- 下一篇: nginx动静分离配置_nginx动静分