當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深？21个问题弄懂最新的NLP进展...

發(fā)布時間：2025/3/15 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深？21个问题弄懂最新的NLP进展... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者：Pratik Bhavsar

編譯：ronghuaiyang

導(dǎo)讀

如果這21個問題你全部了解的話，你對最新的NLP進展的了解已經(jīng)過關(guān)了。

2018年10月BERT發(fā)布之后發(fā)生了很多事情。

你知道BERT的掩碼語言模型是老派模型嗎？

你知道注意力的計算不需要平方時間復(fù)雜度嗎？

你知道你可以偷用谷歌的模型嗎？

我們這一代人中一些最聰明的人一直在緊張地工作，并有大量的產(chǎn)出！NLP現(xiàn)在是最性感的領(lǐng)域

NLProc已經(jīng)走了很長的路。

我們需要另一個總結(jié)！！

這20個問題會測試你對NLP當前狀態(tài)的更新程度的了解，并為任何技術(shù)討論做好準備。

什么是最新的預(yù)訓(xùn)練模型(PTM)？

https://arxiv.org/pdf/2003.08271.pdf

PTMs的訓(xùn)練任務(wù)是什么？

https://arxiv.org/pdf/2003.08271.pdf

在GLUE上，最好的PTMs是什么？

https://arxiv.org/pdf/2003.08271.pdf

更多的數(shù)據(jù)是不是總是可以得到更好的語言模型？

T5論文說不是的，質(zhì)量比數(shù)量更重要。

https://arxiv.org/pdf/1910.10683.pdf

什么tokenisation方法對于訓(xùn)練語言模型是最好的？

這篇文章：https://arxiv.org/pdf/2004.03720.pdf，說一種新的方法Unigram LM要比BPE和WordPiece更好一些。

訓(xùn)練語言模型的最好的任務(wù)是什么

目前最好的方法是ELECTRA→在生成器的幫助下替換輸入token，然后使用識別器來預(yù)測哪個token被替換了。

https://arxiv.org/pdf/2003.10555.pdf

Also T5論文還說， dropping a span為3是最好的。

https://arxiv.org/pdf/1910.10683.pdf

Transformer訓(xùn)練的時候是否需要逐步的解凍參數(shù)？

T5 論文說不需要。

https://arxiv.org/pdf/1910.10683.pdf

如果你有固定的訓(xùn)練預(yù)算，你會通過改變什么來得到更好的語言模型？

T5 paper建議同時提升訓(xùn)練的步數(shù)和模型的大小。

https://arxiv.org/pdf/1910.10683.pdf

如果你的序列長度超過了512，你會用什么模型？

Transformer-XL或者Longformer

Transformer的處理時間隨著序列的長度是怎么擴展的？

平方擴展。

如何降低長文檔的transformers處理時間，因為它是序列長度的二次函數(shù)？

Longformer使用了一種隨著序列長度線性擴展的注意力機制。

https://arxiv.org/pdf/2004.05150.pdf

Longformer在語義搜索中對編碼長文檔非常有用。下表顯示了到目前為止所做的工作。

https://arxiv.org/pdf/2004.05150.pdf

BERT表現(xiàn)這么好是因為注意力層嗎？

論文Attention is not Explanation認為注意力沒有正確地與輸出相關(guān)，因此我們不能說由于注意機制，模型的表現(xiàn)更好。

如果我們?nèi)サ粢粋€注意力頭，BERT的表現(xiàn)會下降很多嗎？

不會 —見論文 Revealing the Dark Secrets of BERT

如果我們?nèi)サ粢粚?#xff0c;BERT的表現(xiàn)會下降很多嗎?

不會 —見論文 Revealing the Dark Secrets of BERT

如果我們隨機初始化BERT，BERT的表現(xiàn)會下降很多嗎

不會 —見論文 Revealing the Dark Secrets of BERT

我們真的需要模型壓縮嗎？

也許不是！這篇文章的筆記：http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。

“模型壓縮技術(shù)通過解釋過度參數(shù)化模型趨向于收斂的結(jié)果類型，給我們一個關(guān)于如何訓(xùn)練適當參數(shù)化模型的提示。模型壓縮有很多種類型，每一種都利用了一種不同類型的“簡單性”，這種“簡單性”通常在訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)中可以找到：

許多權(quán)重接近于零(修剪)
權(quán)重矩陣是低秩的(權(quán)重分解)
權(quán)重能只用幾個位表示(量化)
層通常學(xué)習(xí)類似的功能(權(quán)重共享)

如果暴露為API，我們可以偷一個模型來用嗎？

可以的Y → 在這里解釋了：http://www.cleverhans.io/2020/04/06/stealing-bert.html

當前蒸餾的最新進展是什么樣的？

https://arxiv.org/pdf/2003.08271.pdf

更大的Transformer模型訓(xùn)練起來比小的更快？

更大的模型更快，見這篇文章：https://bair.berkeley.edu/blog/2020/03/05/compress/.

student-teacher框架的應(yīng)用是什么？

Knowledge distillation用來產(chǎn)生更小的模型。

https://arxiv.org/pdf/1909.10351.pdf

對于不同的語言產(chǎn)生相似句子嵌入：https://arxiv.org/pdf/2004.09813v1.pdf

https://arxiv.org/pdf/2004.09813v1.pdf

如何設(shè)計模型？哪些是更重要的參數(shù)

這是一個很難回答的問題！所有這些都在“Scaling Laws for Neural Language Models”：https://arxiv.org/pdf/2001.08361.pdf中得到了解釋

測試損失 Vs 計算
測試損失 Vs 數(shù)據(jù)集大小
測試損失 Vs 參數(shù)

要設(shè)計和訓(xùn)練一個模型，首先要確定架構(gòu)。然后得到它的參數(shù)量。由此，你可以計算出損失。然后選擇所需的數(shù)據(jù)大小和計算量。

看一下圖中的比例方程。

Scaling Laws for Neural Language Models

最后…

我希望你們能像我一樣通過這些問題學(xué)到很多東西。要成為更好的NLP工程師，我們需要對快速發(fā)展的遷移學(xué)習(xí)有更深的理解。我相信這些想法會讓你忙上幾周

總結(jié)

以上是生活随笔為你收集整理的nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深？21个问题弄懂最新的NLP进展...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python getattr_来一点Py
下一篇： nginx动静分离配置_nginx动静分