日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展...

發(fā)布時間:2025/3/15 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者:Pratik Bhavsar

編譯:ronghuaiyang

導(dǎo)讀

如果這21個問題你全部了解的話,你對最新的NLP進展的了解已經(jīng)過關(guān)了。

2018年10月BERT發(fā)布之后發(fā)生了很多事情。

你知道BERT的掩碼語言模型是老派模型嗎?

你知道注意力的計算不需要平方時間復(fù)雜度嗎?

你知道你可以偷用谷歌的模型嗎?

我們這一代人中一些最聰明的人一直在緊張地工作,并有大量的產(chǎn)出!NLP現(xiàn)在是最性感的領(lǐng)域

NLProc已經(jīng)走了很長的路。

我們需要另一個總結(jié)!!

這20個問題會測試你對NLP當前狀態(tài)的更新程度的了解,并為任何技術(shù)討論做好準備。


什么是最新的預(yù)訓(xùn)練模型(PTM)?

https://arxiv.org/pdf/2003.08271.pdf

PTMs的訓(xùn)練任務(wù)是什么?

https://arxiv.org/pdf/2003.08271.pdf

在GLUE上,最好的PTMs是什么?

https://arxiv.org/pdf/2003.08271.pdf

更多的數(shù)據(jù)是不是總是可以得到更好的語言模型?

T5論文說不是的,質(zhì)量比數(shù)量更重要。

https://arxiv.org/pdf/1910.10683.pdf

什么tokenisation方法對于訓(xùn)練語言模型是最好的?

這篇文章:https://arxiv.org/pdf/2004.03720.pdf,說一種新的方法Unigram LM要比BPE和WordPiece更好一些。

訓(xùn)練語言模型的最好的任務(wù)是什么

目前最好的方法是ELECTRA→在生成器的幫助下替換輸入token,然后使用識別器來預(yù)測哪個token被替換了。

https://arxiv.org/pdf/2003.10555.pdf

https://arxiv.org/pdf/2003.10555.pdf

Also T5論文還說, dropping a span為3是最好的。

https://arxiv.org/pdf/1910.10683.pdf

Transformer訓(xùn)練的時候是否需要逐步的解凍參數(shù)?

T5 論文說不需要。

https://arxiv.org/pdf/1910.10683.pdf

如果你有固定的訓(xùn)練預(yù)算,你會通過改變什么來得到更好的語言模型?

T5 paper建議同時提升訓(xùn)練的步數(shù)和模型的大小。

https://arxiv.org/pdf/1910.10683.pdf

如果你的序列長度超過了512,你會用什么模型?

Transformer-XL或者Longformer

Transformer的處理時間隨著序列的長度是怎么擴展的?

平方擴展。

如何降低長文檔的transformers處理時間,因為它是序列長度的二次函數(shù)?

Longformer使用了一種隨著序列長度線性擴展的注意力機制。

https://arxiv.org/pdf/2004.05150.pdf

Longformer在語義搜索中對編碼長文檔非常有用。下表顯示了到目前為止所做的工作。

https://arxiv.org/pdf/2004.05150.pdf

BERT表現(xiàn)這么好是因為注意力層嗎?

論文Attention is not Explanation認為注意力沒有正確地與輸出相關(guān),因此我們不能說由于注意機制,模型的表現(xiàn)更好。

如果我們?nèi)サ粢粋€注意力頭,BERT的表現(xiàn)會下降很多嗎?

不會 —見論文 Revealing the Dark Secrets of BERT

如果我們?nèi)サ粢粚?#xff0c;BERT的表現(xiàn)會下降很多嗎?

不會 —見論文 Revealing the Dark Secrets of BERT

如果我們隨機初始化BERT,BERT的表現(xiàn)會下降很多嗎

不會 —見論文 Revealing the Dark Secrets of BERT

我們真的需要模型壓縮嗎?

也許不是!這篇文章的筆記:http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。

“模型壓縮技術(shù)通過解釋過度參數(shù)化模型趨向于收斂的結(jié)果類型,給我們一個關(guān)于如何訓(xùn)練適當參數(shù)化模型的提示。模型壓縮有很多種類型,每一種都利用了一種不同類型的“簡單性”,這種“簡單性”通常在訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)中可以找到:

  • 許多權(quán)重接近于零(修剪)
  • 權(quán)重矩陣是低秩的(權(quán)重分解)
  • 權(quán)重能只用幾個位表示(量化)
  • 層通常學(xué)習(xí)類似的功能(權(quán)重共享)

如果暴露為API,我們可以偷一個模型來用嗎?

可以的Y → 在這里解釋了:http://www.cleverhans.io/2020/04/06/stealing-bert.html

當前蒸餾的最新進展是什么樣的?

https://arxiv.org/pdf/2003.08271.pdf

更大的Transformer模型訓(xùn)練起來比小的更快?

更大的模型更快,見這篇文章:https://bair.berkeley.edu/blog/2020/03/05/compress/.

student-teacher框架的應(yīng)用是什么?

Knowledge distillation用來產(chǎn)生更小的模型。

https://arxiv.org/pdf/1909.10351.pdf

對于不同的語言產(chǎn)生相似句子嵌入:https://arxiv.org/pdf/2004.09813v1.pdf

https://arxiv.org/pdf/2004.09813v1.pdf

如何設(shè)計模型?哪些是更重要的參數(shù)

這是一個很難回答的問題!所有這些都在“Scaling Laws for Neural Language Models”:https://arxiv.org/pdf/2001.08361.pdf中得到了解釋

  • 測試損失 Vs 計算
  • 測試損失 Vs 數(shù)據(jù)集大小
  • 測試損失 Vs 參數(shù)

要設(shè)計和訓(xùn)練一個模型,首先要確定架構(gòu)。然后得到它的參數(shù)量。由此,你可以計算出損失。然后選擇所需的數(shù)據(jù)大小和計算量。

看一下圖中的比例方程。

Scaling Laws for Neural Language Models


最后…

我希望你們能像我一樣通過這些問題學(xué)到很多東西。要成為更好的NLP工程師,我們需要對快速發(fā)展的遷移學(xué)習(xí)有更深的理解。我相信這些想法會讓你忙上幾周

總結(jié)

以上是生活随笔為你收集整理的nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。