當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

你的语言模型有没有“无法预测的词”？

發(fā)布時(shí)間：2024/3/7 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了你的语言模型有没有“无法预测的词”？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者 | 蘇劍林

單位 | 追一科技

研究方向 | NLP、神經(jīng)網(wǎng)絡(luò)

眾所周知，分類模型通常都是先得到編碼向量，然后接一個(gè) Dense 層預(yù)測每個(gè)類別的概率，而預(yù)測時(shí)則是輸出概率最大的類別。但大家是否想過這樣一種可能：訓(xùn)練好的分類模型可能存在“無法預(yù)測的類別”，即不管輸入是什么，都不可能預(yù)測出某個(gè)類別 k，類別 k 永遠(yuǎn)不可能成為概率最大的那個(gè)。

當(dāng)然，這種情況一般只出現(xiàn)在類別數(shù)遠(yuǎn)遠(yuǎn)超過編碼向量維度的場景，常規(guī)的分類問題很少這么極端的。然而，我們知道語言模型本質(zhì)上也是一個(gè)分類模型，它的類別數(shù)也就是詞表的總大小，往往是遠(yuǎn)超過向量維度的，那么我們的語言模型是否有“無法預(yù)測的詞”？（只考慮 Greedy 解碼）

是否存在

ACL 2022 的論文《Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in Practice》[1]?首先探究了這個(gè)問題，正如其標(biāo)題所言，答案是“理論上存在但實(shí)際出現(xiàn)概率很小”。

首先我們來看“理論上存在”。為了證明其存在性，我們只需要具體地構(gòu)建一個(gè)例子。設(shè)各個(gè)類別向量分為，偏置項(xiàng)為，假設(shè)類別 k 是可預(yù)測的，那么就存在，同時(shí)滿足：

反過來，如果類別 k 不可預(yù)測，那么對(duì)于任意，必須存在某個(gè) ，滿足：

由于現(xiàn)在我們只需要舉例子，所以簡單起見我們先考慮無偏置項(xiàng)的情況，并設(shè) k=n，此時(shí)條件為，也就是說，任意向量必然能找到向量與之夾角小于等于 90 度。不難想象，當(dāng)向量數(shù)大于空間維度、向量均勻分布在空間中時(shí)，這是有可能出現(xiàn)的，比如二維平面上的任意向量，就必然與之一的夾角小于 90 度，從而我們可以構(gòu)造出例子：

在這個(gè)例子中，類別 5 就是不可預(yù)測的了，不信大家可以代入一些試試。

怎么判斷

現(xiàn)在我們已經(jīng)確認(rèn)了“無法預(yù)測的類別”是可能存在的，那么一個(gè)很自然的問題就是，對(duì)于一個(gè)訓(xùn)練好的模型，也就是給定和，怎么判斷其中是否存在不可預(yù)測的類別呢？

根據(jù)前一節(jié)的描述，從解不等式的角度來看，如果類別k是可預(yù)測的，那么下述不等式組的解集就會(huì)非空：

不失一般性，我們同樣設(shè) k=n，并且記，留意到：

所以，只要我們盡量最大化，如果最終結(jié)果是正的，那么類別n就是可預(yù)測的，否則就是不可預(yù)測的。如果之前讀過《多任務(wù)學(xué)習(xí)漫談：行梯度之事》的讀者，就會(huì)發(fā)現(xiàn)該問題“似曾相識(shí)”，特別是如果沒有偏置項(xiàng)的情況下，它跟多任務(wù)學(xué)習(xí)中尋找“帕累托最優(yōu)”的過程是幾乎一致的。

現(xiàn)在問題變?yōu)?#xff1a;

為了避免發(fā)散到無窮，我們可以加個(gè)約束：

其中r是一個(gè)常數(shù)，只要r取得足夠大，它就能跟實(shí)際情況足夠吻合，因?yàn)樯窠?jīng)網(wǎng)絡(luò)的輸出通常來說也是有界的。接下來的過程就跟多任務(wù)學(xué)習(xí)漫談：行梯度之事的幾乎一樣了，首先引入：

那么問題變成：

根據(jù)馮·諾依曼的 Minimax 定理 [2]，可以交換和的順序：

很顯然，這一步在且跟同向時(shí)取到，結(jié)果為：

當(dāng) r 足夠大時(shí)，偏置項(xiàng)的影響就非常小了，所以這幾乎就等價(jià)于沒有偏置項(xiàng)的情形：

最后的的求解過程已經(jīng)在多任務(wù)學(xué)習(xí)漫談：行梯度之事中討論過了，主要用到了 Frank-Wolfe 算法，不再重復(fù)。

注：以上判別過程是筆者自己給出的，跟論文《Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in Practice》[1] 中的方法并不相同。

實(shí)踐如何

前面的討論都是理論上的，那么實(shí)際的語言模型出現(xiàn)“無法預(yù)測的詞”的概率大不大呢？原論文對(duì)一些訓(xùn)練好的語言模型和生成模型進(jìn)行了檢驗(yàn)，發(fā)現(xiàn)實(shí)際上出現(xiàn)的概率很小，比如下表中的機(jī)器翻譯模型檢驗(yàn)結(jié)果：

▲ 機(jī)器翻譯模型的檢驗(yàn)結(jié)果

其實(shí)這不難理解，從前面的討論中我們知道“無法預(yù)測的詞”一般只出現(xiàn)在類別數(shù)遠(yuǎn)遠(yuǎn)大于向量維度的情況，也就是原論文標(biāo)題中的“Low-Rank”。但由于“維度災(zāi)難”的原因，“遠(yuǎn)遠(yuǎn)大于”這個(gè)概念其實(shí)并非我們直觀所想的那樣，比如對(duì)于 2 維空間來說，類別數(shù)為 4 就可以稱得上“遠(yuǎn)遠(yuǎn)大于”，但如果是 200 維空間，那么即便是類別數(shù)為 40000 也算不上“遠(yuǎn)遠(yuǎn)大于”。常見的語言模型向量維度基本上都有幾百維，而詞表頂多也就是數(shù)十萬的級(jí)別，因此其實(shí)還是算不上“遠(yuǎn)遠(yuǎn)大于”，因此出現(xiàn)“無法預(yù)測的詞”的概率就很小了。

另外，我們還可以證明，如果所有的互不相同但是模長都相等，那么是絕對(duì)不會(huì)出現(xiàn)“無法預(yù)測的詞”，因此這種不可預(yù)測的情況只出現(xiàn)在模長差異較大的情況，而在當(dāng)前主流的深度模型中，由于各種 Normalization 技術(shù)的應(yīng)用，模長差異較大的情況很少出現(xiàn)了，這進(jìn)一步降低了“無法預(yù)測的詞”的出現(xiàn)概率了。

當(dāng)然，還是文章開頭說了，本文的“無法預(yù)測的詞”指的是最大化預(yù)測，也就是 Greedy Search，如果用 Beam Search 或者隨機(jī)采樣，那么即便存在“無法預(yù)測的詞”，也依然是可能生成出來的。這個(gè)“無法預(yù)測的詞”，更多是一個(gè)好玩但實(shí)用價(jià)值不大的理論概念了。

最后小結(jié)

本文向大家介紹了一個(gè)沒什么實(shí)用價(jià)值但是頗為有意思的現(xiàn)象：你的語言模型可能存在一些“無法預(yù)測的詞”，它永遠(yuǎn)不可能成為概率最大者。

參考文獻(xiàn)

[1]?https://arxiv.org/abs/2203.06462

[2]?https://en.wikipedia.org/wiki/Minimax_theorem

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

📝?稿件基本要求：

? 文章確系個(gè)人原創(chuàng)作品，未曾在公開渠道發(fā)表，如為其他平臺(tái)已發(fā)表或待發(fā)表的文章，請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發(fā)送，要求圖片清晰，無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競爭力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時(shí)聯(lián)系方式（微信），以便我們在稿件選用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

總結(jié)

以上是生活随笔為你收集整理的你的语言模型有没有“无法预测的词”？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：解决Warning: Leaking C
下一篇：【笔记】MOS导通条件