日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

你的语言模型有没有“无法预测的词”?

發(fā)布時(shí)間:2024/3/7 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 你的语言模型有没有“无法预测的词”? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者 | 蘇劍林

單位 | 追一科技

研究方向 | NLP、神經(jīng)網(wǎng)絡(luò)

眾所周知,分類模型通常都是先得到編碼向量,然后接一個(gè) Dense 層預(yù)測每個(gè)類別的概率,而預(yù)測時(shí)則是輸出概率最大的類別。但大家是否想過這樣一種可能:訓(xùn)練好的分類模型可能存在“無法預(yù)測的類別”,即不管輸入是什么,都不可能預(yù)測出某個(gè)類別 k,類別 k 永遠(yuǎn)不可能成為概率最大的那個(gè)。

當(dāng)然,這種情況一般只出現(xiàn)在類別數(shù)遠(yuǎn)遠(yuǎn)超過編碼向量維度的場景,常規(guī)的分類問題很少這么極端的。然而,我們知道語言模型本質(zhì)上也是一個(gè)分類模型,它的類別數(shù)也就是詞表的總大小,往往是遠(yuǎn)超過向量維度的,那么我們的語言模型是否有“無法預(yù)測的詞”?(只考慮 Greedy 解碼)



是否存在

ACL 2022 的論文《Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in Practice》[1]?首先探究了這個(gè)問題,正如其標(biāo)題所言,答案是“理論上存在但實(shí)際出現(xiàn)概率很小”。

首先我們來看“理論上存在”。為了證明其存在性,我們只需要具體地構(gòu)建一個(gè)例子。設(shè)各個(gè)類別向量分為 ,偏置項(xiàng)為 ,假設(shè)類別 k 是可預(yù)測的,那么就存在 ,同時(shí)滿足:

反過來,如果類別 k 不可預(yù)測,那么對(duì)于任意 ,必須存在某個(gè) ,滿足:

由于現(xiàn)在我們只需要舉例子,所以簡單起見我們先考慮無偏置項(xiàng)的情況,并設(shè) k=n,此時(shí)條件為 ,也就是說,任意向量 必然能找到向量 與之夾角小于等于 90 度。不難想象,當(dāng)向量數(shù)大于空間維度、向量均勻分布在空間中時(shí),這是有可能出現(xiàn)的,比如二維平面上的任意向量,就必然與 之一的夾角小于 90 度,從而我們可以構(gòu)造出例子:

在這個(gè)例子中,類別 5 就是不可預(yù)測的了,不信大家可以代入一些 試試。

怎么判斷

現(xiàn)在我們已經(jīng)確認(rèn)了“無法預(yù)測的類別”是可能存在的,那么一個(gè)很自然的問題就是,對(duì)于一個(gè)訓(xùn)練好的模型,也就是給定 和 ,怎么判斷其中是否存在不可預(yù)測的類別呢?

根據(jù)前一節(jié)的描述,從解不等式的角度來看,如果類別k是可預(yù)測的,那么下述不等式組的解集就會(huì)非空:

不失一般性,我們同樣設(shè) k=n,并且記 ,留意到:

所以,只要我們盡量最大化 ,如果最終結(jié)果是正的,那么類別n就是可預(yù)測的,否則就是不可預(yù)測的。如果之前讀過《多任務(wù)學(xué)習(xí)漫談:行梯度之事》的讀者,就會(huì)發(fā)現(xiàn)該問題“似曾相識(shí)”,特別是如果沒有偏置項(xiàng)的情況下,它跟多任務(wù)學(xué)習(xí)中尋找“帕累托最優(yōu)”的過程是幾乎一致的。

現(xiàn)在問題變?yōu)?#xff1a;

為了避免發(fā)散到無窮,我們可以加個(gè)約束 :

其中r是一個(gè)常數(shù),只要r取得足夠大,它就能跟實(shí)際情況足夠吻合,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的輸出通常來說也是有界的。接下來的過程就跟多任務(wù)學(xué)習(xí)漫談:行梯度之事的幾乎一樣了,首先引入:

那么問題變成:

根據(jù)馮·諾依曼的 Minimax 定理 [2],可以交換 和 的順序:

很顯然, 這一步在 且 跟 同向時(shí)取到,結(jié)果為:

當(dāng) r 足夠大時(shí),偏置項(xiàng)的影響就非常小了,所以這幾乎就等價(jià)于沒有偏置項(xiàng)的情形:

最后的 的求解過程已經(jīng)在多任務(wù)學(xué)習(xí)漫談:行梯度之事中討論過了,主要用到了 Frank-Wolfe 算法,不再重復(fù)。

注:以上判別過程是筆者自己給出的,跟論文《Low-Rank Softmax Can Have Unargmaxable Classes in Theory but Rarely in Practice》[1] 中的方法并不相同。

實(shí)踐如何

前面的討論都是理論上的,那么實(shí)際的語言模型出現(xiàn)“無法預(yù)測的詞”的概率大不大呢?原論文對(duì)一些訓(xùn)練好的語言模型和生成模型進(jìn)行了檢驗(yàn),發(fā)現(xiàn)實(shí)際上出現(xiàn)的概率很小,比如下表中的機(jī)器翻譯模型檢驗(yàn)結(jié)果:

▲ 機(jī)器翻譯模型的檢驗(yàn)結(jié)果

其實(shí)這不難理解,從前面的討論中我們知道“無法預(yù)測的詞”一般只出現(xiàn)在類別數(shù)遠(yuǎn)遠(yuǎn)大于向量維度的情況,也就是原論文標(biāo)題中的“Low-Rank”。但由于“維度災(zāi)難”的原因,“遠(yuǎn)遠(yuǎn)大于”這個(gè)概念其實(shí)并非我們直觀所想的那樣,比如對(duì)于 2 維空間來說,類別數(shù)為 4 就可以稱得上“遠(yuǎn)遠(yuǎn)大于”,但如果是 200 維空間,那么即便是類別數(shù)為 40000 也算不上“遠(yuǎn)遠(yuǎn)大于”。常見的語言模型向量維度基本上都有幾百維,而詞表頂多也就是數(shù)十萬的級(jí)別,因此其實(shí)還是算不上“遠(yuǎn)遠(yuǎn)大于”,因此出現(xiàn)“無法預(yù)測的詞”的概率就很小了。

另外,我們還可以證明,如果所有的 互不相同但是模長都相等,那么是絕對(duì)不會(huì)出現(xiàn)“無法預(yù)測的詞”,因此這種不可預(yù)測的情況只出現(xiàn)在 模長差異較大的情況,而在當(dāng)前主流的深度模型中,由于各種 Normalization 技術(shù)的應(yīng)用, 模長差異較大的情況很少出現(xiàn)了,這進(jìn)一步降低了“無法預(yù)測的詞”的出現(xiàn)概率了。

當(dāng)然,還是文章開頭說了,本文的“無法預(yù)測的詞”指的是最大化預(yù)測,也就是 Greedy Search,如果用 Beam Search 或者隨機(jī)采樣,那么即便存在“無法預(yù)測的詞”,也依然是可能生成出來的。這個(gè)“無法預(yù)測的詞”,更多是一個(gè)好玩但實(shí)用價(jià)值不大的理論概念了。


最后小結(jié)

本文向大家介紹了一個(gè)沒什么實(shí)用價(jià)值但是頗為有意思的現(xiàn)象:你的語言模型可能存在一些“無法預(yù)測的詞”,它永遠(yuǎn)不可能成為概率最大者。

參考文獻(xiàn)

[1]?https://arxiv.org/abs/2203.06462

[2]?https://en.wikipedia.org/wiki/Minimax_theorem

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的你的语言模型有没有“无法预测的词”?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。