當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

采样算法哪家强？一个针对主流采样算法的比较

發(fā)布時間：2024/10/8 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了采样算法哪家强？一个针对主流采样算法的比较小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文標(biāo)題：

A Systematic Characterization of Sampling Algorithms for Open-ended Language Generation

論文作者：

Moin Nadeem (MIT), Tianxing He (MIT), Kyunghyun Cho (NYU), James Glass (MIT)

論文鏈接：

https://arxiv.org/abs/2009.07243

代碼鏈接：

https://github.com/moinnadeem/characterizing-sampling-algorithms

文本生成離不開采樣，一個好的采樣方法可以兼顧生成文本的質(zhì)量和多樣性。但是，目前主流的各采樣算法并沒有得到充分的研究，它們的優(yōu)劣也難以量化。

本文在語言模型上比較了當(dāng)前主流的幾個采樣算法Top-K, Nucleus, Tempered，發(fā)現(xiàn)他們都滿足三個關(guān)鍵性質(zhì)，因此在效果上難分伯仲。

進(jìn)一步的研究表明，滿足這三個性質(zhì)的其他采樣算法也能夠取得很好的效果，這就指出了文本生成所需的必要條件。

文本生成的兩大要素：質(zhì)量與多樣性

文本生成我們之前已經(jīng)講過很多了，但是讀者有沒有發(fā)現(xiàn)，基本上所有的文本生成任務(wù)，所謂的“目標(biāo)句子”都是唯一的，或者很少。

比如，一個語言模型已經(jīng)生成了“The news says that”，那么它下面會生成什么呢？對人來說，完全可以大開腦洞續(xù)寫，但是對于一個已經(jīng)訓(xùn)練好的模型來說，它下面要生成的就已經(jīng)固定了（如果采取定性解碼算法，如每一步都取概率最大的詞），則說這個模型的多樣性很差。

所以，對于文本生成模型來說，我們想要盡量在質(zhì)量和多樣性之間保持平衡。采樣算法就是一種追求這種平衡的技術(shù)。

在解碼的時候，不按照模型本身得到的每個詞的概率采樣，而是進(jìn)行一定的變換，然后再采樣，如果采樣范圍縮小，那么多樣性就減少，但質(zhì)量也會提高，如果采樣范圍擴(kuò)大，多樣性就會增大，但質(zhì)量也會降低。

那么如何設(shè)計這樣的采樣算法，使得最大化保持質(zhì)量與多樣性的平衡呢？

本文針對當(dāng)前主流的幾種采樣算法進(jìn)行了系統(tǒng)性的比較，觀察它們的Q (Quality)-D (Diversity)平衡，其中質(zhì)量由BLEU衡量，多樣性由n-gram entropy衡量。

進(jìn)一步進(jìn)行觀察研究發(fā)現(xiàn)，這幾個采樣算法都滿足三個關(guān)鍵性質(zhì)：（1）減熵性；（2）保序性；（3）保斜率性。而一旦某種采樣算法不滿足其中一條性質(zhì)，那么它的Q-D平衡就會被打破。因此，這三條性質(zhì)是保證采樣算法保持Q-D平衡的必要條件。

總的來說，本文研究貢獻(xiàn)如下：

系統(tǒng)性地比較了幾種采樣算法在文本生成上的效果，發(fā)現(xiàn)它們有很相似Q-D平衡性；
提出這幾種采樣算法成功的關(guān)鍵在于三條性質(zhì)；
一旦不滿足任意一條性質(zhì)，則采樣算法的表現(xiàn)就會顯著降低；
啟發(fā)未來采樣算法的設(shè)計。

比較的采樣算法

用于文本生成的采樣算法很多，最簡單的就是直接取概率最大的詞，或者叫top-1采樣。

本文主要比較了下述幾種采樣方法（注意向量已經(jīng)降序排列了，所以）：

Top-k采樣: 只考慮前個概率最大的詞，注意要把它們的概率重新歸一化，即

Nucleus采樣：也是只考慮前若干個概率最大的詞，不過以一種概率累計式的方法，即，

Tempered采樣：在原概率上增加一個溫度項，即

Tempered Top-k采樣：結(jié)合Top-k采樣和Tempered采樣，即

之后，我們就得到了一個用于采樣的概率向量。

采樣算法的三個性質(zhì)

在有了上述幾個采樣算法之后，我們可以發(fā)現(xiàn)，它們都滿足下述三個性質(zhì)：

減熵性（Entropy Reduction）：變換后的概率分布始終小于變換前的概率分布，即。
保序性（Order Preservation）：元素排列的順序不變，即。

保斜率性（Slope Preservation）：分布的“斜率”保持不變，即

保斜率性指出了，變換后的概率分布在概率的量級變化上是成比例的，而保序性則說明概率大的仍然概率大。

性質(zhì)2的證明是顯然的，性質(zhì)3也只需要代入公式即可。比較麻煩的是性質(zhì)1，有興趣的讀者可以參考原文附錄B完成證明。

采樣算法的設(shè)計

上面我們證明了所述的采樣算法都滿足這三條性質(zhì)，那么，是不是所有滿足這三條性質(zhì)的采樣算法都能有比較好的Q-D平衡呢？是不是只要不滿足其中至少一條性質(zhì)，就不會有好的效果呢？前者是充分條件，后者是必要條件。

為了證明必要條件，只需要舉例說明即可，但是充分條件難以用例子證明，故在本節(jié)我們?nèi)匀皇桥e例進(jìn)行一定程度的說明。

為此，除了上述的幾種算法外，我們還設(shè)計兩類采樣算法：一是不滿足某些性質(zhì)，二是滿足所有性質(zhì)。

不滿足某些性質(zhì)的采樣算法

Target-Entropy采樣：形式是Tempered采樣，但其中的溫度設(shè)定為讓變換后的概率分布的熵恒定為一個常值，即

它違反了減熵性。

Random-Mask采樣：隨機抹去一些詞后形成的概率分布，即

顯然，它違反了保序性。

Noised Top-k采樣：在原來的top-k得到的概率分布上再加上有序噪聲分布，即

由于本身也是有序的，所以不違反保序性，但是它違反了保斜率性。

滿足所有性質(zhì)的采樣算法

Random Top-k采樣：這里的是隨機產(chǎn)生的，即

Max-Entropy采樣：和Target-Entropy采樣類似，只是要保證減熵性：

實驗

接下來就是要以繪制Q-D散點圖的方式看這些采樣算法的實際效果。自動測評指標(biāo)有corpus-BLEU（衡量質(zhì)量Q）與self-BLEU（衡量多樣性D），人工測評則是在1-5之間打分（衡量質(zhì)量Q）和使用n-gram entropy（衡量多樣性D）。模型采用GPT-2，分別在Gigaword與Wiki103上微調(diào)。其他細(xì)節(jié)請參考原文。

首先來比較當(dāng)前主流采樣算法的Q-D平衡，下面兩個圖依次是人工測評和自動測評結(jié)果。可以看到，無論是人工測評還是自動測評，這幾個算法的表現(xiàn)都沒有顯著差異。

在一個算法內(nèi)部，調(diào)整不同的超參可能有不同的結(jié)果，但從所有算法的總體趨勢和表現(xiàn)來看，它們還是很相似的。

那么，對我們設(shè)計的不滿足某些性質(zhì)的采樣算法來說，它們的表現(xiàn)又如何呢？其結(jié)果如下圖所示。可以看到，違反了減熵性的Target Entropy表現(xiàn)最差；Noised Top-k效果隨著噪聲的增加而效果變差；而Random Mask的效果和現(xiàn)有的算法表現(xiàn)相近。上述觀察說明，在保序性這個條件上可以略有放松，但是在減熵性和保斜率性上不能放寬。

下圖是設(shè)計的滿足所有性質(zhì)的采樣算法的表現(xiàn)。可以看到，所提出的Max Entropy和Random Top-K完全和現(xiàn)有算法保持一致。

實際上，在人工測評上這些算法的表現(xiàn)趨勢也都和自動測評一致。

下面來看一下不同算法具體生成的文本是怎樣的，如下表所示。各個算法都調(diào)整超參數(shù)，使得它們的self-BLEU相似（即多樣性相似），因此可以更直觀地比對所生成文本的質(zhì)量。

可以看到，滿足全部性質(zhì)的算法所生成的文本大致還是流暢連貫的，但是對違反某些性質(zhì)的算法而言，總有不連貫的地方，導(dǎo)致其質(zhì)量較低。也就是說，某些性質(zhì)對文本質(zhì)量有重要影響。

小結(jié)

本文從文本生成的角度比較系統(tǒng)地研究和比較了幾種主流采樣算法的效果，在發(fā)現(xiàn)他們的Q-D平衡都相似的情況下，提出了它們都滿足的三種性質(zhì)，從而猜測這三種性質(zhì)對所生成文本的質(zhì)量和多樣性有重要作用。

為了驗證這個猜想，本文設(shè)計了兩組采樣算法，一組全部滿足這些性質(zhì)，另一組不滿足某些性質(zhì)，然后比較它們的效果。

結(jié)果發(fā)現(xiàn)，不滿足某些性質(zhì)的采樣算法的確在Q-D平衡上表現(xiàn)更差，即使控制相同的多樣性，所生成的文本質(zhì)量也較低，這印證了這三種性質(zhì)在某種意義是的確是保障采樣算法Q-D平衡的必要條件。

值得一說的是，盡管本文提出了這樣的假設(shè)，并從經(jīng)驗上進(jìn)行了驗證，但該理論仍然屬于猜想，究竟是不是這三個性質(zhì)起決定作用，還是其背后更本質(zhì)的數(shù)學(xué)原理在起作用，目前都尚沒有定論。

本文算是給采樣算法為何能提高文本質(zhì)量與多樣性的研究開了一扇門，以更好地指導(dǎo)采樣算法的設(shè)計。

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的采样算法哪家强？一个针对主流采样算法的比较的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：基于华为 HarmonyOS NEXT，
下一篇：你可能不需要固定词表：一种与词表无关的组