日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】巧借“他山之石”,生成信息量大、可读性强且稳定的摘要

發(fā)布時間:2025/3/12 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP】巧借“他山之石”,生成信息量大、可读性强且稳定的摘要 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

大多數(shù)以前的 seq2seq 摘要系統(tǒng)純粹依靠源文本來生成摘要,這往往并不穩(wěn)定。

本文將回顧一項針對該問題進行改進的工作 ——ACL 論文?Retrieve,?Rerank?and?Rewrite:?Soft?Template Based Neural Summarization。受傳統(tǒng)基于模板的摘要方法的啟發(fā),這項研究提出利用已有的摘要作為軟模板(soft template)來指導(dǎo) seq2seq 模型。

具體而言,首先使用一個 IR 平臺來檢索適當(dāng)?shù)恼鳛楹蜻x模板(candidate template)。然后擴展 seq2seq 框架,共同進行模板重新排序(reranking)和模板感知摘要生成 (rewriting,重寫)。

實驗表明,在信息量方面,該方法明顯優(yōu)于當(dāng)時的先進方法,甚至軟模板本身也具有很強的競爭力。此外,外部高質(zhì)量摘要的導(dǎo)入,提高了生成摘要的穩(wěn)定性和可讀性。

1、此前方法的局限性

網(wǎng)絡(luò)信息的指數(shù)增長要求開發(fā)有效的自動摘要系統(tǒng)。其中的一個任務(wù)包括抽象句子摘要(sentence summarization),即生成給定句子的較短版本,同時試圖保留其原始含義,可以用作設(shè)計或提煉吸引人的標(biāo)題等。

自 2016 年來,seq2seq 模型受到研究界的廣泛關(guān)注,seq2seq 屬于 encoder-decoder 結(jié)構(gòu)的一種。而 encoder-decoder 結(jié)構(gòu),基本思想就是利用兩個 RNN,一個 RNN 作為 encoder,另一個 RNN 作為 decoder。encoder 負(fù)責(zé)將輸入序列壓縮成指定長度的向量,而 decoder 則負(fù)責(zé)根據(jù)語義向量生成指定的序列。

大多數(shù)以前的 seq2seq 模型純粹依賴源文本來生成摘要。然而,正如許多研究報告,seq2seq 模型的性能隨著生成長度的增加而迅速下降。實驗還表明,seq2seq 模型有時傾向于 “失控”。例如,3% 的摘要包含少于 3 個單詞,而有 4 個摘要重復(fù)一個單詞甚至 99 次。這些結(jié)果在很大程度上降低了所生成摘要的信息量和可讀性。此外,seq2seq 模型通常專注于按順序復(fù)制源詞,而沒有任何實際的 “摘要”。

因此,基于源句的自由生成算法(free generation)對于 seq2seq 模型是不夠的。

基于模板的摘要(template-based summarization)是一種傳統(tǒng)的抽象摘要方法。通常,模板是一個不完整的句子,可以使用手動定義的規(guī)則來填充輸入文本。

例如,總結(jié)股票市場行情的一個簡明模板是:[地區(qū)] 股票 [開 / 收盤價][數(shù)字] 百分比 [低 / 高]。由于模板是由人編寫的,因此生成的摘要通常是流暢的和信息豐富的。然而,模板的構(gòu)建是非常耗時的,并且需要大量的領(lǐng)域知識。此外,不可能為不同領(lǐng)域的摘要開發(fā)所有模板。

2、Re3Sum 摘要系統(tǒng)

受基于檢索的對話系統(tǒng)的啟發(fā),這項研究假設(shè),相似句子的摘要可以提供一個參考點來指導(dǎo)輸入的句子摘要過程,這些現(xiàn)有的摘要被稱為軟模板,因為不需要實際的規(guī)則來從它們構(gòu)建新的摘要。

研究提出將 seq2seq 與基于模板的摘要方法相結(jié)合,基于這種方法開發(fā)的摘要系統(tǒng)稱為 Re3Sum,它由三個模塊組成:檢索,重新排序和重寫。

團隊利用一個廣泛使用的信息檢索平臺從訓(xùn)練語料庫中找到候選的軟模板。然后擴展 seq2seq 模型,共同學(xué)習(xí)模板顯著性測量 (rerank) 和最終的摘要生成 (Rewrite)。采用遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 編碼器將輸入語句和每個候選模板轉(zhuǎn)換為隱藏狀態(tài)。在重新排序中,則根據(jù)候選模板與輸入句子的隱含狀態(tài)相關(guān)性來測量其信息含量。將預(yù)測信息量最高的候選模板作為實際的軟模板,重寫時,根據(jù)句子和模板的隱藏狀態(tài)生成摘要。

Gigaword 數(shù)據(jù)集上廣泛的實驗表明,在信息量方面,Re3Sum 模型明顯優(yōu)于目前最先進的 seq2seq 模型,甚至軟模板本身也表現(xiàn)出較高的競爭力。此外,導(dǎo)入高質(zhì)量的外部摘要提高了生成摘要的穩(wěn)定性和可讀性。

具體而言,Re3Sum 摘要系統(tǒng)由三個模塊組成:Retrieve、Rerank 和 Rewrite。給定輸入句子 x,檢索模塊從訓(xùn)練語料庫中篩選候選軟模板 C = {ri}。對于驗證和測試,認(rèn)為候選模板具有最高顯著性預(yù)測(highest predicted saliency)的特點。對于訓(xùn)練,選擇 C 中具有最大真實顯著性分?jǐn)?shù)(actual saliency score)的軟模板,它能加速收斂,顯示了實驗中沒有明顯的副作用。

方法流程圖

然后,通過一個共享的編碼器共同進行重排和重寫。具體來說,句子 x 和軟模板 r 都通過 RNN 編碼器轉(zhuǎn)換為隱藏狀態(tài)。在 Rerank 模塊中,根據(jù) r 的隱藏狀態(tài)與 x 的相關(guān)性來衡量 r 的顯著性,從候選模板中挑選出最適合的軟模板。在 Rewrite 模塊中,RNN 解碼器將 x 和 r 的隱藏狀態(tài)組合起來,依靠源句子(source sentence)和軟模板生成摘要 y。

2.1 檢索

該模塊的目的是從訓(xùn)練語料庫中找出候選模板。假設(shè)相似的句子應(yīng)該有相似的總結(jié)句型。因此,給定一個句子 x,在語料庫中找出它的類比,并選擇它們的摘要作為候選模板。由于數(shù)據(jù)集的大小相當(dāng)大 (超過 3M),利用廣泛使用的信息檢索 (IR) 系統(tǒng) lucene 來高效地索引和搜索。保持 lucene 的默認(rèn)設(shè)置來構(gòu)建 IR 系統(tǒng)。對于每個輸入句子,選擇前 30 個搜索結(jié)果作為候選模板。

2.2 共同重新排序和重寫

圖 2 共同重排和重寫

為了進行模板感知的 seq2seq 生成 (重寫),將源句 x 和軟模板 r 編碼為隱藏狀態(tài)是必要的步驟。考慮到基于隱藏狀態(tài)的匹配網(wǎng)絡(luò)已經(jīng)顯示出很強的測量兩篇文本相關(guān)性的能力,建議通過一個共享的編碼步驟共同進行重新排序和重寫。具體使用雙向遞歸神經(jīng)網(wǎng)絡(luò) (BiRNN) 編碼器讀取 x 和 r。以句子 x 為例,它的前向 RNN 在時間戳 i 時的隱藏狀態(tài)可以被表示為

BiRNN 由前向 RNN 和后向 RNN 組成。假設(shè)相對應(yīng)的輸出為和,其中索引 “?1” 表示最后一個元素。那么,一個單詞的復(fù)合隱藏狀態(tài)就是兩種 RNN 表示的拼接,例如。源句的完整表示為。由于軟模板 r 也可以看作是一個可讀的簡潔句子,所以使用相同的 BiRNN 編碼器將其轉(zhuǎn)換為隱藏狀態(tài)。

2.2.1 重排

檢索時,根據(jù)相應(yīng)索引句子與輸入句子之間的文本相似性對候選模板進行排序。然而,對于摘要任務(wù),期望軟模板 r 盡可能地像實際的總結(jié) y?。這里使用廣泛使用的摘要評價指標(biāo) ROUGE 來測量實際顯著性的 s*(r,y*)。利用 x 和 r 的隱藏狀態(tài)來預(yù)測模板的顯著性 s。具體來說,將 BiRNN 的輸出作為句子或模板的表示:

接著,使用雙線性網(wǎng)絡(luò)來預(yù)測輸入句子模板的顯著性。

其中 Ws 和 bs 是雙線性網(wǎng)絡(luò)的參數(shù),加入 sigmoid 激活函數(shù),使 s 的范圍與實際顯著性 s?一致。

2.2.2 重寫

Rerank 模塊選擇的軟模板 r 已經(jīng)經(jīng)過 ROUGE 評估,但是 r 通常包含很多沒有出現(xiàn)在源文本中的命名實體,因此很難確保軟模板對于輸入句子是可靠的。因此,利用 seq2seq 模型強大的重寫能力來生成更可靠和信息更豐富的摘要。具體來說,由于系統(tǒng)的輸入既包括句子也包括軟模板,所以使用了 concatenation 函數(shù)來組合句子和模板的隱藏狀態(tài):

將合并后的隱藏狀態(tài)輸入到當(dāng)前的注意力 RNN 解碼器,在 t 位置生成解碼隱藏狀態(tài):

Yt-1 是前面輸出的摘要字。最后,引入了一個 softmax 層來預(yù)測當(dāng)前的摘要詞:

其中,Wo 是一個參數(shù)矩陣。

2.3 學(xué)習(xí)

系統(tǒng)中有兩種類型的成本。對于重新排序,期望預(yù)測的顯著性 s (r,x) 接近實際的顯著性 s?(r,y?)。因此使用 s 和 s?之間的交叉熵 (CE) 作為損失函數(shù):

其中 θ 代表模型參數(shù)。對于重寫,學(xué)習(xí)的目標(biāo)是最大化實際總結(jié) y?的估計概率。采用常見的負(fù)對數(shù)似然 (NLL) 作為損失函數(shù):

為了充分利用雙方的監(jiān)督,將上述兩種成本合并為最終損失函數(shù):

使用小批量隨機梯度下降 (SGD) 來調(diào)整模型參數(shù)。批量大小為 64。為了增強泛化,對 RNN 層引入 dropout ,其概率 p = 0.3。初始學(xué)習(xí)率為 1,如果在驗證集上的 generation loss 沒有減少,則衰減 50%。

3、具體實驗結(jié)果

3.1 數(shù)據(jù)集

研究采用 Gigaword 數(shù)據(jù)集進行實驗。該語料庫是將新聞文章的第一句和標(biāo)題作為摘要進行配對,并運用啟發(fā)式規(guī)則生成的。所采用的框架為 OpenNMT。


3.2 評價指標(biāo)

采用 ROUGE 作為評價標(biāo)準(zhǔn),實驗結(jié)果如下圖,表明 Re3Sum 相對于其他方法,性能優(yōu)異。

研究還從各個方面衡量生成的摘要的語言質(zhì)量,其結(jié)果如下圖:

其中各 Item 含義如下:

(1)LEN_DIF:生成的摘要與實際摘要之間長度差的絕對值。用平均值 ± 標(biāo)準(zhǔn)差來說明這個項目。平均值部分反映可讀性和信息量,而標(biāo)準(zhǔn)差則與穩(wěn)定性有關(guān)。

(2)LESS_3:生成的摘要的數(shù)量,它包含少于三個標(biāo)記。這些極其簡短的摘要通常難以閱讀。

(3)COPY:從源句中復(fù)制的摘要 (沒有停止詞) 的比例。大的復(fù)制率表明摘要系統(tǒng)更注重壓縮而不是必需的抽象。

(4)NEW_NE:沒有出現(xiàn)在源句子或?qū)嶋H摘要中的命名實體的數(shù)量。直觀地說,在摘要中出現(xiàn)新的命名實體很可能會帶來語義上的變化。使用 Stanford CoreNLP 來識別命名實體。

從 “LEN_DIF” 和 “LESS_3” 行可以看出,Re3Sum 的性能幾乎與軟模板的性能相同。軟模板確實很好地指導(dǎo)了摘要的生成。與 Re3Sum 相比,在 OpenNMT 中 LEN_DIF 的標(biāo)準(zhǔn)差是其 0.7 倍,說明 OpenNMT 的工作非常不穩(wěn)定。此外,OpenNMT 生成了 53 個極短的摘要,嚴(yán)重降低了可讀性。同時,實際摘要的復(fù)制率為 36%。因此,在 OpenNMT 中,復(fù)制機制的權(quán)重嚴(yán)重超標(biāo)。模型被鼓勵根據(jù)人類編寫的軟模板生成,這相對減少了對源句子的復(fù)制。最后一行 “NEW_NE”,表示軟模板中出現(xiàn)了許多新的命名實體,這使得它們與源語句非常不一致。相比之下,Re3Sum 中的這個指數(shù)與 OpenNMT 的比較接近。它突出了該 seq2seq 框架的重寫能力。

3.3 軟模板的作用

最后,研究軟模板如何影響的模型。在開始時,團隊將不同類型的軟模板(上圖的 Type)輸入 Re3Sum 的重寫模塊。

所引入的軟模板的類型解釋如下:

(1)Random:從訓(xùn)練語料庫中隨機選擇的摘要

(2)First:Retrieve 模塊給出的排名最高的候選模板。

(3)Max:在 30 個候選模板中,實際 ROUGE 分?jǐn)?shù)最高的模板

(4)Optimal: 現(xiàn)有的訓(xùn)練語料庫中 ROUGE 得分最高的摘要

(5)Rerank:在 30 個候選模板中,預(yù)測 ROUGE 得分最高的模板。這是實際采用的軟模板。

實驗表明,提供的模板質(zhì)量越高,ROUGE 得分越高。有趣的是,盡管隨機模板的 ROUGE-2 分?jǐn)?shù)為零,仍然可以用隨機模板生成可接受的摘要。

Re3Sum 似乎可以自動判斷軟模板是否值得信任,忽略那些嚴(yán)重不相關(guān)的。因此,與重新排序模型的聯(lián)合學(xué)習(xí)在這里起著至關(guān)重要的作用。

4 、結(jié)論

該研究提出引入軟模板作為附加輸入來指導(dǎo) seq2seq 摘要,使用流行的 IR 平臺 Lucene 檢索適當(dāng)?shù)默F(xiàn)有摘要作為候選軟模板,然后擴展 seq2seq 框架,共同進行模板重排和模板感知的摘要生成。實驗表明,該模型能夠生成信息量大、可讀性強且穩(wěn)定的摘要。此外,模型在代際多樣性方面顯示了良好的前景。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯 本站qq群704220115,加入微信群請掃碼:

總結(jié)

以上是生活随笔為你收集整理的【NLP】巧借“他山之石”,生成信息量大、可读性强且稳定的摘要的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 奶妈的诱惑 | 免费色站| 中文字幕永久视频 | 91免费污视频 | 日韩在线你懂的 | 久久天堂| 成人久久免费视频 | 亚洲精品乱码久久久久久蜜桃麻豆 | 天降女子 | 国产精品中文字幕在线观看 | 国产精品玖玖玖 | 午夜欧美成人 | 夜夜嗨老熟女av一区二区三区 | 超碰人人澡 | 特黄特色大片bbbb | 精品一区免费观看 | 免费观看成年人视频 | www狠狠| 国产原创视频在线 | 乱色视频 | 天天撸天天射 | av番号网| 视频一区二区国产 | 老女人一毛片 | 先锋影音久久 | 伊伊总综合网 | 国产精品久久久久三级无码 | 女人高潮潮呻吟喷水 | 色黄视频网站 | 欧美精品国产一区 | 9l蝌蚪porny中文自拍 | 国产精品成人aaaa在线 | 毛片亚洲av无码精品国产午夜 | 成人在线免费 | 亚色视频 | 中文字幕在线免费看线人 | avxx| www.国产在线视频 | 精品人妻一区二区三区四区五区 | 精品亚洲永久免费精品 | 精品国产麻豆 | 国产精品夜色一区二区三区 | 欧美 唯美 清纯 偷拍 | 五月天国产 | 少妇伦子伦精品无吗 | 91九色网站| 国产熟妇搡bbbb搡bbbb搡 | 亚洲狼人色 | 99热这里只有精品1 亚洲人交配视频 | 中文一区二区在线播放 | 亚洲一区二区自偷自拍 | 羞羞漫画在线 | 瑟瑟视频在线看 | 日本污视频在线观看 | 亚洲精品国产欧美 | 水蜜桃av无码 | 久久伊人操 | 欧美日韩一区二区三区视频 | 欧美性猛交xxxx乱 | 亚洲色图网站 | 少妇裸体视频 | 一级成人av | 影音先锋啪啪 | 国产美女视频 | 91香焦视频 | 日本丰满少妇 | 一本高清视频 | 欧美在线精品一区二区三区 | 秋霞在线一区二区 | 久久91亚洲精品中文字幕奶水 | 欧美亚洲第一页 | 日本美女性爱视频 | 亚洲精品国产精品乱码不66 | 久久综合影视 | 国内成人自拍视频 | 欧美日韩aaa | 欧美成年人 | 电影91久久久 | 中文字幕无码毛片免费看 | 一级欧美一级日韩片 | 国产一区二区三区高清视频 | 欧美精品色哟哟 | 成人免费看片网站 | 大尺度网站在线观看 | 性感美女黄色片 | av网站免费在线 | 天堂网在线资源 | 久久99精品国产麻豆婷婷洗澡 | 蜜臀av免费在线观看 | 日韩av黄色片 | 天天艹夜夜 | 欧洲性生活片 | 69国产在线| 99色视频| 日韩美女在线视频 | 久久精品无码一区二区三区毛片 | 亚欧洲精品视频在线观看 | 欧美丰满美乳xxⅹ高潮www | 久久久艹|