日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

从论文到PPT,一键生成!从此报告不用愁!

發(fā)布時(shí)間:2024/7/5 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从论文到PPT,一键生成!从此报告不用愁! 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | 子龍
編 | 小軼

俗話說(shuō):“行百步者半九十”,論文接受固然可喜可賀,然而這只是萬(wàn)里長(zhǎng)征第一步。一份具有影響力的工作少不了一個(gè)后期的宣傳,做好一個(gè)PPT絕對(duì)是一個(gè)技術(shù)活。不知道小伙伴們平時(shí)怎么做PPT,是復(fù)制粘貼長(zhǎng)篇大論抑或提綱挈領(lǐng)圖文并茂。直接拷貝論文固然簡(jiǎn)單,但是動(dòng)輒大半頁(yè)的文字實(shí)在很難讓人提起興趣,大家都明白應(yīng)該抓住要點(diǎn),并輔以圖片,但是怎么總結(jié)文章各個(gè)板塊并且合理排布呢,這又是個(gè)難題。

雖然論文千變?nèi)f化,但是計(jì)算機(jī)論文的PPT往往還是比較樸實(shí)無(wú)華的,往往遵循一定的格式,從介紹模型,再?gòu)?strong>實(shí)驗(yàn)到結(jié)論,基本上和行文對(duì)應(yīng),那么對(duì)每個(gè)板塊抽取核心信息,那么就能生成一份滿意的PPT。

今天介紹一篇NAACL'21的文章 D2S: Document-to-Slide Generation Via Query-Based Text Summarization 直接省去了苦思PPT細(xì)節(jié)的麻煩,提出一個(gè)基于問(wèn)答抽取的方法,通過(guò)論文內(nèi)容和給定標(biāo)題直接生成對(duì)應(yīng)的PPT。下圖就展示了一個(gè)用D2S自動(dòng)生成的論文介紹PPT樣例。上方黑框中的是論文作者自己做的PPT,下面藍(lán)框里的是D2S自動(dòng)生成的。可以看到,文字介紹部分還是十分合理的,與配圖對(duì)應(yīng),整體排版上還要優(yōu)于人工制作的PPT。

論文題目:
D2S: Document-to-Slide Generation Via Query-Based Text Summarization

論文鏈接:
https://arxiv.org/abs/2105.03664

方法

本文將D2S(文檔生成PPT)視為一個(gè)封閉領(lǐng)域長(zhǎng)文本問(wèn)答,即限定在計(jì)算機(jī)論文的領(lǐng)域中,給定論文和每頁(yè)P(yáng)PT的標(biāo)題,從論文中抽取對(duì)應(yīng)內(nèi)容并加以總結(jié),作為標(biāo)題的“答案”。整個(gè)模型分為三個(gè)模塊,分別是:

  • 關(guān)鍵詞模塊: PPT的排布與論文本身的各個(gè)子標(biāo)題有著很大的關(guān)聯(lián),于是D2S抽取論文子標(biāo)題的層次結(jié)構(gòu)作為生成PPT的輔助。

  • 信息抽取模塊: 這部分獲得文檔標(biāo)題論文片段以及關(guān)鍵詞模塊中的關(guān)鍵詞的向量表示,并作相關(guān)度排序。

  • 問(wèn)答模塊: 整合以上兩個(gè)模塊得到的關(guān)鍵詞和信息,通過(guò)問(wèn)答模型生成PPT內(nèi)容。

  • 圖表抽取模塊: 通過(guò)論文中插圖的圖表介紹與每頁(yè)P(yáng)PT的標(biāo)題計(jì)算相似度,將圖表插入到對(duì)應(yīng)頁(yè)面。

關(guān)鍵詞模塊

論文的PPT肯定要參考原本論文,從一篇論文的各個(gè)版塊的標(biāo)題那里,可以大致看出一篇文章所關(guān)注的要點(diǎn)和行文思路,這些標(biāo)題可能是最基本的“介紹”、“相關(guān)文獻(xiàn)”、“實(shí)驗(yàn)”,也可能是論文所設(shè)計(jì)的模塊的名稱,比如Attention is all you need論文中,就有專門介紹Attention的一個(gè)部分。這些標(biāo)題和子標(biāo)題很自然的就形成了一個(gè)樹狀結(jié)構(gòu)(模型圖左下角),這些樹狀結(jié)構(gòu)中的節(jié)點(diǎn)被提取出來(lái),作為關(guān)鍵詞,輔助后續(xù)的內(nèi)容生成。

信息抽取模塊

關(guān)鍵詞模塊只是為了后續(xù)工作提供了一定的幫助,而信息抽取模塊才真正開始處理論文和PPT標(biāo)題。本文采用了基于distilled BERT[1]的信息抽取模型。信息抽取模型可以根據(jù)相關(guān)程度在若干候選中給出一個(gè)排序,這個(gè)模塊就是為了從論文中找到和對(duì)應(yīng)PPT標(biāo)題相關(guān)的片段。

訓(xùn)練模型

既然需要模型學(xué)習(xí)相關(guān)性,最容易想到的方法就是通過(guò)人工標(biāo)注進(jìn)行有監(jiān)督學(xué)習(xí),然而很難從最終完成的PPT中看出當(dāng)前頁(yè)面與論文中哪些地方相關(guān),于是本文選擇了一個(gè)折中的方法來(lái)訓(xùn)練信息抽取模型,它將當(dāng)前PPT頁(yè)面中的內(nèi)容作為正例,將其他PPT頁(yè)面中的內(nèi)容作為反例,訓(xùn)練模型辨別這兩者的區(qū)別,進(jìn)而學(xué)習(xí)PPT標(biāo)題和內(nèi)容的相關(guān)性,所學(xué)習(xí)得到的相關(guān)性可以后續(xù)用于評(píng)估PPT標(biāo)題和論文片段的相關(guān)性。

抽取片段

因?yàn)镻PT頁(yè)面中的內(nèi)容和論文片段十分相似,于是通過(guò)上述方法訓(xùn)練的模型可以很好的運(yùn)用于評(píng)估PPT標(biāo)題和論文片段的相關(guān)性。同時(shí),每個(gè)論文片段同時(shí)又擁有對(duì)應(yīng)的標(biāo)題或者子標(biāo)題,即關(guān)鍵詞模塊提取到的關(guān)鍵詞,最終每個(gè)論文片段與當(dāng)前PPT標(biāo)題的相關(guān)性取決于兩方面:

其中、、分別為PPT標(biāo)題、論文片段、片段對(duì)應(yīng)關(guān)鍵詞的文本特征。

問(wèn)答模塊

最終每頁(yè)P(yáng)PT中的內(nèi)容由問(wèn)答模塊來(lái)生成,這里采用的是預(yù)訓(xùn)練的BART模型[2]。我們需要將“問(wèn)題”和“上下文信息”提供給問(wèn)答模型,這里的“問(wèn)題”即每頁(yè)P(yáng)PT的標(biāo)題,上下文信息分為兩方面:

  • 關(guān)鍵詞:將PPT標(biāo)題與論文每個(gè)標(biāo)題進(jìn)行對(duì)應(yīng),計(jì)算兩者的編輯距離(“萊文斯坦距離”[3]),若“編輯距離比值”大于0.9,則將對(duì)應(yīng)標(biāo)題以及其子標(biāo)題納入到上下文信息中。

其中a,b為兩個(gè)字符串,d為兩者的編輯距離。

  • 論文片段:即上文信息抽取模塊所提供的相關(guān)論文片段。

將整合好的“問(wèn)題”和“上下文”以如下格式輸入到預(yù)訓(xùn)練的BART,得到對(duì)應(yīng)PPT的內(nèi)容:

圖表抽取模塊

沒有插圖的PPT是不完整的,D2S對(duì)圖片的處理非常簡(jiǎn)單,直接利用信息抽取模塊中訓(xùn)練得到的模型評(píng)估PPT標(biāo)題和圖片或者表格的描述文字計(jì)算相關(guān)性,進(jìn)而插入到對(duì)應(yīng)PPT頁(yè)面內(nèi)。

模型表現(xiàn)

本文主要評(píng)估生成PPT的兩個(gè)方面:

  • 圖表位置:由于是信息抽取模型,圖表位置得到的是一個(gè)從最相關(guān)到最不相關(guān)的排序,論文報(bào)告了top 1,3,5的精確值,分別為:p@1=0.38, p@3=0.60, p@5=0.77。

  • PPT內(nèi)容生成效果:分別通過(guò)ROUGE進(jìn)行評(píng)價(jià)。

PPT內(nèi)容生成效果

因?yàn)檫@個(gè)任務(wù)的本質(zhì)是信息抽取與總結(jié),本文對(duì)比了D2S的問(wèn)答模塊(記為BARTKeyword)與如下baseline:BertSummExt4、BARTSumm(本文模型去除Keyword部分)。

同時(shí),本文還將信息抽取模塊中的混合keyword的方法(Dense-Mix IR)和傳統(tǒng)的基于離散單詞對(duì)應(yīng)的BM25(Classical IR)做對(duì)比。結(jié)果如下:

從結(jié)果中可以看到結(jié)合關(guān)鍵詞的方法往往能夠得到更好的效果。在信息抽取階段引入關(guān)鍵詞,可以更好地評(píng)估PPT標(biāo)題和論文片段的相關(guān)性,進(jìn)而得到更加準(zhǔn)確的上下文,這一點(diǎn)從各個(gè)baseline的結(jié)果中都可以看出。在問(wèn)答模塊階段,與以往單純將論文片段作為上下文,D2S中的BARTKeyword將關(guān)鍵詞同樣輸入到上下文部分,也大大地提高了Rough值。

可見,論文中的標(biāo)題和子標(biāo)題是一篇文章的骨架,很大程度上可以幫助針對(duì)論文內(nèi)容的總結(jié)歸納工作,進(jìn)而在生成PPT的任務(wù)中大有作為。

總結(jié)

本文由諸多模塊組成,利用了信息抽取和問(wèn)答模型對(duì)計(jì)算機(jī)領(lǐng)域的論文進(jìn)行總結(jié),并創(chuàng)造性的提出了生成PPT這樣的任務(wù),同時(shí)利用了論文各個(gè)版塊的標(biāo)題和子標(biāo)題提供更多的信息。

萌屋作者:子龍(Ryan)

本科畢業(yè)于北大計(jì)算機(jī)系,曾混跡于商湯和MSRA,現(xiàn)在是宅在UCSD(Social Dead)的在讀PhD,主要關(guān)注多模態(tài)中的NLP和data mining,也在探索更多有意思的Topic,原本只是貴公眾號(hào)的吃瓜群眾,被各種有意思的推送吸引就上了賊船,希望借此沾沾小屋的靈氣,paper++,早日成為有貓的程序員!

作品推薦:

1.別再搞純文本了!多模文檔理解更被時(shí)代需要!

2.Transformer哪家強(qiáng)?Google爸爸辨優(yōu)良!

3.預(yù)訓(xùn)練語(yǔ)言真的是世界模型?

尋求報(bào)道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務(wù)合作”

后臺(tái)回復(fù)關(guān)鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)

獲取ACL、CIKM等各大頂會(huì)論文集!

?

[1] Distilled BERT: https://arxiv.org/pdf/1908.08962.pdf

[2] BART模型: https://arxiv.org/abs/1910.13461

[3] 萊文斯坦距離:https://en.wikipedia.org/wiki/Levenshtein_distance

[4] BertSummExt: https://arxiv.org/abs/1908.08345

總結(jié)

以上是生活随笔為你收集整理的从论文到PPT,一键生成!从此报告不用愁!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。