日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

文本摘要技术调研

發(fā)布時間:2024/2/28 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本摘要技术调研 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

??/*?版權(quán)聲明:可以任意轉(zhuǎn)載,轉(zhuǎn)載時請務(wù)必標(biāo)明文章原始出處和作者信息?.*/?


?????????? ?????????文本摘要技術(shù)調(diào)研

???????????????????? ?????

? ? ? ? ? ? ? ? ? ? ? ? CopyMiddle:?張俊林

? ? ? ? ? ? ? ? ? ? ? ? ?TimeStamp:2010?年9 月??


一.文本摘要值得關(guān)注的幾個方面

?? 1.主題覆蓋率

??????? 一篇新聞或者文摘往往會包含若干子主題,摘要應(yīng)該能夠覆蓋所有這些子主題,至少應(yīng)該包含主要的子主題;?

?? 2.冗余盡可能少

??????? 摘要因為是要利用較少的句子來盡可能體現(xiàn)文章主旨信息,所以摘要句子之間的信息冗余應(yīng)該盡可能小,這樣可以滿足用盡可能少的信息表達盡可能豐富的文章主旨信息;

?? 3.摘要流暢性強

?????? 句子之間往往因為會包含代詞等指代信息,所以應(yīng)該避免閱讀起來不流暢的問題。??

?

二.不同的摘要任務(wù)類型

?? 1. 抽取式VS合成式

?????? 抽取式文摘:摘要的句子完全從文章正文中進行抽取而成 。基本思路是:按照一定因素給每個句子打分,然后根據(jù)句子得分排序,按比例輸出得分高的句子作為摘要內(nèi)容;常見做法是線性組合各種特征,各種特征的權(quán)值設(shè)定手工指定;

?????? 合成式文摘:不是純粹從文章中抽取句子,而是對文中的句子片段進行改寫,然后進行拼接生成句子集合作為文摘結(jié)果;

????? 從目前研究看,絕大多數(shù)實際系統(tǒng)是抽取方式,合成方式目前還是不夠成熟,只有少量研究型系統(tǒng)采取這種方法;

?

2. 單文檔VS多文檔[1,9]

??? 多文檔摘要指的是給定主題相關(guān)的K篇文檔,通過摘要能夠體現(xiàn)這K篇文檔的主題信息;

??? 多文檔摘要與單文檔摘要相比,有些需要特殊考慮之處,比如:

?????????? 冗余度問題:單文檔也有這個問題,但是由于K偏文檔可能是非常相似的內(nèi)容,所以這個問題尤其突出;

?????????? 句子順序問題;單文檔一般在輸出句子的時候,采取按照文章中出現(xiàn)順序來進行輸出;多文檔摘要因為句子可能來自不同的文檔,所以如何確定順序是個比較重要的問題。

?????????? 壓縮率問題:單文檔摘要只需按照用戶指定的壓縮率輸出即可,多文檔摘要要考慮各自從每個文章中抽取句子比例的問題;

?????????? 指代消解問題:單文檔也有類似問題,不過由于多文檔的代詞如果處理不當(dāng),可能會指代到另外一篇文章的命名實體,所以對于多文檔摘要這個問題尤其突出;

?

3.查詢相關(guān)VS查詢無關(guān)[11]

???? 所謂查詢相關(guān)式文本摘要,即與一般的摘要不同,希望給定用戶查詢條件,然后抽取出的文摘摘要不僅要體現(xiàn)文章主旨,還要和用戶查詢密切相關(guān)。所以在對摘要句子重要性進行衡量時,要同時考慮主題性和查詢相關(guān)性兩方面的考慮因素。

??

三.抽取式摘要技術(shù)方法分類

(1)非監(jiān)督方法

???? 線性組合方法:利用手工構(gòu)建的評分函數(shù),采取若干重要特征并手工設(shè)定特征權(quán)重,以此來對句子重要性進行得分計算。

???

??? 詞匯鏈方法:通過文章中相鄰句子的語義相似性來判斷文章主題,引入Wordnet等語言資源中的同義詞和近義詞信息,分析文章中相鄰句子的語義相似性。尋找若干最長的詞匯鏈來確定文章包含主題,并依此來構(gòu)建文摘句子集合;[6,7]

??

??? 圖模型方法:將文章中每個句子作為圖中的節(jié)點,利用句子之間內(nèi)容相似性構(gòu)建圖中節(jié)點之間的邊。構(gòu)建好文章圖后,利用PageRank或者HITS算法來迭代計算圖中節(jié)點的權(quán)值,按照權(quán)值大小作為句子重要性的評分依據(jù)來對文摘句子進行抽取。[3,4]

?

??? 子主題分析方法:通過聚類或者語義塊分析等手段,發(fā)現(xiàn)文章包含的子主題,并從不同的子主題中抽取句子來構(gòu)造摘要句子集合。LSA,PLSA等方法屬于這一類[8,10,12]。

?

(2)監(jiān)督方法:

?? 監(jiān)督學(xué)習(xí)方法的基本思路如下:[2,5]

????? 對于句中某個句子,利用分類器來進行二值分類,即0或者1,1代表這個句子可以作為摘要輸出句子,0代表這個句子不能作為摘要輸出的句子;系統(tǒng)輸出被標(biāo)注為1類型的句子作為文摘輸出結(jié)果;

????? 訓(xùn)練集往往通過手工生成的《文章,文摘》對來對分類器進行訓(xùn)練。通過事先定義好的特征集合,將句子映射為特征向量,之后對分類器進行訓(xùn)練生成分類模型。對于新的文章,則根據(jù)分類器對于句子的二值分類結(jié)果進行文摘輸出;

?? 常用的監(jiān)督學(xué)習(xí)方法包括:

???? 樸素貝葉斯方法(NB):

???? 決策樹方法:

???? HMM方法:

???? CRF方法:

???? 邏輯回歸方法(LR):

???? SVM方法

???? SVM-HMM方法:

?

四.自動文摘經(jīng)常使用的特征

?(1)位置因素:句子在文章中出現(xiàn)位置因素,判斷句子是否出現(xiàn)在段落首句和尾句,一般段首和段尾是能夠體現(xiàn)段落主旨的綜合描述句子,尤其是段首句子,如果是則更可能是比較重要的句子;

(2)統(tǒng)計特性:一般通過TF.IDF計算單詞權(quán)值,統(tǒng)計因素的主旨是發(fā)現(xiàn)一些能夠表達文章主旨的詞匯列表,而那些包含較多這些詞匯的句子被認(rèn)為是能夠比較充分體現(xiàn)文章主旨的句子;

(3)文章標(biāo)題:是否出現(xiàn)過標(biāo)題中的內(nèi)容詞,標(biāo)題作為文章的主旨,如果出現(xiàn)過標(biāo)題中內(nèi)容詞則更可能體現(xiàn)文章主旨;

(4)段落位置:對于新聞類文章而言,往往會在第一段交代很多文章主旨信息,所以距離文章開始位置越近,則一般認(rèn)為這些句子越重要;

(5)啟發(fā)詞匯:比如能夠表達總結(jié)的句子,比如“總而言之,綜上所述”等等,這種啟發(fā)詞匯列表需要歸納;

(6)句子長度:以一定的長度作為標(biāo)準(zhǔn),過長的或者過短的會增加懲罰因素;目前研究主要懲罰過短的句子,過長的也應(yīng)該列入考慮;

??? (7)大寫單詞(英文):一些大寫的單詞往往是比較重要的實體或者強調(diào)的內(nèi)容,所以包含大寫單詞的句子較為重要;

??? (8)代詞:包含代詞的句子因為代詞需要指明所指代的實體,需要解決指代消解問題,所以在不能有效解決指代消解問題的情況下,需要對于包含代詞的句子進行減分;

??? (9)語義關(guān)系分析:有些工作是對句子之間的語義關(guān)系進行分析,抽取概述性句子,這個速度比較慢,效果也未必很好,但是可以借鑒的思路是:有些詳述性的句子是有很明顯特征出現(xiàn)的,對于詳述性的句子,應(yīng)該考慮降分;?

?? ??(10)冗余的消除:在選擇句子作為候選摘要句子時候,盡可能增加內(nèi)容的信息含量,盡可能減少相同信息的句子重復(fù)出現(xiàn);所以經(jīng)常對冗余句子進行消除或者減分操作;

??? (11)語義塊的切割:將文檔切割成語義密切相關(guān)的語義段落,之后從語義段落中抽取句子;

?

五.目前方法的效果比較

???? 目前有些研究工作[2,5]對目前的主流文摘方法效果進行了對比,綜合這些結(jié)果,可以得出如下一些結(jié)論:

????? 1.對于非監(jiān)督方法來說,基于HITS的圖模型方法明顯優(yōu)于其他方法,

????? 2.對于監(jiān)督方法來說,SVM-HMM和CRF方法效果最好,其中SVM-HMM方法在一般測試集合上稍微優(yōu)于CRF,在難度高的測試集合上效果明顯好于CRF方法。這兩個方法優(yōu)于HITS圖模型方法,不過優(yōu)勢并非特別明顯;

????? 3.從測試結(jié)果來看,方法效果排序如下

????????SVM-HMM>CRF>HITS>HMM>SVM>LR>NB>LSA

?

六.可供選擇的方法及其各自優(yōu)缺點分析

???? (1)簡單特征線性組合方法

?????? 即確定一些主要特征,然后設(shè)定特征權(quán)重后根據(jù)線性組合方式來進行句子打分和排序輸出;

????? 優(yōu)點:

????????? 方法簡單;

????????? 無需訓(xùn)練數(shù)據(jù);

????????? 執(zhí)行速度快;

????? 缺點:

????????? 由于手工擬合評分函數(shù),只能采取部分主要特征;

????????? 權(quán)重設(shè)定需要手工設(shè)置并不斷調(diào)試;

????????? 效果一般;

????????

(2)基于HITS的圖模型方法

?? 考慮到目前的研究表明,基于HITS的圖模型方法是非監(jiān)督方法中效果最好的,如果采取非監(jiān)督方法,則優(yōu)先考慮HITS的圖模型方法;

?? 優(yōu)點:

???? 無需訓(xùn)練集合;

???? 基本與語言和領(lǐng)域無關(guān);

???? 效果好;

?? 缺點:

????? 由于存在任意句子相似性計算和迭代計算,所以運行速度相對比較慢;需要改進速度提出改進方法;

????? 該方法沒有考慮信息冗余的問題,可能需要有針對性的改進;

?

(3)基于CRF或者SVM-HMM的監(jiān)督學(xué)習(xí)方法

???? 目前研究表明,CRF和SVM-HMM在所有監(jiān)督和非監(jiān)督方法中是效果最好的,其中SVM-HMM效果略好于CRF,CRF略好于HITS圖模型方法;

????? 所以如果采取監(jiān)督學(xué)習(xí)思路,可以考慮CRF或者SVM-HMM的方法;

????? 優(yōu)點:

?????????? 效果好;

?????? 缺點:

????????? 需要訓(xùn)練數(shù)據(jù);

????????? 效果依賴于訓(xùn)練數(shù)據(jù)質(zhì)量和領(lǐng)域等方面的情況;

????????? 執(zhí)行速度慢;尤其是融合HITS模型等復(fù)雜特征,需要首先計算復(fù)雜特征,所以速度應(yīng)該是最慢的;

???

?

?

?部分較重要參考文獻:

?

[1] .Jie Tangy, Limin Yaoz, and Dewei Chen . Multi-topicbased Query-oriented Summarization.

W.-T.Yih, J. Goodman, L. Vanderwende, and H. Suzuki. Multi-documentsummarization by maximizing informative content-words.In Proceedingsof IJCAI’07, 2007.

[2] ?Dou Shen1,Jian-Tao Sun.etc??? DocumentSummarization using Conditional Random Fields.? InProceedingsof IJCAI’07, 2007.

?

[3] GunesErkan.? Dragomir R. Radev.? LexRank: Graph-based LexicalCentrality as Salience in?? Text Summarization.? Journal of ArtificialIntelligence Research 22 (2004) 457-479

[4] Rada Mihalcea.? Language Independent Extractive Summarization.

[5] LiangdaLi?, Ke Zhou?,Gui-Rong Xue etc? Enhancing Diversity, Coverage and Balance for? Summarization through Structure Learning.? WWW 2009.

[6] GregorySilber and KathleenF. McCoy? EfficientText Summarization Using Lexical Chains.

[7] Barzilay,Regina and Michael Elhadad. Using Lexical Chainsfor Text Summarization. in Proceedings of the IntelligentScalable Text Summarization Workshop(ISTS’97), 1997.

[8] Shanmugasundaram Hariharan?? Extraction Based Multi Document Summarization using Single Document? Summary Cluster?? Int. J.Advance. Soft Comput. Appl., Vol. 2, No. 1, March 2010

[9] ShanmugasundaramHariharan, "Merging Multi-Document Text Summaries-A Case Study", Journal of Scienceand Technology, Vol.5, No.4,pp.63-74, December 2009.

[10] JinZhang etc? AdaSum: An Adaptive Model for Summarization.? CIKM 2008.

[11] Varadarajan and Hristidis. A System forQuery-Specific Document Summarization?CIKM2006.

[12] LeonhardHennig? Topic-based Multi-DocumentSummarization withProbabilistic Latent Semantic Analysis

總結(jié)

以上是生活随笔為你收集整理的文本摘要技术调研的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。