當(dāng)前位置：首頁 >

基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法

發(fā)布時間：2024/1/1 48 豆豆

生活随笔收集整理的這篇文章主要介紹了基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

基于分類
需要認(rèn)為提前設(shè)定好一定的分類標(biāo)準(zhǔn)，并需要規(guī)定好各個主題類別信息，它是一種有監(jiān)督或者半監(jiān)督的方法，對于一個新文本的歸類過程也是對其文本主題信息解讀的過程。
基于聚類
無監(jiān)督
通過對聚類各個類簇進(jìn)行解讀，從而發(fā)現(xiàn)文本的主題信息。

三種流程

基于分類號
從分類角度識別專利技術(shù)主題信息
專利文本通常都有IPC分類號，該分類號對解讀文本技術(shù)主題信息具有重要作用。一個專利通常都有一個以上IPC分類號，第一個為主分類號，體現(xiàn)專利文本的主要技術(shù)主題西悉尼。專利文本的IPC分類號是傳統(tǒng)專利計量分析的重要指標(biāo)，通過考察某個領(lǐng)域的IPC分布情況，可以在整體上把握該領(lǐng)域的技術(shù)主題的分布、研究熱點(diǎn)或發(fā)展趨勢。
使用IPC分類號識別專利文本涉及的技術(shù)主題需要結(jié)合《國際專利分類表》，即IPC對照表，通過該對照表便可對相應(yīng)的IPC分類號進(jìn)行解讀，進(jìn)而識別專利文本涉及的主要技術(shù)主題信息。
IPC分類號的構(gòu)成形式一般為：
- 部（用1個字母表征）
- 大類（用2個數(shù)字表征）
- 小類（用1個字母表征）
- 大組（用1-3個數(shù)字表征）/
- 小組（用2-4個數(shù)字表征）
  在傳統(tǒng)的專利分析計量中，常用的是提取每個具體IPC分類號的前3至4位代碼作為統(tǒng)計分析的基準(zhǔn)。
  
  基于IPC分類號的專利文本主題挖掘方法的優(yōu)點(diǎn)是簡單易行，便于統(tǒng)計分析，是傳統(tǒng)專利計量分析常用的方法之一，有著廣泛的應(yīng)用基礎(chǔ)。但是其缺點(diǎn)在于對IPC分類表的使用需要具備較強(qiáng)的專業(yè)知識，并且IPC分類表中對各個類別技術(shù)主題的解釋說明是總體上的規(guī)約，并不指代各個專利文本所具體表達(dá)的技術(shù)主題信息。
  另外，這種統(tǒng)計分析方法不深入到具體的文本內(nèi)容，識別的技術(shù)主題粒度較粗，當(dāng)需要細(xì)粒度的專利文本主題識別與分析時，該種方法的適用性就會變得較弱。
基于共詞分析
共詞分析法是內(nèi)容分析法的一種常用方法，最早由法國的文獻(xiàn)計量學(xué)家在20世紀(jì)70年代中后期提出和使用。該方法已經(jīng)被廣泛地應(yīng)用在許多研究領(lǐng)域，在分析領(lǐng)域研究熱點(diǎn)，把我主題演化趨勢等方面有著重要的作用。
共詞分析的基本原理是基于文本的關(guān)鍵詞或主題詞為基本研究單元，通過兩兩統(tǒng)計它們在同一個文本中出現(xiàn)的頻詞，然后基于詞頻確定高頻關(guān)鍵詞并構(gòu)建共詞關(guān)系矩陣，然后再結(jié)合聚類分析等方法分析共詞間的親疏關(guān)系，進(jìn)而揭示研究領(lǐng)域的主題結(jié)構(gòu)、研究熱點(diǎn)等。常用的聚類方法有K-means聚類、層次聚類等。
將共詞分析法用于專利文本的主題挖掘通常需要解決：一是文本關(guān)鍵詞的獲取；二十共詞關(guān)系矩陣的構(gòu)建。不同于論文等文獻(xiàn)有作者標(biāo)注關(guān)鍵詞或者主題詞可直接使用，專利文本一般不提供關(guān)鍵詞或主題詞，需要先采用一定的方法從文本中提取關(guān)鍵詞，常用的關(guān)鍵詞提取算法有基于詞頻的TF-IDF算法、基于詞間圖關(guān)系的TextRank算法等。而共詞關(guān)系矩陣的構(gòu)建主要是將提取的關(guān)鍵詞構(gòu)建成相應(yīng)的共現(xiàn)關(guān)系矩陣，以便用于聚類分析等。

基于共詞分析的專利文本技術(shù)主題挖掘方法的原理簡單，可操作性強(qiáng)，相比基于IPC分類號的方法，該方法再一定程度上實(shí)現(xiàn)了對專利文本非結(jié)構(gòu)化內(nèi)容的分析，特別是再研究熱點(diǎn)分析方面有較大優(yōu)勢。但是由于該方法主要依據(jù)對文本關(guān)鍵詞的聚類分析來識別主題信息，提取的關(guān)鍵詞的質(zhì)量直接影響著分析結(jié)果的好壞。而專利文本非結(jié)構(gòu)化部分通常具有較為復(fù)雜的文本結(jié)構(gòu)信息和富含語義信息，僅依靠提取的少量關(guān)鍵詞有時并不能充分表征文本內(nèi)容，并且關(guān)鍵詞間還可能存在同義詞、近義詞等，這些都影響著共詞分析法對專利文本主題挖掘效果。
基于LDA模型
從聚類角度實(shí)現(xiàn)
LDA是文本語義主題挖掘的一大利器，已經(jīng)被廣泛地應(yīng)用再各個領(lǐng)域。該模型實(shí)現(xiàn)了對文本從“文本-詞”的模式到“文本-主題-詞”模式的轉(zhuǎn)變，文本被看作是一系列抽象主題的混合，而抽象主題又被看作是一系列詞的混合。這種模式的轉(zhuǎn)變顯著降低了文本表示維度，并且還很大程度上保留了文本的語義信息。主題模型中最終名和被廣泛使用的就是LDA模型。
將LDA模型用于專利文本的技術(shù)主題挖掘需要關(guān)注：一是專利文本的特征選擇問題；二是主題數(shù)量K的確定。由于LDA模型架設(shè)了文本的詞袋模型，詞與詞之間是相互獨(dú)立的，并且主題的詞分布是基于詞共現(xiàn)的，而詞頻會影響主題中詞分布比例，另外，文本的長度也影響主題識別效果，文本太短不利于模型的訓(xùn)練。因此文本的特征選擇是應(yīng)用LDA模型的關(guān)鍵一步，需要加以重視。LDA模型是一種基于聚類思想的文本分析方法，需要提前指定主題樹K，該值影響著模型擬合文本集的效果。擦汗給你簡單確定最優(yōu)K值的方法有基于困惑度的方法，基于主題相似度的方法和基于主題連貫性的方法等，使用較多的是基于困惑度的方法。困惑度反映著主題模型推斷文本術(shù)語哪個主題有多么不確定，困惑度值越小就說明模型聚類效果越好，也就是主題推斷效果越好。模型訓(xùn)練中，通過設(shè)置不同的K值，困惑度值最低時對應(yīng)的K被認(rèn)為是莫i行的最優(yōu)K值。

相比基于IPC分類號和基于共詞分析的方法，LDA模型的數(shù)學(xué)原理和模型訓(xùn)練過程都較為復(fù)雜，但是其優(yōu)點(diǎn)是可以從文本集全局角度表達(dá)文本、主題和詞之間的關(guān)系，不需要人工標(biāo)注語料庫，便能夠從文本及章抽取文本語義主題信息，并對文本主題建模，并且使用主題表征文本內(nèi)容可以很大程度改善文本的同義詞、近義詞和多義詞問題，也降低了文本表示維度。但是由于LDA模型架設(shè)了文本的詞袋模型，詞間是相互獨(dú)立的，并且主題的分布是基于全局詞共現(xiàn)詞頻計算的，再模型訓(xùn)練過程中，文本集中所有不重復(fù)的詞通常都會以不同的概率出現(xiàn)再每個主題中，這樣導(dǎo)致主題挖掘的結(jié)果容易受到非文本主題詞的干擾，不利于對文本主題的識別和解讀。較多研究表明，較好地進(jìn)行文本預(yù)處理工作，并適當(dāng)引入文本特征信息，讓具有類似特征的我那本的詞分配盡可能地再其所在類范圍之中，減少非文本主題詞的分配，可以獲取較好的文本主題挖掘效果。

總結(jié)

以上是生活随笔為你收集整理的基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：智能化整体图例，布线、安防、广播会议、电
下一篇：修改apk二进制文件工具

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

基于主题模型的专利文本主题挖掘与应用研究- 专利文本主题挖掘方法

總結(jié)