日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文笔记】韩家炜团队AutoPhrase:自动短语挖掘

發布時間:2023/12/20 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文笔记】韩家炜团队AutoPhrase:自动短语挖掘 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

說在前面

剛開始摸索知識圖譜,于是對剛開始讀的一些論文做了筆記,共享一下。筆記首次分享于公眾號“專知”,為人工智能從業者服務,提供專業可信的人工智能知識與技術服務。有喜歡的朋友微信搜索“專知"。
【導讀】作為文本分析中的基礎任務,短語挖掘旨在從文本語料庫中獲取質量短語,并 應用在信息獲取、信息檢索、分類構建和主題模型中。現存的這些方法大多依賴于復雜的語義分析器,在一些新領域的語料庫中的效果似乎并不理想,而且還需要大量的人力。因此,在本文中提出一種新的模型AutoPhrase來自動挖掘任意語種的短語。

動機

理想的自動短語挖掘方法應該是獨立于不同領域,并且只需要最少的人力或語言分析器。因此提出了AutoPhrase框架,更深層次的避免了人工標注,并提高了性能。

創新點

  • 提出了POS-Guided短語分割:提高了詞性標記的性能;
  • 本文提出新的自動短語挖掘框架AutoPhrase:獨立于領域,只需要很少的人力或語言分析;
  • 提出了一種魯棒的、僅為正的遠程短語質量估計訓練方法,以最小化人工工作量。

兩種新技術

Robust Positive-Only Distant Training

利用已有的知識庫做遠程監督訓練,如維基百科,其中的高質量短語免費且數量多,遠程訓練過程中,使用這些詞可以避免手工標注。

具體做法:

  • 從通用知識庫中的構建正樣本
  • 從給定的知識庫中的獲取負樣本
  • 訓練大量基本分類器
  • 將分類器的預測聚合起來

POS-Guided短語分割

利用詞性信息來增加抽取的準確性。語言處理器應該權衡準確率和領域獨立能力。

  • 對于領域獨立能力,如果沒有語言知識,準確率就會受限
  • 對于準確性,依賴復雜的、訓練好的語言分析器,就會降低領域獨立能力

解決方法:將預先訓練好的詞性標記加入到文檔集,以提高性能。

Preliminaries

有效識別質量短語對于處理大規模文本數據來說十分重要。與提取關鍵短語相反,它遠超單個文檔的范圍。使用文本檢索算法通常會過濾一些詞并將候選詞限制為名詞短語。使用預定義的詞性規則,可以將名詞短語標識為帶有POS標簽的候選單詞。

本篇論文的目的是想實現從文件集中自動挖掘短語來獲取質量短語,而不需要消耗人力。對于這個任務,輸入為語料庫(特定語言和特定領域的文本單詞序列)和知識庫,輸出為一個按質量遞減排列的短語列表。

質量短語被定義為一個單詞序列成為一個完整語義單詞的概率,滿足以下條件:

  • 流行度:在給定的文檔集中,質量短語出現的頻率應該要足夠高
  • 一致性:由于偶然,質量短語中的tokens發生的概率要高于預期
  • 信息性:如果一個短語表達了一個特定的話題和概念,那這個短語就是信息化的
  • 完整度:長頻繁短語及其子序列均滿足上述3個條件。當一個短語在特定的文檔上下文中解釋為一個完整的語義單元時,就被認為是完整的。

AutoPhrase會根據正負池對質量短語進行兩次評估,分別是在短語分割的前和后。也就是說,POS-Guided短語分割需要一組初始的質量短語分數,預先根據原始頻率估計分數,然后一旦特征值被糾正,就要重新估計分數。

只有滿足上述要求的短語才能被認為是質量短語。

AutoPhrase的第一部分(上圖中的左部分)候選短語集合包含所有超過最小閾值的n-grams。這里的閾值指的是通過字符串匹配計算出的n-grams的原始頻率。在實際中,設置短語長度的閾值n<=6,計算候選短語的的質量:

紅框中指的是這些單詞構成的短語,Q表示的短語質量評估,最初是通過數據中的統計特征學習的,目的是為了對一致性和信息性進行建模。要注意的是短語質量評估是獨立于POS標簽的,對于unigrams,只需將其詞組質量設置為1。

為了強調完整度,短語分割會在每個句子中找到最好的分割方式。

在短語質量再評估的過程中,相關統計特征會基于它們的修改頻率再計算,這就表示短語在所識別的分割中成為完整語義單元的次數。之后,計算Q。

方法

在這個部分,將會介紹兩個新技術。首先,robust positive-only distant training通過利用質量短語來訓練模型,其次,介紹POS標簽,它可以使模型學習到語言相關信息。

Robust Positive-Only Distant Training

為了評估每一個質量短語的質量分數,需要人力來完成。在本篇文章中,介紹了一種不需要人工就可以完成的方法。

  • 標簽池

公共知識庫(例如維基百科)中獲取的高質量短語將其放在正池中;基于n-gram的候選短語熟練非常多,其中大多數質量比較差,因此,從給定語料庫派生的候選短語如果不能匹配到公共知識庫中的的任何高質量短語,那么就會用于填充嘈雜的負池。

  • 降噪

如果基于嘈雜的負池訓練分類器,就會漏掉一些給定語料庫中的高質量短語,因為它們不存在于知識庫中。因此,使用一個集成分類器

如圖,對于每個基分類器,分別從正池和負池中隨機抽取K個候選短語,并進行替換(考慮到規范的平衡分類場景),所有的候選短語中的2K大小的子集稱之為擾動訓練集,是因為圖中的部分短語δ的標簽是由正到負。為了使集成分類器能夠減輕這種噪聲的影響,需要使用訓練誤差最小的分類器,我們生成了一個未經修剪的決策樹,以分離所有短語來滿足這個需求。實際上,當擾動訓練集中沒有兩個正負短語具有相同的特征值時,該決策樹的訓練精度始終能達到100%。這種情況下,它的理想誤差是δ/2K,大約等于所有候選短語中中轉換標簽的比例。因此,K對于未修剪的決策樹的準確性不敏感,在實驗中設置為100。

上圖中出現的采樣過程,文中使用的是隨機森林,將特定短語的短語質量得分計算為預測該短語為質量短語的所有決策樹的比例。假如在隨機森林中有T個樹,可以將整體錯誤估計為,超過一半的分類器將給定短語候選者誤分類的概率。


從上圖中可以看出隨著T的增長,整體誤差接近于0。實際操作中,由于模型偏差帶來的附加誤差,T需要設置的大一些。

POS-Guided Phrasal Segmentation

語料庫為處理過的長度為n的POS-tagged的詞序列:

這里的每個因數表示的都是一對,即詞和對應的詞性<wi,ti><w_i,t_i><wi?,ti?>。POS的短語分割由邊界索引序列B促使該序列劃分為m個片段,這里的B={b1,b2,……,bm}滿足1=b1<b2<……<b_m+1=n+1。第i個部分指的是:

與之前的方法相比,POS-guided短語分割以一種上下文感知的方式來加強完整度。另外,POS標簽提供較淺的語義知識,這樣可以提神短語識別的精確度,尤其是句子成分的邊界。

對于給定的長度為n的POS標簽序列:

標簽子序列用t_[l,r)表示,其標簽子序列的質量分數被定為:對應詞序列是完整語義單元的條件概率:

T是為了通過正確識別POS序列來獎勵短語,其特殊形式為:

紅框中表示的是給定文檔短語中的POS詞性標簽t_br-1精確位于POS詞性標簽t_br之前的概率。上述這個公式,第一個乘數表示的是在詞索引r-1與r之間的短語邊界,然而后邊的乘數表示的是在t中的所有POS詞性標簽在同樣的短語的概率。

從數學意義上而言:

因為它依賴文檔如何分割短語,δ被統一初始化,在短語分割的過程中被學習。現在,計算了短語質量Q與POS質量T,然后定義POS-guided的短語分割模型。

這里紅框是單詞序列w的第i個質量短語的條件概率。

對于每個分割段,給定POS詞性標簽和起始索引b_i,生成過程如下:

1)通過POS質量生成末端索引b_i+1

2)給定兩端b_i和b_i+1,根據在長度為兩端點的差值的所有分割段上的多項式分布生成單詞序列w

3)最后,根據質量生成指標來判斷是否形成質量分割

將以上三步合成,定義為:

為方便起見用紅框表示黃色框的內容。

因此,存在以下三個問題:

1)學習每個詞的 θ_u和候選短語u

2)學習每個POS標簽對δ(t_x,t_y)

3)當θ_u和δ(t_x,t_y)固定時推導B

采用最大后驗原理,最大限度地模擬聯合對數似然:

給定θ_u和δ(t_x,t_y),最大化公式(1)來找到最好的分割,論文中采用一種用于POS引導短語分割的搞笑動態編碼算法:

當S和u固定時,δ(t_x,t_y)的解為:

這里的1表示的是身份指標,δ(t_x,t_y)表示的是在所有給定的(t_x,t_y)對中未匹配的比率。

同樣,當S和u固定時,θ_u的解為:

可以看出,θ_u是u成為完整分割段的時間。

算法2中,選擇Viterbi Training來分別優化參數,因為Viterbi Training傳播快,并且可以為類似于隱馬爾可夫模型的任務提供稀疏和簡單的模型。

Complexity Analysis

框架中最耗時的部分如n-gram、特征提取、POS短語分割的時間復雜度,均為O(||),并假設短語中最大單詞是一個小常熟,其中||是語料中單詞的總數。因此,每個組件可以以無固定的方式通過短語或句子分組進行合并。

實驗

此部分,將應用本文提出的模型來挖掘3個領域(論文、商業討論、維基文章)的質量短語,并使用3種語言(英語、西班牙語、中文)。實驗中,對比了其他方法,并驗證了遠程監控訓練的魯棒性,結合POS標簽進行短語分割的方式也得到了證明。

數據集

為了驗證本文提出的兩種新穎的方法,選取了3種語言5個語料庫。在每個數據集上,提取的熱門詞和生成的短語候選詞之間的交集作為正池,因此不同語言的不同數據中,正池的大小會有所不同。

對比的方法

SegPhrase/WrapSegPhrae:SegPhrase用于挖掘英語短語,在短語挖掘,關鍵短語獲取,名詞短語分塊應用上十分出色。WrapSegPhrase在SegPhrase的基礎上拓展到了不同語言上。這兩種方法都需要人力來完成標注質量短語。

Parser-Based Phrase Extraction,使用復雜的語義處理器,考慮以下兩種排名試探法:

  • TF-IDF通過給定文檔中的詞組詞頻和文檔逆頻來對提取的短語進行排名;
  • TextRank:用于關鍵字提取的無監督基于圖的排名模型[27]。

Pre-trained Chinese Segmentation Models,與英語和西班牙語不同,由于漢語中間沒有空格,因此對漢語的短語進行了深入研究,最有效和最受歡迎的方法:

  • AnsjSeg:應用于中文語料,它整合了CRF(Conditional Random Fields)和基于n-gram的HMMs(Hidden Markov Models)。
  • JiebaPSeg:應用于中文文本分割,基于前綴字典結構構建有向無環圖,然后使用動態編程找到最可能的組合,對于未知短語,將基于HMM模型與Viterbi算法一起使用。

注意:所有的Parser-Based Phrase Extraction和中文分割模型都要基于通用預料進行預訓練。

AutoSegPhrase:AutoPhrase 和 SegPhrase的結合,它可以有效用于沒有POS標簽的時候。

實驗設置

實戰:預處理包括Lucene 和 Stanford NLP的分詞器,以及TreeTagger的POS標簽,實驗中使用Java與C++。

**默認參數:**設置最小支持閾值σ為30,短語長度為6。其他方法中的參數按著原始論文中設置。

**人工注釋:**依靠人類評估者來判斷無法通過任何知識庫識別的短語的質量。更具體地說,在每個數據集上,我們從實驗中每種方法的預測短語中隨機抽取500個這樣的短語。 這些選定的短語在共享池中,并由3位審閱者獨立評估。 當遇到不熟悉的短語時,我們允許審閱者使用搜索引擎。 根據多數投票的規則,該詞組中的短語至少收到兩個肯定的注釋,即為優質短語。

**評估指標:**使用準確率與召回率,另外采用area under the curve(AUC)作為一種度量,AUC值得是precision-recall 曲線下的面積。

整體結果


上圖中明顯看出AutoPhrase效果最好,并能夠以最少的人力來支持不同領域并支持多種語言。

Distant Training Exploration

為了比較遠程訓練和領域專家標記,嘗試使用特定的數據集DBLP和Yelp。除了標簽選擇不同以外,分類器中的所有配置均相同,并提出了四個訓練池:

  • EP:專家給的正池
  • DP:從通用知識集中挑選的正池的一個集合
  • EN:專家給的負池
  • DN:所有未標簽的候選短語形成的負池

結合四個訓練池,我們重新組合4個變體:EPEN (in SegPhrase), DPDN
(in AutoPhrase), EPDN, 和DPEN。

結果對比分析:

  • EPEN與DPEN:他們有相似的曲線走向,并且EPEN比DPEN的效果好,因此可以得出,盡管DPEN的質量評估工作稍差,但是從知識庫中生成的正池具有合理的質量。
  • EPEN與EPDN:之間存在明顯的間隔且走向相似表明嘈雜的負池與專業的負池相比略遜色,但其效果還可以。
  • 當正池大小受限時,DPDN的效果最差,然而,遠距離訓練會產生更大的正池,當正池足夠大時,遠程訓練是否能夠戰勝領域專家呢?

從上圖看當正池足夠大時,遠程訓練戰勝了領域專家。在DBLP上,理想的正池大小為700左右,Yelp上大致為1600。

POS-Guided Phrasal Segmentation

在英語數據集上,AutoPhrase效果比 AutoSegPhrase好,在西班牙語上效果差不多,但是在中文數據集上可以明顯地看出AutoPhrase的效果最好。

因此,由于特定語言的額外上下文信息和句法信息,在短語分割過程中合并POS標簽的效果更好。

單個詞獲取

AutoPhrase可以額外獲取單個詞,召回率可以提高10%至30%,用3個不同的數據集:EN, ES和CN來進行評估。

考慮到質量短語的評估標準,因為單個詞短語不能被分解為2個或更多部分,一致性完整度就不再考慮,因此,修改了評估單個詞的質量標準:

  • 流行性:質量短語要多次出現在給定的文本庫中
  • 信息性:如果該短語表示特定的主題或概念,則它是提供信息的
  • 獨立性:在給定的文檔中,高質量的單字短語很可能是完整的語義單元

單詞質量短語應滿足以上三個性質。

實驗部分,我們采用相似的人工注釋,不同的是,我們從每種方法的返回短語中隨機抽取了500個Wiki-uncovered短語。因此,就有了新的EN,ES,CN數據集,類內關系超過0.9。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-lfi1l1sl-1572770914352)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\1572574149769.png)]

從圖中可以看出明顯的優勢,在中文數據集中可以觀察到最顯著的recall間隔,因為中文中優質單詞短語的比例最高。

結論

流行性:質量短語要多次出現在給定的文本庫中

  • 信息性:如果該短語表示特定的主題或概念,則它是提供信息的
  • 獨立性:在給定的文檔中,高質量的單字短語很可能是完整的語義單元

單詞質量短語應滿足以上三個性質。

實驗部分,我們采用相似的人工注釋,不同的是,我們從每種方法的返回短語中隨機抽取了500個Wiki-uncovered短語。因此,就有了新的EN,ES,CN數據集,類內關系超過0.9。

從圖中可以看出明顯的優勢,在中文數據集中可以觀察到最顯著的recall間隔,因為中文中優質單詞短語的比例最高。

結論

本文提出的自動短語挖掘框架,其中運用兩種新的剛發:遠程訓練和POS短語分割,實驗表明AutoPhrase優于其他短語分割的方法并且支持多種語言,此外單個詞短語10%-30%的召回中效果較好。

總結

以上是生活随笔為你收集整理的【论文笔记】韩家炜团队AutoPhrase:自动短语挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 9i看片成人免费高清 | 国产成人无码久久久精品天美传媒 | 精品视频无码一区二区三区 | 日韩中文字幕在线观看 | 懂色aⅴ国产一区二区三区 亚洲欧美国产另类 | 亚洲欧美日韩精品在线观看 | 韩国一级片在线观看 | japanese24hdxxxx日韩 | 国产女人精品视频 | 成人性爱视频在线观看 | 岛国二区三区 | 国产毛片欧美毛片久久久 | 色乱码一区二区三区 | 欧美视频免费 | 一级特级片 | 另类图片亚洲色图 | 欧美精品aa | 亚洲欧美一区二区三区不卡 | 婷婷午夜精品久久久久久性色av | 天堂在线中文资源 | 久久精品一区二 | aa免费视频 | 亚洲国产精品免费视频 | 一级特黄aa大片免费播放 | 日韩女优在线观看 | 国精品人妻无码一区二区三区喝尿 | 少妇高潮灌满白浆毛片免费看 | 网站在线观看你懂的 | 成人av网站大全 | 性欧美一区 | 朝桐光av一区二区三区 | 亚洲图片在线 | 网红福利视频 | 国产婷婷色一区二区在线观看 | 手机免费看av片 | 欧美高清精品一区二区 | 天天干天天噜 | a级国产毛片 | 五月婷婷激情四射 | 99成人国产精品视频 | 欧美日p视频 | 欧美高清精品 | 中文字幕av一区二区三区谷原希美 | 蜜桃色999 | 欧美黄色aaa | 91色伦| 日韩欧美在线播放 | 福利视频网址 | 精品乱| 波多野结衣视频在线 | 国产在成人精品线拍偷自揄拍 | 欧美高清hd | 青青青青在线 | 黄色一级视频网站 | 欧美日韩国产传媒 | 亚洲素人在线 | 国色天香网站 | 国产精品国产成人国产三级 | 99久久久无码国产精品性波多 | 公车乳尖揉捏酥软呻吟 | 欧美影院在线 | 娇妻高潮浓精白浆xxⅹ | 国产精品午夜久久 | 国产精品中文久久久久久 | 亚洲综合二区 | 欧美激情综合五月色丁香 | 亚洲欧洲视频在线观看 | 国产成人欧美一区二区三区的 | 中文字幕电影av | 免费成人在线看 | 美女黄色在线观看 | 99在线观看免费 | 午夜亚洲成人 | 欧美一级二级三级 | 国产精品久久久久久久av福利 | 德国经典free性复古xxxx | 国产无遮无挡120秒 欧美综合图片 | 伊人青青 | 亚洲卡一卡二 | 国产精品美女www爽爽爽视频 | 久草福利资源站 | 天天舔天天舔 | 一级片在线观看视频 | 九九热在线播放 | 免费成人av网址 | 尤物视频在线观看视频 | 日韩精品免费一区二区 | 黄色茄子视频 | 欧美黄色a级 | 蜜臀视频在线观看 | 久国产视频 | 中文字幕一区二区三区乱码在线 | 少妇人妻偷人精品一区二区 | 黄色三级网站在线观看 | 免费看色| 色老二导航 | 欧美人与性动交xxⅹxx | xx色综合| 少妇xxxx |