随机森林原始论文_【论文笔记】韩家炜团队AutoPhrase:从大量文本库中 自动挖掘短语...
【導(dǎo)讀】作為文本分析中的基礎(chǔ)任務(wù),短語(yǔ)挖掘旨在從文本語(yǔ)料庫(kù)中獲取質(zhì)量短語(yǔ),并 應(yīng)用在信息獲取、信息檢索、分類構(gòu)建和主題模型中。現(xiàn)存的這些方法大多依賴于復(fù)雜的語(yǔ)義分析器,在一些新領(lǐng)域的語(yǔ)料庫(kù)中的效果似乎并不理想,而且還需要大量的人力。因此,在本文中提出一種新的模型AutoPhrase來自動(dòng)挖掘任意語(yǔ)種的短語(yǔ)。
No.1
動(dòng)機(jī)
理想的自動(dòng)短語(yǔ)挖掘方法應(yīng)該是獨(dú)立于不同領(lǐng)域,并且只需要最少的人力或語(yǔ)言分析器。因此提出了AutoPhrase框架,更深層次的避免了人工標(biāo)注,并提高了性能。
No.2
創(chuàng)新點(diǎn)
提出了POS-Guided短語(yǔ)分割:提高了詞性標(biāo)記的性能;
本文提出新的自動(dòng)短語(yǔ)挖掘框架AutoPhrase:獨(dú)立于領(lǐng)域,只需要很少的人力或語(yǔ)言分析;
提出了一種魯棒的、僅為正的遠(yuǎn)程短語(yǔ)質(zhì)量估計(jì)訓(xùn)練方法,以最小化人工工作量。
No.3
兩種新技術(shù)
Robust Positive-Only Distant Training
利用已有的知識(shí)庫(kù)做遠(yuǎn)程監(jiān)督訓(xùn)練,如維基百科,其中的高質(zhì)量短語(yǔ)免費(fèi)且數(shù)量多,遠(yuǎn)程訓(xùn)練過程中,使用這些詞可以避免手工標(biāo)注。
具體做法:
從通用知識(shí)庫(kù)中的構(gòu)建正樣本
從給定的知識(shí)庫(kù)中的獲取負(fù)樣本
訓(xùn)練大量基本分類器
將分類器的預(yù)測(cè)聚合起來
POS-Guided短語(yǔ)分割
利用詞性信息來增加抽取的準(zhǔn)確性。語(yǔ)言處理器應(yīng)該權(quán)衡準(zhǔn)確率和領(lǐng)域獨(dú)立能力
對(duì)于領(lǐng)域獨(dú)立能力,如果沒有語(yǔ)言知識(shí),準(zhǔn)確率就會(huì)受限
對(duì)于準(zhǔn)確性,依賴復(fù)雜的、訓(xùn)練好的語(yǔ)言分析器,就會(huì)降低領(lǐng)域獨(dú)立能力
解決方法:將預(yù)先訓(xùn)練好的詞性標(biāo)記加入到文檔集,以提高性能。
No.4
Preliminaries
有效識(shí)別質(zhì)量短語(yǔ)對(duì)于處理大規(guī)模文本數(shù)據(jù)來說十分重要。與提取關(guān)鍵短語(yǔ)相反,它遠(yuǎn)超單個(gè)文檔的范圍。使用文本檢索算法通常會(huì)過濾一些詞并將候選詞限制為名詞短語(yǔ)。使用預(yù)定義的詞性規(guī)則,可以將名詞短語(yǔ)標(biāo)識(shí)為帶有POS標(biāo)簽的候選單詞。
本篇論文的目的是想實(shí)現(xiàn)從文件集中自動(dòng)挖掘短語(yǔ)來獲取質(zhì)量短語(yǔ),而不需要消耗人力。對(duì)于這個(gè)任務(wù),輸入為語(yǔ)料庫(kù)(特定語(yǔ)言和特定領(lǐng)域的文本單詞序列)和知識(shí)庫(kù),輸出為一個(gè)按質(zhì)量遞減排列的短語(yǔ)列表。
質(zhì)量短語(yǔ)被定義為一個(gè)單詞序列成為一個(gè)完整語(yǔ)義單詞的概率,滿足以下條件:
流行度:在給定的文檔集中,質(zhì)量短語(yǔ)出現(xiàn)的頻率應(yīng)該要足夠高
一致性:由于偶然,質(zhì)量短語(yǔ)中的tokens發(fā)生的概率要高于預(yù)期
信息性:如果一個(gè)短語(yǔ)表達(dá)了一個(gè)特定的話題和概念,那這個(gè)短語(yǔ)就是信息化的
完整度:長(zhǎng)頻繁短語(yǔ)及其子序列均滿足上述3個(gè)條件。當(dāng)一個(gè)短語(yǔ)在特定的文檔上下文中解釋為一個(gè)完整的語(yǔ)義單元時(shí),就被認(rèn)為是完整的。
AutoPhrase會(huì)根據(jù)正負(fù)池對(duì)質(zhì)量短語(yǔ)進(jìn)行兩次評(píng)估,分別是在短語(yǔ)分割的前和后。也就是說,POS-Guided短語(yǔ)分割需要一組初始的質(zhì)量短語(yǔ)分?jǐn)?shù),預(yù)先根據(jù)原始頻率估計(jì)分?jǐn)?shù),然后一旦特征值被糾正,就要重新估計(jì)分?jǐn)?shù)。只有滿足上述要求的短語(yǔ)才能被認(rèn)為是質(zhì)量短語(yǔ)。只有滿足上述要求的短語(yǔ)才能被認(rèn)為是質(zhì)量短語(yǔ)。
AutoPhrase的第一部分(上圖中的左部分)候選短語(yǔ)集合包含所有超過最小閾值的n-grams。這里的閾值指的是通過字符串匹配計(jì)算出的n-grams的原始頻率。在實(shí)際中,設(shè)置短語(yǔ)長(zhǎng)度的閾值n<=6,計(jì)算候選短語(yǔ)的的質(zhì)量:
紅框中指的是這些單詞構(gòu)成的短語(yǔ),Q表示的短語(yǔ)質(zhì)量評(píng)估,最初是通過數(shù)據(jù)中的統(tǒng)計(jì)特征學(xué)習(xí)的,目的是為了對(duì)一致性和信息性進(jìn)行建模。要注意的是短語(yǔ)質(zhì)量評(píng)估是獨(dú)立于POS標(biāo)簽的,對(duì)于unigrams,只需將其詞組質(zhì)量設(shè)置為1。
為了強(qiáng)調(diào)完整度,短語(yǔ)分割會(huì)在每個(gè)句子中找到最好的分割方式。
在短語(yǔ)質(zhì)量再評(píng)估的過程中,相關(guān)統(tǒng)計(jì)特征會(huì)基于它們的修改頻率再計(jì)算,這就表示短語(yǔ)在所識(shí)別的分割中成為完整語(yǔ)義單元的次數(shù)。之后計(jì)算Q。
No.5
方法
在這個(gè)部分,將會(huì)介紹兩個(gè)新技術(shù)。首先,robust positive-only distant training通過利用質(zhì)量短語(yǔ)來訓(xùn)練模型,其次,介紹POS標(biāo)簽,它可以使模型學(xué)習(xí)到語(yǔ)言相關(guān)信息。
Robust Positive-Only Distant Training
為了評(píng)估每一個(gè)質(zhì)量短語(yǔ)的質(zhì)量分?jǐn)?shù),需要人力來完成。在本篇文章中,介紹了一種不需要人工就可以完成的方法。
標(biāo)簽池
公共知識(shí)庫(kù)(例如維基百科)中獲取的高質(zhì)量短語(yǔ)將其放在正池中;基于n-gram的候選短語(yǔ)熟練非常多,其中大多數(shù)質(zhì)量比較差,因此,從給定語(yǔ)料庫(kù)派生的候選短語(yǔ)如果不能匹配到公共知識(shí)庫(kù)中的的任何高質(zhì)量短語(yǔ),那么就會(huì)用于填充嘈雜的負(fù)池。
降噪
如果基于嘈雜的負(fù)池訓(xùn)練分類器,就會(huì)漏掉一些給定語(yǔ)料庫(kù)中的高質(zhì)量短語(yǔ),因?yàn)樗鼈儾淮嬖谟谥R(shí)庫(kù)中。因此,使用一個(gè)集成分類器。
如圖,對(duì)于每個(gè)基分類器,分別從正池和負(fù)池中隨機(jī)抽取K個(gè)候選短語(yǔ),并進(jìn)行替換(考慮到規(guī)范的平衡分類場(chǎng)景),所有的候選短語(yǔ)中的2K大小的子集稱之為擾動(dòng)訓(xùn)練集,是因?yàn)閳D中的部分短語(yǔ)δ的標(biāo)簽是由正到負(fù)。為了使集成分類器能夠減輕這種噪聲的影響,需要使用訓(xùn)練誤差最小的分類器,我們生成了一個(gè)未經(jīng)修剪的決策樹,以分離所有短語(yǔ)來滿足這個(gè)需求。實(shí)際上,當(dāng)擾動(dòng)訓(xùn)練集中沒有兩個(gè)正負(fù)短語(yǔ)具有相同的特征值時(shí),該決策樹的訓(xùn)練精度始終能達(dá)到100%。這種情況下,它的理想誤差是δ/2K,大約等于所有候選短語(yǔ)中中轉(zhuǎn)換標(biāo)簽的比例。因此,K對(duì)于未修剪的決策樹的準(zhǔn)確性不敏感,在實(shí)驗(yàn)中設(shè)置為100。
上圖中出現(xiàn)的采樣過程,文中使用的是隨機(jī)森林,將特定短語(yǔ)的短語(yǔ)質(zhì)量得分計(jì)算為預(yù)測(cè)該短語(yǔ)為質(zhì)量短語(yǔ)的所有決策樹的比例。假如在隨機(jī)森林中有T個(gè)樹,可以將整體錯(cuò)誤估計(jì)為,超過一半的分類器將給定短語(yǔ)候選者誤分類的概率。
從上圖中可以看出隨著T的增長(zhǎng),整體誤差接近于0。實(shí)際操作中,由于模型偏差帶來的附加誤差,T需要設(shè)置的大一些。
POS-Guided Phrasal Segmentation
語(yǔ)料庫(kù)為處理過的長(zhǎng)度為n的POS-tagged的詞序列:
這里的每個(gè)因數(shù)表示的都是一對(duì),即詞和對(duì)應(yīng)的詞性。POS的短語(yǔ)分割由邊界索引序列B促使該序列劃分為m個(gè)片段,這里的B={b1,b2,……,bm}滿足1=b1第i個(gè)部分指的是:
與之前的方法相比,POS-guided短語(yǔ)分割以一種上下文感知的方式來加強(qiáng)完整度。另外,POS標(biāo)簽提供較淺的語(yǔ)義知識(shí),這樣可以提神短語(yǔ)識(shí)別的精確度,尤其是句子成分的邊界。
對(duì)于給定的長(zhǎng)度為n的POS標(biāo)簽序列:
標(biāo)簽子序列用t_[l,r)表示,其標(biāo)簽子序列的質(zhì)量分?jǐn)?shù)被定為:對(duì)應(yīng)詞序列是完整語(yǔ)義單元的條件概率:
T是為了通過正確識(shí)別POS序列來獎(jiǎng)勵(lì)短語(yǔ),其特殊形式為:
紅框中表示的是給定文檔短語(yǔ)中的POS詞性標(biāo)簽tbr-1精確位于POS詞性標(biāo)簽tbr之前的概率。上述這個(gè)公式,第一個(gè)乘數(shù)表示的是在詞索引r-1與r之間的短語(yǔ)邊界,然而后邊的乘數(shù)表示的是在t中的所有POS詞性標(biāo)簽在同樣的短語(yǔ)的概率。
從數(shù)學(xué)意義上而言:
因?yàn)樗蕾囄臋n如何分割短語(yǔ),δ被統(tǒng)一初始化,在短語(yǔ)分割的過程中被學(xué)習(xí)。現(xiàn)在,計(jì)算了短語(yǔ)質(zhì)量Q與POS質(zhì)量T,然后定義POS-guided的短語(yǔ)分割模型。
這里紅框是單詞序列w的第i個(gè)質(zhì)量短語(yǔ)的條件概率。
對(duì)于每個(gè)分割段,給定POS詞性標(biāo)簽和起始索引b_i,生成過程如下:
1)通過POS質(zhì)量生成末端索引b_i+1
2)給定兩端bi和bi+1,根據(jù)在長(zhǎng)度為兩端點(diǎn)的差值的所有分割段上的多項(xiàng)式分布生成單詞序列w
3)最后,根據(jù)質(zhì)量生成指標(biāo)來判斷是否形成質(zhì)量分割
將以上三步合成,定義為:
為方便起見用紅框表示黃色框的內(nèi)容。
因此,存在以下三個(gè)問題:
1)學(xué)習(xí)每個(gè)詞的 θ_u和候選短語(yǔ)u
2)學(xué)習(xí)每個(gè)POS標(biāo)簽對(duì)δ(tx,ty)
3)當(dāng)θu和δ(tx,t_y)固定時(shí)推導(dǎo)B
采用最大后驗(yàn)原理,最大限度地模擬聯(lián)合對(duì)數(shù)似然:
給定θu和δ(tx,t_y),最大化公式(1)來找到最好的分割,論文中采用一種用于POS引導(dǎo)短語(yǔ)分割的搞笑動(dòng)態(tài)編碼算法:
當(dāng)S和u固定時(shí),δ(tx,ty)的解為:
這里的1表示的是身份指標(biāo),δ(tx,ty)表示的是在所有給定的(tx,ty)對(duì)中未匹配的比率。
同樣,當(dāng)S和u固定時(shí),θ_u的解為:
可以看出,θ_u是u成為完整分割段的時(shí)間。
算法2中,選擇Viterbi Training來分別優(yōu)化參數(shù),因?yàn)閂iterbi Training傳播快,并且可以為類似于隱馬爾可夫模型的任務(wù)提供稀疏和簡(jiǎn)單的模型。
Complexity Analysis
框架中最耗時(shí)的部分如n-gram、特征提取、POS短語(yǔ)分割的時(shí)間復(fù)雜度,均為O(||),并假設(shè)短語(yǔ)中最大單詞是一個(gè)小常熟,其中||是語(yǔ)料中單詞的總數(shù)。因此,每個(gè)組件可以以無(wú)固定的方式通過短語(yǔ)或句子分組進(jìn)行合并。
No.6
實(shí)驗(yàn)
此部分,將應(yīng)用本文提出的模型來挖掘3個(gè)領(lǐng)域(論文、商業(yè)討論、維基文章)的質(zhì)量短語(yǔ),并使用3種語(yǔ)言(英語(yǔ)、西班牙語(yǔ)、中文)。實(shí)驗(yàn)中,對(duì)比了其他方法,并驗(yàn)證了遠(yuǎn)程監(jiān)控訓(xùn)練的魯棒性,結(jié)合POS標(biāo)簽進(jìn)行短語(yǔ)分割的方式也得到了證明。
數(shù)據(jù)集
為了驗(yàn)證本文提出的兩種新穎的方法,選取了3種語(yǔ)言5個(gè)語(yǔ)料庫(kù)。在每個(gè)數(shù)據(jù)集上,提取的熱門詞和生成的短語(yǔ)候選詞之間的交集作為正池,因此不同語(yǔ)言的不同數(shù)據(jù)中,正池的大小會(huì)有所不同。
對(duì)比的方法
SegPhrase/WrapSegPhrae:SegPhrase用于挖掘英語(yǔ)短語(yǔ),在短語(yǔ)挖掘,關(guān)鍵短語(yǔ)獲取,名詞短語(yǔ)分塊應(yīng)用上十分出色。WrapSegPhrase在SegPhrase的基礎(chǔ)上拓展到了不同語(yǔ)言上。這兩種方法都需要人力來完成標(biāo)注質(zhì)量短語(yǔ)。
Parser-Based Phrase Extraction,使用復(fù)雜的語(yǔ)義處理器,考慮以下兩種排名試探法:
TF-IDF通過給定文檔中的詞組詞頻和文檔逆頻來對(duì)提取的短語(yǔ)進(jìn)行排名;
TextRank:用于關(guān)鍵字提取的無(wú)監(jiān)督基于圖的排名模型。
Pre-trained Chinese Segmentation Models,與英語(yǔ)和西班牙語(yǔ)不同,由于漢語(yǔ)中間沒有空格,因此對(duì)漢語(yǔ)的短語(yǔ)進(jìn)行了深入研究,最有效和最受歡迎的方法:
AnsjSeg:應(yīng)用于中文語(yǔ)料,它整合了CRF(Conditional Random Fields)和基于n-gram的HMMs(Hidden Markov Models)。
JiebaPSeg:應(yīng)用于中文文本分割,基于前綴字典結(jié)構(gòu)構(gòu)建有向無(wú)環(huán)圖,然后使用動(dòng)態(tài)編程找到最可能的組合,對(duì)于未知短語(yǔ),將基于HMM模型與Viterbi算法一起使用。
注意:所有的Parser-Based Phrase-Extraction和中文分割模型都要基于通用預(yù)料進(jìn)行預(yù)訓(xùn)練。
AutoSegPhrase是AutoPhrase 和 Seg-Phrase的結(jié)合,它可以有效用于沒有POS標(biāo)簽的時(shí)候。
實(shí)驗(yàn)設(shè)置
實(shí)戰(zhàn):預(yù)處理包括Lucene 和 Stanford NLP的分詞器,以及TreeTagger的POS標(biāo)簽,實(shí)驗(yàn)中使用Java與C++。
默認(rèn)參數(shù):設(shè)置最小支持閾值σ為30,短語(yǔ)長(zhǎng)度為6。其他方法中的參數(shù)按著原始論文中設(shè)置。
人工注釋:依靠人類評(píng)估者來判斷無(wú)法通過任何知識(shí)庫(kù)識(shí)別的短語(yǔ)的質(zhì)量。更具體地說,在每個(gè)數(shù)據(jù)集上,我們從實(shí)驗(yàn)中每種方法的預(yù)測(cè)短語(yǔ)中隨機(jī)抽取500個(gè)這樣的短語(yǔ)。這些選定的短語(yǔ)在共享池中,并由3位審閱者獨(dú)立評(píng)估。當(dāng)遇到不熟悉的短語(yǔ)時(shí),我們?cè)试S審閱者使用搜索引擎。根據(jù)多數(shù)投票的規(guī)則,該詞組中的短語(yǔ)至少收到兩個(gè)肯定的注釋,即為優(yōu)質(zhì)短語(yǔ)。
評(píng)估指標(biāo):使用準(zhǔn)確率與召回率,另外采用area under the curve(AUC)作為一種度量,AUC值得是precision-recall 曲線下的面積。
整體結(jié)果
上圖中明顯看出AutoPhrase效果最好,并能夠以最少的人力來支持不同領(lǐng)域并支持多種語(yǔ)言。
Distant Training Exploration
為了比較遠(yuǎn)程訓(xùn)練和領(lǐng)域?qū)<覙?biāo)記,嘗試使用特定的數(shù)據(jù)集DBLP和Yelp。除了標(biāo)簽選擇不同以外,分類器中的所有配置均相同,并提出了四個(gè)訓(xùn)練池:
EP:專家給的正池
DP:從通用知識(shí)集中挑選的正池的一個(gè)集合
EN:專家給的負(fù)池
DN:所有未標(biāo)簽的候選短語(yǔ)形成的負(fù)池
結(jié)合四個(gè)訓(xùn)練池,我們重新組合4個(gè)變體:EPEN (in SegPhrase), DPDN(in AutoPhrase), EPDN, 和DPEN。
結(jié)果對(duì)比分析:
EPEN與DPEN:他們有相似的曲線走向,并且EPEN比DPEN的效果好,因此可以得出,盡管DPEN的質(zhì)量評(píng)估工作稍差,但是從知識(shí)庫(kù)中生成的正池具有合理的質(zhì)量。
EPEN與EPDN:之間存在明顯的間隔且走向相似表明嘈雜的負(fù)池與專業(yè)的負(fù)池相比略遜色,但其效果還可以。
當(dāng)正池大小受限時(shí),DPDN的效果最差,然而,遠(yuǎn)距離訓(xùn)練會(huì)產(chǎn)生更大的正池,當(dāng)正池足夠大時(shí),遠(yuǎn)程訓(xùn)練是否能夠戰(zhàn)勝領(lǐng)域?qū)<夷?#xff1f;
從上圖看當(dāng)正池足夠大時(shí),遠(yuǎn)程訓(xùn)練戰(zhàn)勝了領(lǐng)域?qū)<摇T贒BLP上,理想的正池大小為700左右,Yelp上大致為1600。
POS-Guided Phrasal Segmentation
在英語(yǔ)數(shù)據(jù)集上,AutoPhrase效果比 AutoSegPhrase好,在西班牙語(yǔ)上效果差不多,但是在中文數(shù)據(jù)集上可以明顯地看出AutoPhrase的效果最好。
因此,由于特定語(yǔ)言的額外上下文信息和句法信息,在短語(yǔ)分割過程中合并POS標(biāo)簽的效果更好。
No.7
單個(gè)詞獲取
AutoPhrase可以額外獲取單個(gè)詞,召回率可以提高10%至30%,用3個(gè)不同的數(shù)據(jù)集:EN, ES和CN來進(jìn)行評(píng)估。
考慮到質(zhì)量短語(yǔ)的評(píng)估標(biāo)準(zhǔn),因?yàn)閱蝹€(gè)詞短語(yǔ)不能被分解為2個(gè)或更多部分,一致性和完整度就不再考慮,因此,修改了評(píng)估單個(gè)詞的質(zhì)量標(biāo)準(zhǔn):
流行性:質(zhì)量短語(yǔ)要多次出現(xiàn)在給定的文本庫(kù)中
信息性:如果該短語(yǔ)表示特定的主題或概念,則它是提供信息的
獨(dú)立性:在給定的文檔中,高質(zhì)量的單字短語(yǔ)很可能是完整的語(yǔ)義單元
實(shí)驗(yàn)部分,我們采用相似的人工注釋,不同的是,我們從每種方法的返回短語(yǔ)中隨機(jī)抽取了500個(gè)Wiki-uncovered短語(yǔ)。因此,就有了新的EN,ES,CN數(shù)據(jù)集,類內(nèi)關(guān)系超過0.9。
從圖中可以看出明顯的優(yōu)勢(shì),在中文數(shù)據(jù)集中可以觀察到最顯著的recall間隔,因?yàn)橹形闹袃?yōu)質(zhì)單詞短語(yǔ)的比例最高。
No.8
結(jié)論
本文提出的自動(dòng)短語(yǔ)挖掘框架,其中運(yùn)用兩種新的剛發(fā):遠(yuǎn)程訓(xùn)練和POS短語(yǔ)分割,實(shí)驗(yàn)表明AutoPhrase優(yōu)于其他短語(yǔ)分割的方法并且支持多種語(yǔ)言,此外單個(gè)詞短語(yǔ)10%-30%的召回中效果較好。
-END-專 · 知專知,專業(yè)可信的人工智能知識(shí)分發(fā),讓認(rèn)知協(xié)作更快更好!歡迎注冊(cè)登錄專知www.zhuanzhi.ai,獲取更多AI知識(shí)資料!歡迎微信掃一掃加入專知人工智能知識(shí)星球群,獲取最新AI專業(yè)干貨知識(shí)教程視頻資料和與專家交流咨詢!請(qǐng)加專知小助手微信(掃一掃如下二維碼添加),獲取專知VIP會(huì)員碼,加入專知人工智能主題群,咨詢技術(shù)商務(wù)合作~點(diǎn)擊“閱讀原文”,了解注冊(cè)成為專知VIP會(huì)員總結(jié)
以上是生活随笔為你收集整理的随机森林原始论文_【论文笔记】韩家炜团队AutoPhrase:从大量文本库中 自动挖掘短语...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 韩家炜教授的学术报告会
- 下一篇: Asp.net中的时区