當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

随机森林原始论文_【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语...

發(fā)布時(shí)間：2023/12/20 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了随机森林原始论文_【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

【導(dǎo)讀】作為文本分析中的基礎(chǔ)任務(wù)，短語(yǔ)挖掘旨在從文本語(yǔ)料庫(kù)中獲取質(zhì)量短語(yǔ)，并應(yīng)用在信息獲取、信息檢索、分類構(gòu)建和主題模型中。現(xiàn)存的這些方法大多依賴于復(fù)雜的語(yǔ)義分析器，在一些新領(lǐng)域的語(yǔ)料庫(kù)中的效果似乎并不理想，而且還需要大量的人力。因此，在本文中提出一種新的模型AutoPhrase來自動(dòng)挖掘任意語(yǔ)種的短語(yǔ)。

No.1

動(dòng)機(jī)

理想的自動(dòng)短語(yǔ)挖掘方法應(yīng)該是獨(dú)立于不同領(lǐng)域，并且只需要最少的人力或語(yǔ)言分析器。因此提出了AutoPhrase框架，更深層次的避免了人工標(biāo)注，并提高了性能。

No.2

創(chuàng)新點(diǎn)

提出了POS-Guided短語(yǔ)分割：提高了詞性標(biāo)記的性能；
本文提出新的自動(dòng)短語(yǔ)挖掘框架AutoPhrase：獨(dú)立于領(lǐng)域，只需要很少的人力或語(yǔ)言分析；
提出了一種魯棒的、僅為正的遠(yuǎn)程短語(yǔ)質(zhì)量估計(jì)訓(xùn)練方法，以最小化人工工作量。

No.3

兩種新技術(shù)

Robust Positive-Only Distant Training

利用已有的知識(shí)庫(kù)做遠(yuǎn)程監(jiān)督訓(xùn)練，如維基百科，其中的高質(zhì)量短語(yǔ)免費(fèi)且數(shù)量多，遠(yuǎn)程訓(xùn)練過程中，使用這些詞可以避免手工標(biāo)注。

具體做法：

從通用知識(shí)庫(kù)中的構(gòu)建正樣本
從給定的知識(shí)庫(kù)中的獲取負(fù)樣本
訓(xùn)練大量基本分類器
將分類器的預(yù)測(cè)聚合起來

POS-Guided短語(yǔ)分割

利用詞性信息來增加抽取的準(zhǔn)確性。語(yǔ)言處理器應(yīng)該權(quán)衡準(zhǔn)確率和領(lǐng)域獨(dú)立能力

對(duì)于領(lǐng)域獨(dú)立能力，如果沒有語(yǔ)言知識(shí)，準(zhǔn)確率就會(huì)受限
對(duì)于準(zhǔn)確性，依賴復(fù)雜的、訓(xùn)練好的語(yǔ)言分析器，就會(huì)降低領(lǐng)域獨(dú)立能力

解決方法：將預(yù)先訓(xùn)練好的詞性標(biāo)記加入到文檔集，以提高性能。

No.4

Preliminaries

有效識(shí)別質(zhì)量短語(yǔ)對(duì)于處理大規(guī)模文本數(shù)據(jù)來說十分重要。與提取關(guān)鍵短語(yǔ)相反，它遠(yuǎn)超單個(gè)文檔的范圍。使用文本檢索算法通常會(huì)過濾一些詞并將候選詞限制為名詞短語(yǔ)。使用預(yù)定義的詞性規(guī)則，可以將名詞短語(yǔ)標(biāo)識(shí)為帶有POS標(biāo)簽的候選單詞。

本篇論文的目的是想實(shí)現(xiàn)從文件集中自動(dòng)挖掘短語(yǔ)來獲取質(zhì)量短語(yǔ)，而不需要消耗人力。對(duì)于這個(gè)任務(wù)，輸入為語(yǔ)料庫(kù)(特定語(yǔ)言和特定領(lǐng)域的文本單詞序列)和知識(shí)庫(kù)，輸出為一個(gè)按質(zhì)量遞減排列的短語(yǔ)列表。

質(zhì)量短語(yǔ)被定義為一個(gè)單詞序列成為一個(gè)完整語(yǔ)義單詞的概率，滿足以下條件：

流行度：在給定的文檔集中，質(zhì)量短語(yǔ)出現(xiàn)的頻率應(yīng)該要足夠高
一致性：由于偶然，質(zhì)量短語(yǔ)中的tokens發(fā)生的概率要高于預(yù)期
信息性：如果一個(gè)短語(yǔ)表達(dá)了一個(gè)特定的話題和概念，那這個(gè)短語(yǔ)就是信息化的
完整度：長(zhǎng)頻繁短語(yǔ)及其子序列均滿足上述3個(gè)條件。當(dāng)一個(gè)短語(yǔ)在特定的文檔上下文中解釋為一個(gè)完整的語(yǔ)義單元時(shí)，就被認(rèn)為是完整的。

AutoPhrase會(huì)根據(jù)正負(fù)池對(duì)質(zhì)量短語(yǔ)進(jìn)行兩次評(píng)估，分別是在短語(yǔ)分割的前和后。也就是說，POS-Guided短語(yǔ)分割需要一組初始的質(zhì)量短語(yǔ)分?jǐn)?shù)，預(yù)先根據(jù)原始頻率估計(jì)分?jǐn)?shù)，然后一旦特征值被糾正，就要重新估計(jì)分?jǐn)?shù)。只有滿足上述要求的短語(yǔ)才能被認(rèn)為是質(zhì)量短語(yǔ)。只有滿足上述要求的短語(yǔ)才能被認(rèn)為是質(zhì)量短語(yǔ)。

AutoPhrase的第一部分(上圖中的左部分)候選短語(yǔ)集合包含所有超過最小閾值的n-grams。這里的閾值指的是通過字符串匹配計(jì)算出的n-grams的原始頻率。在實(shí)際中，設(shè)置短語(yǔ)長(zhǎng)度的閾值n<=6，計(jì)算候選短語(yǔ)的的質(zhì)量：

紅框中指的是這些單詞構(gòu)成的短語(yǔ)，Q表示的短語(yǔ)質(zhì)量評(píng)估，最初是通過數(shù)據(jù)中的統(tǒng)計(jì)特征學(xué)習(xí)的，目的是為了對(duì)一致性和信息性進(jìn)行建模。要注意的是短語(yǔ)質(zhì)量評(píng)估是獨(dú)立于POS標(biāo)簽的，對(duì)于unigrams，只需將其詞組質(zhì)量設(shè)置為1。

為了強(qiáng)調(diào)完整度，短語(yǔ)分割會(huì)在每個(gè)句子中找到最好的分割方式。

在短語(yǔ)質(zhì)量再評(píng)估的過程中，相關(guān)統(tǒng)計(jì)特征會(huì)基于它們的修改頻率再計(jì)算，這就表示短語(yǔ)在所識(shí)別的分割中成為完整語(yǔ)義單元的次數(shù)。之后計(jì)算Q。

No.5

方法

在這個(gè)部分，將會(huì)介紹兩個(gè)新技術(shù)。首先，robust positive-only distant training通過利用質(zhì)量短語(yǔ)來訓(xùn)練模型，其次，介紹POS標(biāo)簽，它可以使模型學(xué)習(xí)到語(yǔ)言相關(guān)信息。

Robust Positive-Only Distant Training

為了評(píng)估每一個(gè)質(zhì)量短語(yǔ)的質(zhì)量分?jǐn)?shù)，需要人力來完成。在本篇文章中，介紹了一種不需要人工就可以完成的方法。

標(biāo)簽池

公共知識(shí)庫(kù)(例如維基百科)中獲取的高質(zhì)量短語(yǔ)將其放在正池中；基于n-gram的候選短語(yǔ)熟練非常多，其中大多數(shù)質(zhì)量比較差，因此，從給定語(yǔ)料庫(kù)派生的候選短語(yǔ)如果不能匹配到公共知識(shí)庫(kù)中的的任何高質(zhì)量短語(yǔ)，那么就會(huì)用于填充嘈雜的負(fù)池。

降噪

如果基于嘈雜的負(fù)池訓(xùn)練分類器，就會(huì)漏掉一些給定語(yǔ)料庫(kù)中的高質(zhì)量短語(yǔ)，因?yàn)樗鼈儾淮嬖谟谥R(shí)庫(kù)中。因此，使用一個(gè)集成分類器。

如圖，對(duì)于每個(gè)基分類器，分別從正池和負(fù)池中隨機(jī)抽取K個(gè)候選短語(yǔ)，并進(jìn)行替換(考慮到規(guī)范的平衡分類場(chǎng)景)，所有的候選短語(yǔ)中的2K大小的子集稱之為擾動(dòng)訓(xùn)練集，是因?yàn)閳D中的部分短語(yǔ)δ的標(biāo)簽是由正到負(fù)。為了使集成分類器能夠減輕這種噪聲的影響，需要使用訓(xùn)練誤差最小的分類器，我們生成了一個(gè)未經(jīng)修剪的決策樹，以分離所有短語(yǔ)來滿足這個(gè)需求。實(shí)際上，當(dāng)擾動(dòng)訓(xùn)練集中沒有兩個(gè)正負(fù)短語(yǔ)具有相同的特征值時(shí)，該決策樹的訓(xùn)練精度始終能達(dá)到100%。這種情況下，它的理想誤差是δ/2K，大約等于所有候選短語(yǔ)中中轉(zhuǎn)換標(biāo)簽的比例。因此，K對(duì)于未修剪的決策樹的準(zhǔn)確性不敏感，在實(shí)驗(yàn)中設(shè)置為100。

上圖中出現(xiàn)的采樣過程，文中使用的是隨機(jī)森林，將特定短語(yǔ)的短語(yǔ)質(zhì)量得分計(jì)算為預(yù)測(cè)該短語(yǔ)為質(zhì)量短語(yǔ)的所有決策樹的比例。假如在隨機(jī)森林中有T個(gè)樹，可以將整體錯(cuò)誤估計(jì)為，超過一半的分類器將給定短語(yǔ)候選者誤分類的概率。

從上圖中可以看出隨著T的增長(zhǎng)，整體誤差接近于0。實(shí)際操作中，由于模型偏差帶來的附加誤差，T需要設(shè)置的大一些。

POS-Guided Phrasal Segmentation

語(yǔ)料庫(kù)為處理過的長(zhǎng)度為n的POS-tagged的詞序列：

這里的每個(gè)因數(shù)表示的都是一對(duì)，即詞和對(duì)應(yīng)的詞性。POS的短語(yǔ)分割由邊界索引序列B促使該序列劃分為m個(gè)片段，這里的B={b1,b2,……,bm}滿足1=b1第i個(gè)部分指的是：

與之前的方法相比，POS-guided短語(yǔ)分割以一種上下文感知的方式來加強(qiáng)完整度。另外，POS標(biāo)簽提供較淺的語(yǔ)義知識(shí)，這樣可以提神短語(yǔ)識(shí)別的精確度，尤其是句子成分的邊界。

對(duì)于給定的長(zhǎng)度為n的POS標(biāo)簽序列：

標(biāo)簽子序列用t_[l,r)表示，其標(biāo)簽子序列的質(zhì)量分?jǐn)?shù)被定為：對(duì)應(yīng)詞序列是完整語(yǔ)義單元的條件概率：

T是為了通過正確識(shí)別POS序列來獎(jiǎng)勵(lì)短語(yǔ)，其特殊形式為：

紅框中表示的是給定文檔短語(yǔ)中的POS詞性標(biāo)簽tbr-1精確位于POS詞性標(biāo)簽tbr之前的概率。上述這個(gè)公式，第一個(gè)乘數(shù)表示的是在詞索引r-1與r之間的短語(yǔ)邊界，然而后邊的乘數(shù)表示的是在t中的所有POS詞性標(biāo)簽在同樣的短語(yǔ)的概率。

從數(shù)學(xué)意義上而言：

因?yàn)樗蕾囄臋n如何分割短語(yǔ)，δ被統(tǒng)一初始化，在短語(yǔ)分割的過程中被學(xué)習(xí)。現(xiàn)在，計(jì)算了短語(yǔ)質(zhì)量Q與POS質(zhì)量T，然后定義POS-guided的短語(yǔ)分割模型。

這里紅框是單詞序列w的第i個(gè)質(zhì)量短語(yǔ)的條件概率。

對(duì)于每個(gè)分割段，給定POS詞性標(biāo)簽和起始索引b_i，生成過程如下：

1)通過POS質(zhì)量生成末端索引b_i+1

2)給定兩端bi和bi+1，根據(jù)在長(zhǎng)度為兩端點(diǎn)的差值的所有分割段上的多項(xiàng)式分布生成單詞序列w

3)最后，根據(jù)質(zhì)量生成指標(biāo)來判斷是否形成質(zhì)量分割

將以上三步合成，定義為：

為方便起見用紅框表示黃色框的內(nèi)容。

因此，存在以下三個(gè)問題：

1)學(xué)習(xí)每個(gè)詞的 θ_u和候選短語(yǔ)u

2)學(xué)習(xí)每個(gè)POS標(biāo)簽對(duì)δ(tx，ty)

3)當(dāng)θu和δ(tx，t_y)固定時(shí)推導(dǎo)B

采用最大后驗(yàn)原理，最大限度地模擬聯(lián)合對(duì)數(shù)似然：

給定θu和δ(tx，t_y)，最大化公式(1)來找到最好的分割，論文中采用一種用于POS引導(dǎo)短語(yǔ)分割的搞笑動(dòng)態(tài)編碼算法：

當(dāng)S和u固定時(shí)，δ(tx，ty)的解為：

這里的1表示的是身份指標(biāo)，δ(tx，ty)表示的是在所有給定的(tx，ty)對(duì)中未匹配的比率。

同樣，當(dāng)S和u固定時(shí)，θ_u的解為：

可以看出，θ_u是u成為完整分割段的時(shí)間。

算法2中，選擇Viterbi Training來分別優(yōu)化參數(shù)，因?yàn)閂iterbi Training傳播快，并且可以為類似于隱馬爾可夫模型的任務(wù)提供稀疏和簡(jiǎn)單的模型。

Complexity Analysis

框架中最耗時(shí)的部分如n-gram、特征提取、POS短語(yǔ)分割的時(shí)間復(fù)雜度，均為O(||)，并假設(shè)短語(yǔ)中最大單詞是一個(gè)小常熟，其中||是語(yǔ)料中單詞的總數(shù)。因此，每個(gè)組件可以以無(wú)固定的方式通過短語(yǔ)或句子分組進(jìn)行合并。

No.6

實(shí)驗(yàn)

此部分，將應(yīng)用本文提出的模型來挖掘3個(gè)領(lǐng)域(論文、商業(yè)討論、維基文章)的質(zhì)量短語(yǔ)，并使用3種語(yǔ)言(英語(yǔ)、西班牙語(yǔ)、中文)。實(shí)驗(yàn)中，對(duì)比了其他方法，并驗(yàn)證了遠(yuǎn)程監(jiān)控訓(xùn)練的魯棒性，結(jié)合POS標(biāo)簽進(jìn)行短語(yǔ)分割的方式也得到了證明。

數(shù)據(jù)集

為了驗(yàn)證本文提出的兩種新穎的方法，選取了3種語(yǔ)言5個(gè)語(yǔ)料庫(kù)。在每個(gè)數(shù)據(jù)集上，提取的熱門詞和生成的短語(yǔ)候選詞之間的交集作為正池，因此不同語(yǔ)言的不同數(shù)據(jù)中，正池的大小會(huì)有所不同。

對(duì)比的方法

SegPhrase/WrapSegPhrae：SegPhrase用于挖掘英語(yǔ)短語(yǔ)，在短語(yǔ)挖掘，關(guān)鍵短語(yǔ)獲取，名詞短語(yǔ)分塊應(yīng)用上十分出色。WrapSegPhrase在SegPhrase的基礎(chǔ)上拓展到了不同語(yǔ)言上。這兩種方法都需要人力來完成標(biāo)注質(zhì)量短語(yǔ)。

Parser-Based Phrase Extraction，使用復(fù)雜的語(yǔ)義處理器，考慮以下兩種排名試探法：

TF-IDF通過給定文檔中的詞組詞頻和文檔逆頻來對(duì)提取的短語(yǔ)進(jìn)行排名；
TextRank：用于關(guān)鍵字提取的無(wú)監(jiān)督基于圖的排名模型。

Pre-trained Chinese Segmentation Models，與英語(yǔ)和西班牙語(yǔ)不同，由于漢語(yǔ)中間沒有空格，因此對(duì)漢語(yǔ)的短語(yǔ)進(jìn)行了深入研究，最有效和最受歡迎的方法：

AnsjSeg：應(yīng)用于中文語(yǔ)料，它整合了CRF(Conditional Random Fields)和基于n-gram的HMMs(Hidden Markov Models)。
JiebaPSeg：應(yīng)用于中文文本分割，基于前綴字典結(jié)構(gòu)構(gòu)建有向無(wú)環(huán)圖，然后使用動(dòng)態(tài)編程找到最可能的組合，對(duì)于未知短語(yǔ)，將基于HMM模型與Viterbi算法一起使用。

注意：所有的Parser-Based Phrase-Extraction和中文分割模型都要基于通用預(yù)料進(jìn)行預(yù)訓(xùn)練。

AutoSegPhrase是AutoPhrase 和 Seg-Phrase的結(jié)合，它可以有效用于沒有POS標(biāo)簽的時(shí)候。

實(shí)驗(yàn)設(shè)置

實(shí)戰(zhàn)：預(yù)處理包括Lucene 和 Stanford NLP的分詞器，以及TreeTagger的POS標(biāo)簽，實(shí)驗(yàn)中使用Java與C++。

默認(rèn)參數(shù)：設(shè)置最小支持閾值σ為30，短語(yǔ)長(zhǎng)度為6。其他方法中的參數(shù)按著原始論文中設(shè)置。

人工注釋：依靠人類評(píng)估者來判斷無(wú)法通過任何知識(shí)庫(kù)識(shí)別的短語(yǔ)的質(zhì)量。更具體地說，在每個(gè)數(shù)據(jù)集上，我們從實(shí)驗(yàn)中每種方法的預(yù)測(cè)短語(yǔ)中隨機(jī)抽取500個(gè)這樣的短語(yǔ)。這些選定的短語(yǔ)在共享池中，并由3位審閱者獨(dú)立評(píng)估。當(dāng)遇到不熟悉的短語(yǔ)時(shí)，我們?cè)试S審閱者使用搜索引擎。根據(jù)多數(shù)投票的規(guī)則，該詞組中的短語(yǔ)至少收到兩個(gè)肯定的注釋，即為優(yōu)質(zhì)短語(yǔ)。

評(píng)估指標(biāo)：使用準(zhǔn)確率與召回率，另外采用area under the curve(AUC)作為一種度量，AUC值得是precision-recall 曲線下的面積。

整體結(jié)果

上圖中明顯看出AutoPhrase效果最好，并能夠以最少的人力來支持不同領(lǐng)域并支持多種語(yǔ)言。

Distant Training Exploration

為了比較遠(yuǎn)程訓(xùn)練和領(lǐng)域?qū)＜覙?biāo)記，嘗試使用特定的數(shù)據(jù)集DBLP和Yelp。除了標(biāo)簽選擇不同以外，分類器中的所有配置均相同，并提出了四個(gè)訓(xùn)練池：

EP：專家給的正池
DP：從通用知識(shí)集中挑選的正池的一個(gè)集合
EN：專家給的負(fù)池
DN：所有未標(biāo)簽的候選短語(yǔ)形成的負(fù)池

結(jié)合四個(gè)訓(xùn)練池，我們重新組合4個(gè)變體：EPEN (in SegPhrase), DPDN(in AutoPhrase), EPDN, 和DPEN。

結(jié)果對(duì)比分析：

EPEN與DPEN：他們有相似的曲線走向，并且EPEN比DPEN的效果好，因此可以得出，盡管DPEN的質(zhì)量評(píng)估工作稍差，但是從知識(shí)庫(kù)中生成的正池具有合理的質(zhì)量。
EPEN與EPDN：之間存在明顯的間隔且走向相似表明嘈雜的負(fù)池與專業(yè)的負(fù)池相比略遜色，但其效果還可以。
當(dāng)正池大小受限時(shí)，DPDN的效果最差，然而，遠(yuǎn)距離訓(xùn)練會(huì)產(chǎn)生更大的正池，當(dāng)正池足夠大時(shí)，遠(yuǎn)程訓(xùn)練是否能夠戰(zhàn)勝領(lǐng)域?qū)＜夷?#xff1f;

從上圖看當(dāng)正池足夠大時(shí)，遠(yuǎn)程訓(xùn)練戰(zhàn)勝了領(lǐng)域?qū)＜摇Ｔ贒BLP上，理想的正池大小為700左右，Yelp上大致為1600。

POS-Guided Phrasal Segmentation

在英語(yǔ)數(shù)據(jù)集上，AutoPhrase效果比 AutoSegPhrase好，在西班牙語(yǔ)上效果差不多，但是在中文數(shù)據(jù)集上可以明顯地看出AutoPhrase的效果最好。

因此，由于特定語(yǔ)言的額外上下文信息和句法信息，在短語(yǔ)分割過程中合并POS標(biāo)簽的效果更好。

No.7

單個(gè)詞獲取

AutoPhrase可以額外獲取單個(gè)詞，召回率可以提高10%至30%，用3個(gè)不同的數(shù)據(jù)集：EN, ES和CN來進(jìn)行評(píng)估。

考慮到質(zhì)量短語(yǔ)的評(píng)估標(biāo)準(zhǔn)，因?yàn)閱蝹€(gè)詞短語(yǔ)不能被分解為2個(gè)或更多部分，一致性和完整度就不再考慮，因此，修改了評(píng)估單個(gè)詞的質(zhì)量標(biāo)準(zhǔn)：

流行性：質(zhì)量短語(yǔ)要多次出現(xiàn)在給定的文本庫(kù)中
信息性：如果該短語(yǔ)表示特定的主題或概念，則它是提供信息的
獨(dú)立性：在給定的文檔中，高質(zhì)量的單字短語(yǔ)很可能是完整的語(yǔ)義單元

實(shí)驗(yàn)部分，我們采用相似的人工注釋，不同的是，我們從每種方法的返回短語(yǔ)中隨機(jī)抽取了500個(gè)Wiki-uncovered短語(yǔ)。因此，就有了新的EN，ES，CN數(shù)據(jù)集，類內(nèi)關(guān)系超過0.9。

從圖中可以看出明顯的優(yōu)勢(shì)，在中文數(shù)據(jù)集中可以觀察到最顯著的recall間隔，因?yàn)橹形闹袃?yōu)質(zhì)單詞短語(yǔ)的比例最高。

No.8

結(jié)論

本文提出的自動(dòng)短語(yǔ)挖掘框架，其中運(yùn)用兩種新的剛發(fā)：遠(yuǎn)程訓(xùn)練和POS短語(yǔ)分割，實(shí)驗(yàn)表明AutoPhrase優(yōu)于其他短語(yǔ)分割的方法并且支持多種語(yǔ)言，此外單個(gè)詞短語(yǔ)10%-30%的召回中效果較好。

-END-專 · 知專知，專業(yè)可信的人工智能知識(shí)分發(fā)，讓認(rèn)知協(xié)作更快更好！歡迎注冊(cè)登錄專知www.zhuanzhi.ai，獲取更多AI知識(shí)資料！歡迎微信掃一掃加入專知人工智能知識(shí)星球群，獲取最新AI專業(yè)干貨知識(shí)教程視頻資料和與專家交流咨詢！請(qǐng)加專知小助手微信(掃一掃如下二維碼添加)，獲取專知VIP會(huì)員碼，加入專知人工智能主題群，咨詢技術(shù)商務(wù)合作~點(diǎn)擊“閱讀原文”，了解注冊(cè)成為專知VIP會(huì)員

總結(jié)

以上是生活随笔為你收集整理的随机森林原始论文_【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

随机森林原始论文_【论文笔记】韩家炜团队AutoPhrase：从大量文本库中 自动挖掘短语...

總結(jié)

随机森林原始论文_【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语...