當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

《大数据》2015年第3期“网络大数据专题”——网络大数据的文本内容分析

發(fā)布時(shí)間：2025/3/15 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了《大数据》2015年第3期“网络大数据专题”——网络大数据的文本内容分析小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析

程學(xué)旗，蘭艷艷

（中國(guó)科學(xué)院計(jì)算技術(shù)研究所北京 100019）

摘要：文本內(nèi)容分析是實(shí)現(xiàn)大數(shù)據(jù)的理解與價(jià)值發(fā)現(xiàn)的有效手段。嘗試從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁(yè)排序?qū)W習(xí)3個(gè)子方向，探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果，最后指出未來(lái)大數(shù)據(jù)文本內(nèi)容分析的一些研究方向和問(wèn)題。

關(guān)鍵詞：文本內(nèi)容分析；短文本主題建模；單詞表達(dá)；排序?qū)W習(xí)

doi: 10.11959/j.issn.2096-0271.2015029

Text Content Analysis for Web Big Data

Cheng Xueqi, Lan Yanyan

(Institute of Computing Technology, Chinese Academy of Sciences, Beijing100019, China)

Abstract: Text content analysis is an effective way to understand and acquire the “value” ofbig fata. The challenges and research results were investigated in the three hot topics: topic modeling for short texts, word embedding and learning to rank for web pages. In the end, some remaining problems in this area were proposed.

Key words: text content analysis, topic modeling for short texts, word embedding, learning to rank

論文引用格式： 程學(xué)旗，蘭艷艷. 網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析. 大數(shù)據(jù), 2015029

Cheng X Q, Lan Y Y. Text content analysis for web big data. Big Data Research, 2015029

1 引言

伴隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及以及用戶規(guī)模的爆發(fā)式增長(zhǎng)，互聯(lián)網(wǎng)已經(jīng)步入了“大數(shù)據(jù)”時(shí)代。網(wǎng)絡(luò)大數(shù)據(jù)的“大”，不僅僅體現(xiàn)在其體量巨大（大數(shù)據(jù)的起始計(jì)量單位至少是Petabyte、Exabyte或Zettabyte），而且還體現(xiàn)在其增長(zhǎng)異常迅猛（通常是指數(shù)級(jí)的速率），數(shù)據(jù)類型多樣（包括了文本、圖像、聲音、視頻等），數(shù)據(jù)質(zhì)量良莠不齊并且關(guān)聯(lián)關(guān)系復(fù)雜。同時(shí)，網(wǎng)絡(luò)大數(shù)據(jù)另外一個(gè)突出的特點(diǎn)就是其價(jià)值密度低，大數(shù)據(jù)中包含了大量重復(fù)、噪聲和垃圾數(shù)據(jù)，存在大量共現(xiàn)但又毫無(wú)意義的關(guān)聯(lián)模式，如果缺乏有效的信息處理手段提取網(wǎng)絡(luò)大數(shù)據(jù)中潛在的價(jià)值，網(wǎng)絡(luò)大數(shù)據(jù)不僅不能成為一個(gè)價(jià)值“寶藏”，反倒會(huì)成為一個(gè)數(shù)據(jù)的“墳?zāi)埂薄?/p>

文本內(nèi)容分析是網(wǎng)絡(luò)信息處理的關(guān)鍵技術(shù)。網(wǎng)絡(luò)大數(shù)據(jù)對(duì)于文本內(nèi)容分析而言是一把雙刃劍：一方面，網(wǎng)絡(luò)大數(shù)據(jù)提供了需要文本分析豐富的數(shù)據(jù)源，大規(guī)模的樣本資源可以更好地支持文本分析關(guān)鍵技術(shù)的發(fā)展；另一方面，網(wǎng)絡(luò)大數(shù)據(jù)復(fù)雜的內(nèi)在特征對(duì)傳統(tǒng)文本分析技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。例如，網(wǎng)絡(luò)大數(shù)據(jù)越來(lái)多地存在于電商、問(wèn)答等私有化網(wǎng)絡(luò)或者深網(wǎng)中，包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)的獲取和存儲(chǔ)更加困難；數(shù)據(jù)龐大的規(guī)模、復(fù)雜的關(guān)聯(lián)關(guān)系，使得傳統(tǒng)的文本分析和挖掘技術(shù)在計(jì)算的時(shí)空復(fù)雜度上激增；另外，迅猛的數(shù)據(jù)增長(zhǎng)速率、巨大的數(shù)據(jù)體量也使得傳統(tǒng)的全量計(jì)算模式（依賴于全體樣本的計(jì)算模式）不再適用。本文從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁(yè)排序?qū)W習(xí)3個(gè)子方向探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果。

2 文本內(nèi)容分析關(guān)鍵技術(shù)

2.1 短文本主題建模

隨著Web2.0、社交媒體和移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展，每個(gè)網(wǎng)民都成為了互聯(lián)網(wǎng)上信息的創(chuàng)造者與傳播者，促使網(wǎng)上文本信息爆炸式增長(zhǎng)。與此同時(shí)，互聯(lián)網(wǎng)上的文本內(nèi)容形式也在不斷變化。從博客到輕博客和微博、從郵件到論壇和即時(shí)通信、從新聞到評(píng)論等，一個(gè)顯著的特點(diǎn)就是這些文本信息的長(zhǎng)度越來(lái)越短。這是因?yàn)槎涛谋拘畔⒕帉?xiě)簡(jiǎn)單隨意，發(fā)布更為便捷。同時(shí)，短文本信息比長(zhǎng)文本更簡(jiǎn)約、緊湊，能節(jié)省其他用戶閱讀消息的時(shí)間和精力。短文本信息比傳統(tǒng)文本信息來(lái)源要廣得多，更新頻率也快得多，大大加速了互聯(lián)網(wǎng)上信息產(chǎn)生與傳播的速度。

海量的短文本數(shù)據(jù)中蘊(yùn)藏著大量有價(jià)值的信息，但也給現(xiàn)有文本語(yǔ)義分析技術(shù)帶來(lái)了新的挑戰(zhàn)。與長(zhǎng)文本相比，短文本信息內(nèi)部上下文信息缺乏。此外，普通用戶常常用語(yǔ)不規(guī)范，新詞、多義詞等比較普遍。因此，對(duì)一條短文本信息的理解要比長(zhǎng)文本要困難得多。在以往的長(zhǎng)文本語(yǔ)義分析領(lǐng)域，一種普遍的方法就是利用概率話題模型（如LDA^[1]和PLSA^[2]）對(duì)文檔內(nèi)部的話題結(jié)構(gòu)進(jìn)行建模，然后利用統(tǒng)計(jì)推斷手段學(xué)習(xí)出文檔集合中潛在的話題以及話題結(jié)構(gòu)。這些模型的一個(gè)基本假設(shè)是文檔是話題的一個(gè)混合分布，其中每個(gè)詞來(lái)源于一個(gè)話題。當(dāng)文檔長(zhǎng)度較長(zhǎng)時(shí)，可以較準(zhǔn)確地根據(jù)文檔中的詞推斷出文檔的話題屬性。然而，當(dāng)文檔很短（只有幾個(gè)或十幾個(gè)詞，甚至少于話題的個(gè)數(shù)）時(shí)，由于數(shù)據(jù)不足，難以準(zhǔn)確推斷出文檔中話題混合分布的參數(shù)以及每個(gè)詞的話題屬性，從而影響話題學(xué)習(xí)的效果。

為克服短文本信息的數(shù)據(jù)稀疏性，一種簡(jiǎn)單做法是利用外部數(shù)據(jù)（如Wikipedia、搜索結(jié)果）擴(kuò)充文檔的表示，再利用現(xiàn)有的長(zhǎng)文本語(yǔ)義建模工具處理。但這種方式的效果嚴(yán)重依賴于原短文本文檔與擴(kuò)充的外部數(shù)據(jù)的相關(guān)程度。對(duì)于一些實(shí)時(shí)性強(qiáng)的數(shù)據(jù)（如微博），要找到合適的外部數(shù)據(jù)源是很困難的。為此，很多人嘗試?yán)脙?nèi)部數(shù)據(jù)擴(kuò)充文檔的表示，如偽相關(guān)反饋、加入短語(yǔ)特征^[3]、相關(guān)消息聚合^[4]等。無(wú)論是利用外部數(shù)據(jù)擴(kuò)充，還是利用內(nèi)部數(shù)據(jù)擴(kuò)充，都面臨著擴(kuò)充數(shù)據(jù)選擇不當(dāng)帶來(lái)額外噪音的風(fēng)險(xiǎn)。另外，這兩種方法并沒(méi)有從模型上帶來(lái)任何改變，只是治標(biāo)不治本。另外，一些研究者^[5,6]則提出一條短文本消息只包含一個(gè)話題，將短文本消息用單詞混合模型（mixture of unigrams）建模。該方式雖然可緩解參數(shù)估計(jì)時(shí)的數(shù)據(jù)稀疏性問(wèn)題，但對(duì)短文本消息的建模過(guò)于簡(jiǎn)化。現(xiàn)實(shí)情況下，一條短文本消息仍然可能包含多個(gè)話題，尤其是在話題粒度較細(xì)的時(shí)候。此時(shí)，單詞混合模型無(wú)法區(qū)分。

由于短文本消息和長(zhǎng)文本文檔顯著不同，傳統(tǒng)面向長(zhǎng)文本的話題建模方法并不能簡(jiǎn)單地套用到短文本文檔上。為了更好地對(duì)短文本進(jìn)行語(yǔ)義建模，提出了一種新的話題建模方法——雙詞話題模型（biterm topic model，BTM）^[7]。BTM和傳統(tǒng)基于文檔產(chǎn)生式建模的話題模型的最大區(qū)別是，它通過(guò)建模文檔集合中雙詞的產(chǎn)生來(lái)學(xué)習(xí)話題。這里，雙詞指的是在同一個(gè)上下文中共現(xiàn)的詞對(duì)。由于一條短文本消息很短，可以簡(jiǎn)單地認(rèn)為每條消息是一條上下文。比如在“短文本語(yǔ)義建模”中，可以抽取出3個(gè)雙詞：（“短文本”，“語(yǔ)義”）、（“短文本”，“建模”）、（“語(yǔ)義”，“建模”）。其直接體現(xiàn)了詞的共現(xiàn)關(guān)系，因此采用雙詞作為建模單元。直觀地講，兩個(gè)詞共現(xiàn)次數(shù)越多，其語(yǔ)義越相關(guān)，也就越可能屬于同一話題。根據(jù)這一認(rèn)識(shí)，假設(shè)每個(gè)雙詞由同一個(gè)話題產(chǎn)生，而話題從一個(gè)定義在整個(gè)語(yǔ)料集合上的話題混合分布產(chǎn)生。與LDA相比，BTM通過(guò)直接建模雙詞（即詞共現(xiàn)模式）來(lái)學(xué)習(xí)話題，從而避免短文本文檔過(guò)短導(dǎo)致的文檔建模困難問(wèn)題。二者的圖模型表示如圖1所示。實(shí)驗(yàn)結(jié)果表明，BTM在短文本上的效果相比LDA等傳統(tǒng)方法有明顯提升，而且在長(zhǎng)文本上的效果也不輸于LDA。

除了長(zhǎng)度短之外，互聯(lián)網(wǎng)上的短文本大數(shù)據(jù)還具有規(guī)模大、更新快的特點(diǎn)。為此，提出了BTM的兩種在線學(xué)習(xí)算法：在線BTM（oBTM）和增量BTM（iBTM）^[8]。

這兩種算法的主要思想是用最近時(shí)間段內(nèi)接收到的數(shù)據(jù)來(lái)持續(xù)更新模型，而不必反復(fù)計(jì)算較久遠(yuǎn)的歷史數(shù)據(jù)。這兩種算法不僅可以用來(lái)處理大規(guī)模流式短文本數(shù)據(jù)，其學(xué)到的模型還可以即時(shí)反映話題的動(dòng)態(tài)變化，比較適合用于大規(guī)模流式短文本語(yǔ)義建模。在微博等互聯(lián)網(wǎng)應(yīng)用中，短文本信息還具備很強(qiáng)的時(shí)效性，因此其潛在的話題結(jié)構(gòu)也會(huì)劇烈變化。尤其受一些突發(fā)和熱點(diǎn)事件、活動(dòng)的影響，每天都可能涌現(xiàn)出大量的突發(fā)話題。為了對(duì)微博中突發(fā)話題建模，在BTM的基礎(chǔ)上提出了一種突發(fā)雙詞話題模型（BBTM或Bursty BTM）^[9]。BBTM的做法是利用雙詞的突發(fā)性來(lái)指導(dǎo)突發(fā)話題的建模。原因是雙詞的突發(fā)性可以根據(jù)其時(shí)序頻率估算出來(lái)，突發(fā)性越強(qiáng)、共現(xiàn)次數(shù)越多的雙詞，越可能來(lái)源于某個(gè)突發(fā)話題。基于這一思想，BBTM首先將文檔集合中的話題分為突發(fā)和非突發(fā)兩類，然后將雙詞的突發(fā)性作為一個(gè)雙詞話題類別判定的先驗(yàn)。在實(shí)驗(yàn)驗(yàn)證過(guò)程中，發(fā)現(xiàn)BBTM識(shí)別出來(lái)的突發(fā)話題的準(zhǔn)確性和可讀性都顯著優(yōu)于現(xiàn)有的啟發(fā)式方法。

盡管在短文本語(yǔ)義建模方向取得了一些進(jìn)展，但和人對(duì)短文本信息的認(rèn)知能力相比，目前的研究仍然非常初步。在該方向上，筆者認(rèn)為目前值得深入探索的一些研究點(diǎn)如下。

（1）多源異質(zhì)數(shù)據(jù)下的短文本語(yǔ)義建模

在大數(shù)據(jù)時(shí)代的背景下，如何廣泛利用其他數(shù)據(jù)源中的知識(shí)（如Wikipedia、開(kāi)放網(wǎng)頁(yè)、知識(shí)庫(kù)等），進(jìn)一步提高計(jì)算機(jī)短文本的理解與處理能力，是進(jìn)一步提升短文本語(yǔ)義建模的必經(jīng)之路。

（2）復(fù)雜結(jié)構(gòu)語(yǔ)義建模

目前研究的話題模型結(jié)構(gòu)都比較簡(jiǎn)單，只有一層潛在語(yǔ)義結(jié)構(gòu)，話題的數(shù)目也很有限。這種簡(jiǎn)單結(jié)構(gòu)的話題模型只能大概反映文本中的語(yǔ)義，難以準(zhǔn)確、全面地描述文本內(nèi)容。真實(shí)文本數(shù)據(jù)中的語(yǔ)義結(jié)構(gòu)很復(fù)雜，可以考慮采用層次、圖狀等結(jié)構(gòu)提升模型的表達(dá)能力。

（3）融合上下文特征的話題建模

目前的語(yǔ)義建模方法大多仍然局限在利用詞共現(xiàn)信息上。在真實(shí)的應(yīng)用環(huán)境中，短文本消息還包含大量的上下文信息（如詞性、詞序等內(nèi)源特征）以及作者、地點(diǎn)、人物關(guān)系、時(shí)間等外源特征。豐富的上下文特征對(duì)解決短文本內(nèi)容稀疏性會(huì)有很大幫助。

（4）與應(yīng)用結(jié)合

對(duì)短文本語(yǔ)義建模能力的提升最終還需要落地于具體應(yīng)用中。要最大限度地提升應(yīng)用效果，需要研究與具體應(yīng)用相關(guān)的語(yǔ)義建模方法。

2.2 單詞表示學(xué)習(xí)

單詞表示一直是人工智能、自然語(yǔ)言處理、信息檢索等領(lǐng)域的一個(gè)基本核心問(wèn)題。

自然語(yǔ)言處理等相關(guān)領(lǐng)域最常用的單詞表示方法是one-hot表達(dá)，將單詞表示為一個(gè)高維向量，這個(gè)向量的維度是詞表大小，其中絕大多數(shù)元素為0，只有一個(gè)維度的值為1，這個(gè)維度就代表了當(dāng)前的詞。這種one-hot表達(dá)如果采用稀疏方式存儲(chǔ)，非常簡(jiǎn)潔、高效，配合上最大熵、SVM、CRF等算法，已經(jīng)很好地完成了NLP（natural language processing，自然語(yǔ)言處理）領(lǐng)域的各種主流任務(wù)。

但是，這種表達(dá)有著根本性的缺陷，其假設(shè)所有詞都是獨(dú)立無(wú)關(guān)的，拋棄了單詞之間的相關(guān)性。這意味著，即使是兩個(gè)同義詞，在此表達(dá)下，它們的相似度也是0，這顯然是不合理的。同時(shí)，也因?yàn)槊總€(gè)單詞都是一個(gè)孤立的離散單元，在許多實(shí)際問(wèn)題中會(huì)遇到維度災(zāi)難問(wèn)題。例如語(yǔ)言模型中，對(duì)于一個(gè)詞匯集合為100 000的模型，即使只使用二元組，其可能的組合情況便可以達(dá)到100億種。這樣就面臨嚴(yán)重的稀疏問(wèn)題，傳統(tǒng)的語(yǔ)言模型必須使用各種復(fù)雜的平滑技術(shù)來(lái)估計(jì)那些沒(méi)有在語(yǔ)料中出現(xiàn)的組合的概率。

為解決語(yǔ)言模型中的維度災(zāi)難和稀疏問(wèn)題，Bengio等人提出了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型^[10]。此模型將每個(gè)單詞表示為一個(gè)連續(xù)的低維稠密實(shí)數(shù)向量，這樣得到的語(yǔ)言模型自帶平滑，無(wú)須傳統(tǒng)n-gram模型中那些復(fù)雜的平滑算法。這樣的連續(xù)低維稠密實(shí)數(shù)向量叫做分布式表達(dá)（distributed representation），最早由Hinton提出^[7]，有別于傳統(tǒng)語(yǔ)義網(wǎng)絡(luò)中用一個(gè)獨(dú)立節(jié)點(diǎn)表示一個(gè)概念的局部表達(dá)（local representation）的方式。而其真正意義上流行開(kāi)來(lái)，始于Bengio在語(yǔ)言模型上取得的成功。現(xiàn)在，單詞的分布式表達(dá)已經(jīng)廣泛應(yīng)用于自然語(yǔ)言處理的各個(gè)方面，如機(jī)器翻譯、情感分析和詞性標(biāo)注等。

使用語(yǔ)言模型來(lái)學(xué)習(xí)單詞表達(dá)涉及在給定前文下預(yù)測(cè)下一個(gè)單詞出現(xiàn)的概率，因此需要在整個(gè)詞匯集合中進(jìn)行歸一化操作，這是非常耗時(shí)的一個(gè)操作。而當(dāng)年Bengio的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在今天看來(lái)并不很大的語(yǔ)料上訓(xùn)練了4個(gè)月之久，即使后來(lái)的C&W的工作，也花了兩個(gè)月時(shí)間才得到一份單詞的表達(dá)。這在更大的數(shù)據(jù)上幾乎是不可忍受的。早期的單詞分布式表達(dá)工作主要集中在如何加速訓(xùn)練上面。

代表性工作有Bengio等人2005年提出的層次神經(jīng)網(wǎng)絡(luò)模型，輸出端不再是一個(gè)平坦的softmax層，而是一個(gè)樹(shù)狀輸出，利用WordNet將一個(gè)多項(xiàng)分布分解為一串伯努利分布來(lái)優(yōu)化^[11]。AndriyMnih和Geoffrey Hinton提出Log-Bilinear模型，去掉了網(wǎng)絡(luò)中隱層的非線性，在此基礎(chǔ)上又提出hierarchical log-bilinear模型，同樣也是將模型的輸出改為層級(jí)輸出，從而加速模型的訓(xùn)練，并且效果也有一定的提升^[12,13]。此后，Mnih將噪聲對(duì)比估計(jì)（noise contrastive estimation，NCE）用于近似優(yōu)化神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中的sofmax目標(biāo)函數(shù)^[14]。而在這方面走得最遠(yuǎn)的當(dāng)屬目前最受關(guān)注的Mikolov等人的工作——Word2Vec。Mikolov在循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的工作中發(fā)現(xiàn)，將單詞的表達(dá)學(xué)習(xí)與語(yǔ)言模型的學(xué)習(xí)分離開(kāi)來(lái)，可以獲得很好的結(jié)果。于是提出了continuous bag-of-words（CBOW）和skip-gram（SG）兩種單詞表達(dá)學(xué)習(xí)模型^[15]。這兩種模型的目標(biāo)不再是學(xué)習(xí)語(yǔ)言模型，而是直接利用自然語(yǔ)言處理中的分布式假設(shè)（distributional hypothesis）來(lái)學(xué)習(xí)單詞表達(dá)。這個(gè)假設(shè)認(rèn)為一個(gè)單詞的語(yǔ)義由其周圍的上下文決定，因此出現(xiàn)在相似上下文中的詞，其含義也相似。CBOW模型利用上下文單詞的表達(dá)，直接預(yù)測(cè)當(dāng)前詞的表達(dá)；而SG模型則是使用當(dāng)前詞預(yù)測(cè)上下文中的每一個(gè)詞。這兩種模型都可以使用哈夫曼樹(shù)或者Negative sampling加速優(yōu)化。

單詞表達(dá)學(xué)習(xí)算法大體都是基于一個(gè)同樣的假設(shè)——分布式假設(shè)。其假設(shè)一個(gè)單詞的語(yǔ)義由其周圍的上下文決定。由于單詞之間存在橫向（syntagmatic）和縱向（paradigmatic）兩種關(guān)系，如圖2所示。其中，橫向關(guān)系主要關(guān)注的是詞與詞之間在上下文中的共現(xiàn)關(guān)系，是一種組合性關(guān)系；而縱向關(guān)系則關(guān)注的是詞與詞之間具有相似上下文的關(guān)系，是一種替代性關(guān)系。根據(jù)所使用的分布信息的不同，單詞表達(dá)學(xué)習(xí)方法就可以分為兩大類：基于橫向關(guān)系和基于縱向關(guān)系。現(xiàn)有模型都只單獨(dú)考慮了一種關(guān)系。如隱式語(yǔ)義索引（latent semantic indexing，LSI），假設(shè)在文檔中共現(xiàn)的單詞具有相似的語(yǔ)義，其利用了橫向關(guān)系；而Word2Vec這類方法認(rèn)為，如果兩個(gè)單詞其周圍上下文相似，則其語(yǔ)義相似，其利用了縱向關(guān)系。

如圖2所示，如果僅僅使用橫向關(guān)系，不能得到wolf和tiger相似，這并不合理；另一方面，如果只是用縱向關(guān)系，則wolf和fierce也不相似。可見(jiàn)，單獨(dú)使用任一關(guān)系，都不能很好地捕捉單詞間的關(guān)聯(lián)。在ACL2015的工作^[16]提出了兩種新的單詞表達(dá)學(xué)習(xí)模型（如圖3所示），有別于現(xiàn)有模型只建模單詞間的橫向關(guān)系或縱向關(guān)系，以并列（PDC模型）或?qū)哟?#xff08;HDC模型）的方式同時(shí)建模這兩種關(guān)系，以得到更好的單詞表達(dá)。PDC模型和HDC模型對(duì)應(yīng)地?cái)U(kuò)展了Word2Vec中CBOW和HDC模型，在其基礎(chǔ)上，利用文檔表達(dá)來(lái)預(yù)測(cè)文檔中出現(xiàn)的單詞，以捕捉單詞間的橫向關(guān)系。

在單詞的類似與相似度任務(wù)上，這兩個(gè)模型均取得了state-of-the-art結(jié)果。

分布式表達(dá)的假設(shè)自身也有不足之處，比如不能很好地處理反義詞情形。因?yàn)榛榉戳x詞的兩個(gè)詞，經(jīng)常出現(xiàn)在同樣的上下文中，所以往往反義詞之間的相似度反而高于其他近義詞。針對(duì)此問(wèn)題，主流思路都是利用外部的知識(shí)庫(kù)來(lái)輔助單詞的表達(dá)學(xué)習(xí)。這類工作的思路大體類似，都是利用外部知識(shí)庫(kù)如Wikipedia、WordNet約束單詞表達(dá)的學(xué)習(xí)過(guò)程，比如讓更新同義詞表達(dá)、限制反義詞表達(dá)等。此外，分布式表達(dá)的假設(shè)也不能很好地處理那些出現(xiàn)次數(shù)很少的單詞。因?yàn)檫@些單詞的上下文信息太少，不足以學(xué)到一個(gè)很好的表達(dá)。比較直接的辦法就是直接利用語(yǔ)素信息來(lái)改善單詞的表達(dá)，如果兩個(gè)單詞具有相同的詞根，則其語(yǔ)義相似。

另外，目前單詞的表達(dá)學(xué)習(xí)主要還是無(wú)監(jiān)督的學(xué)習(xí)。因此，評(píng)價(jià)更多地集中在對(duì)單詞本身的語(yǔ)義表達(dá)性能，如各種word similarity和word analogy任務(wù)。然而，這些任務(wù)并不能反映單詞表達(dá)在真實(shí)的自然語(yǔ)言處理或者信息檢索任務(wù)中的性能，所以更應(yīng)該使用真實(shí)的任務(wù)作為實(shí)驗(yàn)。但這樣帶來(lái)的一個(gè)問(wèn)題就是前端表達(dá)學(xué)習(xí)作為無(wú)監(jiān)督學(xué)習(xí)，與后端的具體任務(wù)是脫節(jié)的。這也導(dǎo)致許多研究反映，雖然不同的單詞學(xué)習(xí)模型在單詞表達(dá)任務(wù)上可能性能差異很大，但是在具體實(shí)際任務(wù)中并沒(méi)有顯著差異。但如果直接根據(jù)任務(wù)設(shè)計(jì)有監(jiān)督的單詞學(xué)習(xí)模型，又會(huì)面臨可用的標(biāo)注數(shù)據(jù)太少的問(wèn)題。一種可行的方案可能是先利用大規(guī)模數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí)，得到初始的單詞表達(dá)，然后根據(jù)具體的監(jiān)督任務(wù)調(diào)整單詞表達(dá)，以期望實(shí)現(xiàn)更好的應(yīng)用性能。

2.3 網(wǎng)頁(yè)排序?qū)W習(xí)

網(wǎng)絡(luò)搜索引擎已經(jīng)成為人們?nèi)粘Ｉ钪械闹匾ぞ?#xff0c;在搜索引擎的各個(gè)組成部分中，排序模型直接決定了人們看到的搜索結(jié)果，因此這種模型對(duì)于搜索引擎的性能起著至關(guān)重要的作用。

在信息檢索發(fā)展的歷史上，人們提出了很多排序模型，如進(jìn)行相關(guān)性排序的BM25模型^[17]和語(yǔ)言模型^[18]以及進(jìn)行搜索結(jié)果多樣化的MMR^[19]模型等。這些模型對(duì)推動(dòng)搜索技術(shù)發(fā)展起到了一定作用，但是也存在一些問(wèn)題：有的模型建立在人們對(duì)搜索問(wèn)題的主觀理解之上，需要根據(jù)經(jīng)驗(yàn)人為設(shè)定模型參數(shù)；還有一些模型雖然可以從大量網(wǎng)頁(yè)中學(xué)習(xí)，不斷調(diào)整參數(shù)，但無(wú)法利用用戶的反饋信息對(duì)模型參數(shù)進(jìn)行優(yōu)化。由于用戶提交不同的查詢?cè)~或者不同用戶提交相同的查詢?cè)~都有可能代表不同的信息需求，因此僅從研究者的主觀理解或者僅從網(wǎng)頁(yè)數(shù)據(jù)中學(xué)習(xí)排序模型，都無(wú)法很好地解決復(fù)雜的網(wǎng)絡(luò)搜索問(wèn)題。在這樣的背景下，近年來(lái)研究人員開(kāi)始嘗試使用有監(jiān)督的機(jī)器學(xué)習(xí)方法，即從用戶標(biāo)注或者反饋中學(xué)習(xí)最優(yōu)的相關(guān)性排序模型，稱為排序?qū)W習(xí)（learning to rank）^[20]。

為了學(xué)習(xí)最優(yōu)的相關(guān)性排序模型，需要一個(gè)訓(xùn)練數(shù)據(jù)集。該集合包含隨機(jī)抽取的查詢?cè)~、與查詢?cè)~有關(guān)的網(wǎng)頁(yè)以及這些網(wǎng)頁(yè)的標(biāo)注。這些標(biāo)注可能是由用戶顯式提供的絕對(duì)信息，如一個(gè)網(wǎng)頁(yè)和查詢?cè)~是非常相關(guān)、相關(guān)還是不相關(guān)等；也可能是從搜索引擎的用戶行為中挖掘出來(lái)的相對(duì)信息，如某個(gè)網(wǎng)頁(yè)是否比另外一個(gè)網(wǎng)頁(yè)更加相關(guān)。為了從這些標(biāo)注數(shù)據(jù)中學(xué)到最優(yōu)的排序模型，通常需要定義3個(gè)部分：一是表征網(wǎng)頁(yè)信息的特征向量（如詞頻、頁(yè)面分級(jí)（PageRank）等）和網(wǎng)頁(yè)間關(guān)系的特征向量（如網(wǎng)頁(yè)相似度等）；二是模型的基本形式（如線性、非線性等）；三是用來(lái)控制學(xué)習(xí)過(guò)程的損失函數(shù)（它衡量了當(dāng)前模型的排序結(jié)果和標(biāo)注信息之間的差別）。極小化損失函數(shù)可以得到與標(biāo)注數(shù)據(jù)最吻合的模型參數(shù)。經(jīng)過(guò)優(yōu)化的模型將用于回答新的查詢?cè)~。給定新的查詢?cè)~，首先通過(guò)倒排表找到包含該查詢?cè)~的網(wǎng)頁(yè)，然后為每個(gè)網(wǎng)頁(yè)提取特征向量，并將排序模型應(yīng)用到這些特征向量上，從而給每個(gè)網(wǎng)頁(yè)輸出一個(gè)分?jǐn)?shù)，最后將網(wǎng)頁(yè)按照分?jǐn)?shù)的降序進(jìn)行排列并返回給用戶。

目前針對(duì)相關(guān)性的排序?qū)W習(xí)算法效果已經(jīng)做得很好，部分算法甚至還應(yīng)用到了搜索引擎的部分模塊中。然而一個(gè)好的排序不僅依賴于相關(guān)性，多樣化也是一個(gè)重要考慮。其目標(biāo)在于在排序結(jié)果的頂部盡量多地展現(xiàn)不同子話題的網(wǎng)頁(yè)，因此在排序的同時(shí)需要考慮網(wǎng)頁(yè)間的相似度。然而，這種解決方案的難點(diǎn)在于傳統(tǒng)的排序算法都以查詢和單個(gè)文檔作為輸入，計(jì)算查詢—文檔相關(guān)性很難將文檔間的關(guān)系融入排序模型內(nèi)。

為了解決上述問(wèn)題，有的研究者們直接利用結(jié)構(gòu)化支持向量機(jī)直接優(yōu)化多樣化排序評(píng)價(jià)準(zhǔn)則^[21]，樂(lè)（Yue）等^[22]也利用結(jié)構(gòu)化支持向量機(jī)尋找最佳文檔子集。然而，由于上述算法沒(méi)有對(duì)排序模型進(jìn)行本質(zhì)上的改變，模型仍然難以勝任多樣化排序任務(wù)。

朱（Zhu）等人^[23]提出了關(guān)系排序?qū)W習(xí)模型R-LTR，其基本思想是：利用傳統(tǒng)的搜索結(jié)果多樣化模型MMR的思想，使用序列文檔選擇的方式構(gòu)造文檔排序，即從序列的頂部開(kāi)始，依次選擇排在每一個(gè)位置上的文檔。在每一次進(jìn)行文檔選擇時(shí)，考慮查詢—文檔的相關(guān)性和當(dāng)前文檔與已選擇文檔間的相似性，如圖4所示。

因此，R-LTR模型的參數(shù)分成兩個(gè)部分：第一部分為相關(guān)性參數(shù)，其對(duì)應(yīng)的特征描述了與查詢—文檔之間匹配的情況和文檔的重要性等；第二部分為文檔關(guān)系參數(shù)，其對(duì)應(yīng)的特征描述了文檔—文檔之間的關(guān)系，包括文檔在話題、詞等級(jí)別的相似性等。在訓(xùn)練過(guò)程中，R-LTR通過(guò)最大化似然的方式進(jìn)行參數(shù)估計(jì)。在TREC標(biāo)注數(shù)據(jù)集合上的測(cè)試表明，在搜索結(jié)果多樣化的任務(wù)上，R-LTR能夠超過(guò)傳統(tǒng)的排序?qū)W習(xí)模型，取得了顯著的效果提升。

夏（Xia）等人^[24]針對(duì)R-LTR算法只利用了“正例”排序（如α-NDCG=1的最佳排序）進(jìn)行訓(xùn)練的問(wèn)題，提出了PAMM算法，其主要思想是：同時(shí)利用“正例”排序和“負(fù)例”排序進(jìn)行訓(xùn)練；在排序過(guò)程中直接優(yōu)化多樣化排序評(píng)價(jià)準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明，上述改進(jìn)方法進(jìn)一步改善了搜索結(jié)果多樣化的排序效果，且使得算法具有優(yōu)化制定的評(píng)價(jià)準(zhǔn)則的能力。

盡管上述各項(xiàng)工作取得了一定的成功，但是由于搜索結(jié)果多樣化任務(wù)本身的復(fù)雜性，且評(píng)價(jià)準(zhǔn)則本身不連續(xù)、不可導(dǎo)，使得直接對(duì)其進(jìn)行優(yōu)化仍然存在很多困難。相關(guān)的學(xué)習(xí)算法可能無(wú)法收斂或者很容易陷入局部極值點(diǎn)。總體上講，這個(gè)方向還面臨很多挑戰(zhàn)，需要不斷探索。另外，是否能夠利用深度學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)多樣性排序的特征和樣本之間的依賴關(guān)系也是一個(gè)非常有前景的方向。

3 結(jié)束語(yǔ)

綜上所述，內(nèi)容分析成為理解網(wǎng)絡(luò)大數(shù)據(jù)的重要手段。其中，短文本主題建模、單詞表達(dá)學(xué)習(xí)和多樣性排序?qū)W習(xí)是網(wǎng)絡(luò)大數(shù)據(jù)內(nèi)容分析的熱點(diǎn)問(wèn)題。隨著網(wǎng)絡(luò)大數(shù)據(jù)的發(fā)展，這些方向還存在很多值得探討的科學(xué)問(wèn)題，例如多源異構(gòu)數(shù)據(jù)的主題建模、如何有效利用監(jiān)督信息得到特定主題的單詞表達(dá)以及如何使用深度學(xué)習(xí)的方法來(lái)自動(dòng)學(xué)習(xí)多樣性的特征等。這些問(wèn)題的解決有助于更好地理解和挖掘網(wǎng)絡(luò)大數(shù)據(jù)，從而達(dá)到內(nèi)容分析的目的，為精準(zhǔn)檢索、推薦等應(yīng)用提供支持。

參考文獻(xiàn)

[1] Hofmann T. Probabilistic latent semanticanalysis. Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, Stockholm, Sweden, 1999

[2] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993~1022

[3] Metzler D, Dumais S, Meek C. Similarity measuresfor short segments of text. Proceedings of the 29th European Conference on IR Research, Rome, Italy, 2007: 16~27

[4] Hong L, Davison B. Empirical study of topic modeling in Twitter. Proceedings of the 1st Workshop on Social Media Analytics,Washington DC, USA, 2010: 80~88

[5] Zhao W, Jiang J, Weng J, et al. Comparing Twitter and traditional media using topic models. Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland, 2011: 338~349

[6] Lakkaraju H, Bhattacharya I, Bhattacharyya C.Dynamic multi-relational Chinese restaurant process for analyzing influences on users in social media. Proceedings of the 12th IEEE International Conference on Data Mining, Brussels, Belgium, 2012

[7] Yan X H, Guo J F, Lan Y Y, et al. A biterm topicmodel for short texts. Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, 2013: 1445~1456

[8] Cheng X Q, Yan X H, Lan Y Y, et al. BTM: topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering,2014, 26(12): 2928~2941

[9] Yan X H, Guo J F, Lan Y Y, et al. Aprobabilistic model for bursty topic discovery in microblogs. Proceedings ofthe 29th AAAI Conference on Artificial Intelligence, Austin Texas, USA, 2015

[10] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model. Journal of Machine Learning Research,2003, 3: 1137~1155

[11] Morin F, Bengio Y. Hierarchical probabilistic neural network language model. Proceedings of the 10th International Workshopon Artificial Intelligence and Statistics, Barbados, 2005

[12] Mnih A, Hinton G. Three new graphical models for statistical language modelling. Proceedings of the 24th International Conference on Machine Learning, New York, NY, USA, 2007: 641~648

[13] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Proceedings of the 23rd Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2009

[14] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noise-contrastive estimation. Proceedings of the 27rd Annual Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada,USA, 2013

[15] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. Proceedings of Workshop of ICLR, Arizona, USA, 2013

[16] Sun F, Guo J F, Lan Y Y, et al. Learning word representation by jointly modeling syntagmatic and paradigmatic relations.Proceedings of the 53rd Annual Metting of the Association for Computational Linguistics, Beijing, China, 2015

[17] Robertson S E. Overview of the okapi projects.Journal of Documentation, 1997, 53(1): 3~7

[18] Zhai C, Lafferty J. A study of smoothing methods for language models applied to Ad Hoc information retrieval.Proceedings of the 24th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, New Orleans, USA, 2001: 334~342

[19] Carbonell J, Goldstein J. The use of mmr,diversity-based reranking for reordering documents and producing summaries.Proceedings of the 21st Annual International ACM SIGIR Conference on Research& Development on Information Retrieval, Melbourne, Australia, 1998: 335~336

[20] Liu T Y. Learning to Rank for Information Retrieval. New York: Springer-Verlag New York Inc, 2011

[21] Liang S S, Ren Z C, Maarten D R. Personalized search result diversification via structured learning. Proceedings of the 20th ACM SIGKDD, New York, USA, 2014: 751~760

[22] Yue Y, Joachims T. Predicting diverse subsetsusing structural svms. Proceedings of the 25th ICML, Helsinki, Finland,2008:1224~1231

[23] Zhu Y, Lan Y, Guo J, et al. Learning for search result diversification. Proceedings of the 37th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Gold Coast,QLD, Australia, 2014: 293~302

[24] Xia L, Xu J, Lan Y Y, et al. Learning maximal marginal relevance model via directly optimizing diversity evaluation measures.Proceedings of the 38th Annual International ACM SIGIR Conference on Researchand Development in Information Retrieval, Santiago, Chile, 2015

總結(jié)

以上是生活随笔為你收集整理的《大数据》2015年第3期“网络大数据专题”——网络大数据的文本内容分析的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： live555实现视频格式数据流化处理
下一篇：【软件测试】软件可测试性

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

《大数据》2015年第3期“网络大数据专题”——网络大数据的文本内容分析

總結(jié)