《短文本数据理解(1)》一1.3 短文本理解框架
本節(jié)書摘來自華章出版社《短文本數(shù)據(jù)理解(1)》一書中的第1章,第1.3節(jié),作者王仲遠(yuǎn),更多章節(jié)內(nèi)容可以訪問云棲社區(qū)“華章計算機(jī)”公眾號查看
1.3 短文本理解框架
針對上述研究問題與研究現(xiàn)狀,本書將圍繞短文本理解的各項需求及挑戰(zhàn),重點(diǎn)介紹顯性模型中基于概念化模型進(jìn)行短文本理解中的關(guān)鍵性技術(shù),如圖16所示。
在語義網(wǎng)絡(luò)層,主要是構(gòu)建理解短文本所需要的額外知識源,即知識庫系統(tǒng)或者語義網(wǎng)絡(luò)。知識庫包含概念、實(shí)體、屬性和關(guān)系,當(dāng)關(guān)系足夠豐富時,便構(gòu)成了語義網(wǎng)絡(luò),它在許多應(yīng)用中的作用日漸突出。其中,知識庫中的概念和實(shí)體關(guān)系已經(jīng)有較為充分的研究,因此本書主要介紹基于概率的屬性提取與推導(dǎo),從而完善整個語義網(wǎng)絡(luò),以支持其上的模型構(gòu)建。
在概念化層,本書首先介紹利用語義網(wǎng)絡(luò)構(gòu)建單實(shí)體概念化模型。提出一種基于典型性和點(diǎn)互信息(PMI)的基本層次概念化(Basiclevel Conceptualization,BLC)方法,將單實(shí)體映射到一組最能刻畫這個實(shí)體各種特征的概念上,并附著于概率值,以支持短文本概念化。基于概念化的短文本理解的目標(biāo)是把短文本(如搜索引擎中的查詢關(guān)鍵字)所包含的實(shí)體映射到語義網(wǎng)絡(luò)中的概念上。其中需要解決的核心問題是利用短文本中有限的上下文對詞義進(jìn)行消歧。利用動詞、形容詞、實(shí)體及其屬性,首先從大量的網(wǎng)絡(luò)語料中挖掘出它們的各種關(guān)系。再利用這些挖掘得到的知識,提出一個整體概念化模型,使用基于隨機(jī)游走的迭代算法將查詢中的詞語概念化。
利用上述兩個針對單實(shí)體以及短文本的模型,可以進(jìn)一步解決基于概念化的短文本主題詞與修飾詞檢測。在短文本理解中,主題詞與修飾詞的檢測是一個非常重要的問題。然而在許多情況下,短文本(如搜索引擎中的查詢關(guān)鍵字等)并不遵守語法規(guī)則。現(xiàn)有方法通常基于粗粒度、領(lǐng)域相關(guān),以及需要大量訓(xùn)練數(shù)據(jù)。本書將介紹一種基于語義的短文本主題詞與修飾詞檢測方法。此方法首先從搜索日志中獲取大量實(shí)體級別的“主題詞修飾詞”對,然后通過概念化模型將這些實(shí)體對歸納至概念級別,最后通過這些精細(xì)且精確的帶權(quán)重的概念模式來進(jìn)行主題詞與修飾詞的檢測。
此外,單實(shí)體概念化模型也能夠幫助解決基于概念化的詞相似度計算。計算兩個詞之間的相似度對很多文本分析理解相關(guān)的應(yīng)用至關(guān)重要。目前,這一任務(wù)主要有兩種解決方法:基于知識的方法和基于文集的方法。然而,這些方法主要應(yīng)用在單詞之間的語義相似度計算,無法擴(kuò)展到多個單詞組成的多詞表達(dá)式或文本。針對此問題,本書將介紹一種基于語義網(wǎng)絡(luò)的詞相似度計算方法。該語義網(wǎng)絡(luò)基于十億級的網(wǎng)頁文本創(chuàng)建,包含百萬級的概念。本書首先闡述如何將兩個詞映射到概念空間,進(jìn)而介紹一種概念聚類的方法以提高相似度度量的準(zhǔn)確性。
在應(yīng)用層,利用概念化層所構(gòu)建的各個模型,可以有效應(yīng)用在不同的任務(wù)中,如廣告關(guān)鍵字匹配、搜索排序、查詢推薦、短文本聚類、智能問答系統(tǒng)、Web表格理解等。本書選取搜索廣告應(yīng)用場景,展示了一種基于概念化的海量競價關(guān)鍵字匹配技術(shù)。搜索廣告是搜索引擎的主要收入來源。廣告商以關(guān)鍵字對他們的廣告競價,而搜索引擎在競價關(guān)鍵字基礎(chǔ)上通過匹配用戶查詢進(jìn)行相關(guān)廣告推送。由于查詢和競價關(guān)鍵字都是短文本并且不能由標(biāo)準(zhǔn)的詞袋(bagofwords)方法建模,大部分現(xiàn)有方法是利用用戶行為數(shù)據(jù)(例如點(diǎn)擊數(shù)據(jù)、會話數(shù)據(jù)等)去填補(bǔ)在匹配競價關(guān)鍵字與用戶查詢上的語義差距。然而這種方法卻不能處理沒有很多用戶行為數(shù)據(jù)的長尾查詢。盡管它特殊罕見,長尾查詢整體上卻占據(jù)相當(dāng)大的查詢量,并且是搜索引擎收入的一個重要來源。本書將介紹一種匹配查詢和競價關(guān)鍵字的新方法。利用概率分類和大型同現(xiàn)網(wǎng)絡(luò),把短文本概念化成一組相關(guān)概念。為了處理大量查詢和海量關(guān)鍵字,創(chuàng)建概念的語義索引:通過測量它們在概率空間的相似度,對于給定的查詢選擇相關(guān)的競價關(guān)鍵字。
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的《短文本数据理解(1)》一1.3 短文本理解框架的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Abaqus GUI程序开发指南(Py
- 下一篇: 《微信小程序开发入门精要》——导读