《短文本数据理解(1)》一1.3 短文本理解框架
本節(jié)書摘來(lái)自華章出版社《短文本數(shù)據(jù)理解(1)》一書中的第1章,第1.3節(jié),作者王仲遠(yuǎn),更多章節(jié)內(nèi)容可以訪問(wèn)云棲社區(qū)“華章計(jì)算機(jī)”公眾號(hào)查看
1.3 短文本理解框架
針對(duì)上述研究問(wèn)題與研究現(xiàn)狀,本書將圍繞短文本理解的各項(xiàng)需求及挑戰(zhàn),重點(diǎn)介紹顯性模型中基于概念化模型進(jìn)行短文本理解中的關(guān)鍵性技術(shù),如圖16所示。
在語(yǔ)義網(wǎng)絡(luò)層,主要是構(gòu)建理解短文本所需要的額外知識(shí)源,即知識(shí)庫(kù)系統(tǒng)或者語(yǔ)義網(wǎng)絡(luò)。知識(shí)庫(kù)包含概念、實(shí)體、屬性和關(guān)系,當(dāng)關(guān)系足夠豐富時(shí),便構(gòu)成了語(yǔ)義網(wǎng)絡(luò),它在許多應(yīng)用中的作用日漸突出。其中,知識(shí)庫(kù)中的概念和實(shí)體關(guān)系已經(jīng)有較為充分的研究,因此本書主要介紹基于概率的屬性提取與推導(dǎo),從而完善整個(gè)語(yǔ)義網(wǎng)絡(luò),以支持其上的模型構(gòu)建。
在概念化層,本書首先介紹利用語(yǔ)義網(wǎng)絡(luò)構(gòu)建單實(shí)體概念化模型。提出一種基于典型性和點(diǎn)互信息(PMI)的基本層次概念化(Basiclevel Conceptualization,BLC)方法,將單實(shí)體映射到一組最能刻畫這個(gè)實(shí)體各種特征的概念上,并附著于概率值,以支持短文本概念化?;诟拍罨亩涛谋纠斫獾哪繕?biāo)是把短文本(如搜索引擎中的查詢關(guān)鍵字)所包含的實(shí)體映射到語(yǔ)義網(wǎng)絡(luò)中的概念上。其中需要解決的核心問(wèn)題是利用短文本中有限的上下文對(duì)詞義進(jìn)行消歧。利用動(dòng)詞、形容詞、實(shí)體及其屬性,首先從大量的網(wǎng)絡(luò)語(yǔ)料中挖掘出它們的各種關(guān)系。再利用這些挖掘得到的知識(shí),提出一個(gè)整體概念化模型,使用基于隨機(jī)游走的迭代算法將查詢中的詞語(yǔ)概念化。
利用上述兩個(gè)針對(duì)單實(shí)體以及短文本的模型,可以進(jìn)一步解決基于概念化的短文本主題詞與修飾詞檢測(cè)。在短文本理解中,主題詞與修飾詞的檢測(cè)是一個(gè)非常重要的問(wèn)題。然而在許多情況下,短文本(如搜索引擎中的查詢關(guān)鍵字等)并不遵守語(yǔ)法規(guī)則?,F(xiàn)有方法通?;诖至6?、領(lǐng)域相關(guān),以及需要大量訓(xùn)練數(shù)據(jù)。本書將介紹一種基于語(yǔ)義的短文本主題詞與修飾詞檢測(cè)方法。此方法首先從搜索日志中獲取大量實(shí)體級(jí)別的“主題詞修飾詞”對(duì),然后通過(guò)概念化模型將這些實(shí)體對(duì)歸納至概念級(jí)別,最后通過(guò)這些精細(xì)且精確的帶權(quán)重的概念模式來(lái)進(jìn)行主題詞與修飾詞的檢測(cè)。
此外,單實(shí)體概念化模型也能夠幫助解決基于概念化的詞相似度計(jì)算。計(jì)算兩個(gè)詞之間的相似度對(duì)很多文本分析理解相關(guān)的應(yīng)用至關(guān)重要。目前,這一任務(wù)主要有兩種解決方法:基于知識(shí)的方法和基于文集的方法。然而,這些方法主要應(yīng)用在單詞之間的語(yǔ)義相似度計(jì)算,無(wú)法擴(kuò)展到多個(gè)單詞組成的多詞表達(dá)式或文本。針對(duì)此問(wèn)題,本書將介紹一種基于語(yǔ)義網(wǎng)絡(luò)的詞相似度計(jì)算方法。該語(yǔ)義網(wǎng)絡(luò)基于十億級(jí)的網(wǎng)頁(yè)文本創(chuàng)建,包含百萬(wàn)級(jí)的概念。本書首先闡述如何將兩個(gè)詞映射到概念空間,進(jìn)而介紹一種概念聚類的方法以提高相似度度量的準(zhǔn)確性。
在應(yīng)用層,利用概念化層所構(gòu)建的各個(gè)模型,可以有效應(yīng)用在不同的任務(wù)中,如廣告關(guān)鍵字匹配、搜索排序、查詢推薦、短文本聚類、智能問(wèn)答系統(tǒng)、Web表格理解等。本書選取搜索廣告應(yīng)用場(chǎng)景,展示了一種基于概念化的海量競(jìng)價(jià)關(guān)鍵字匹配技術(shù)。搜索廣告是搜索引擎的主要收入來(lái)源。廣告商以關(guān)鍵字對(duì)他們的廣告競(jìng)價(jià),而搜索引擎在競(jìng)價(jià)關(guān)鍵字基礎(chǔ)上通過(guò)匹配用戶查詢進(jìn)行相關(guān)廣告推送。由于查詢和競(jìng)價(jià)關(guān)鍵字都是短文本并且不能由標(biāo)準(zhǔn)的詞袋(bagofwords)方法建模,大部分現(xiàn)有方法是利用用戶行為數(shù)據(jù)(例如點(diǎn)擊數(shù)據(jù)、會(huì)話數(shù)據(jù)等)去填補(bǔ)在匹配競(jìng)價(jià)關(guān)鍵字與用戶查詢上的語(yǔ)義差距。然而這種方法卻不能處理沒(méi)有很多用戶行為數(shù)據(jù)的長(zhǎng)尾查詢。盡管它特殊罕見(jiàn),長(zhǎng)尾查詢整體上卻占據(jù)相當(dāng)大的查詢量,并且是搜索引擎收入的一個(gè)重要來(lái)源。本書將介紹一種匹配查詢和競(jìng)價(jià)關(guān)鍵字的新方法。利用概率分類和大型同現(xiàn)網(wǎng)絡(luò),把短文本概念化成一組相關(guān)概念。為了處理大量查詢和海量關(guān)鍵字,創(chuàng)建概念的語(yǔ)義索引:通過(guò)測(cè)量它們?cè)诟怕士臻g的相似度,對(duì)于給定的查詢選擇相關(guān)的競(jìng)價(jià)關(guān)鍵字。
與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的《短文本数据理解(1)》一1.3 短文本理解框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 《Abaqus GUI程序开发指南(Py
- 下一篇: 《微信小程序开发入门精要》——导读