當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

《短文本数据理解(1)》一1.3 短文本理解框架

發(fā)布時(shí)間：2025/3/20 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了《短文本数据理解(1)》一1.3 短文本理解框架小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本節(jié)書摘來(lái)自華章出版社《短文本數(shù)據(jù)理解(1)》一書中的第1章，第1.3節(jié)，作者王仲遠(yuǎn)，更多章節(jié)內(nèi)容可以訪問(wèn)云棲社區(qū)“華章計(jì)算機(jī)”公眾號(hào)查看

1.3 短文本理解框架

針對(duì)上述研究問(wèn)題與研究現(xiàn)狀，本書將圍繞短文本理解的各項(xiàng)需求及挑戰(zhàn)，重點(diǎn)介紹顯性模型中基于概念化模型進(jìn)行短文本理解中的關(guān)鍵性技術(shù)，如圖16所示。

在語(yǔ)義網(wǎng)絡(luò)層，主要是構(gòu)建理解短文本所需要的額外知識(shí)源，即知識(shí)庫(kù)系統(tǒng)或者語(yǔ)義網(wǎng)絡(luò)。知識(shí)庫(kù)包含概念、實(shí)體、屬性和關(guān)系，當(dāng)關(guān)系足夠豐富時(shí)，便構(gòu)成了語(yǔ)義網(wǎng)絡(luò)，它在許多應(yīng)用中的作用日漸突出。其中，知識(shí)庫(kù)中的概念和實(shí)體關(guān)系已經(jīng)有較為充分的研究，因此本書主要介紹基于概率的屬性提取與推導(dǎo)，從而完善整個(gè)語(yǔ)義網(wǎng)絡(luò)，以支持其上的模型構(gòu)建。

在概念化層，本書首先介紹利用語(yǔ)義網(wǎng)絡(luò)構(gòu)建單實(shí)體概念化模型。提出一種基于典型性和點(diǎn)互信息（PMI）的基本層次概念化（Basiclevel Conceptualization，BLC）方法，將單實(shí)體映射到一組最能刻畫這個(gè)實(shí)體各種特征的概念上，并附著于概率值，以支持短文本概念化?；诟拍罨亩涛谋纠斫獾哪繕?biāo)是把短文本（如搜索引擎中的查詢關(guān)鍵字）所包含的實(shí)體映射到語(yǔ)義網(wǎng)絡(luò)中的概念上。其中需要解決的核心問(wèn)題是利用短文本中有限的上下文對(duì)詞義進(jìn)行消歧。利用動(dòng)詞、形容詞、實(shí)體及其屬性，首先從大量的網(wǎng)絡(luò)語(yǔ)料中挖掘出它們的各種關(guān)系。再利用這些挖掘得到的知識(shí)，提出一個(gè)整體概念化模型，使用基于隨機(jī)游走的迭代算法將查詢中的詞語(yǔ)概念化。

利用上述兩個(gè)針對(duì)單實(shí)體以及短文本的模型，可以進(jìn)一步解決基于概念化的短文本主題詞與修飾詞檢測(cè)。在短文本理解中，主題詞與修飾詞的檢測(cè)是一個(gè)非常重要的問(wèn)題。然而在許多情況下，短文本（如搜索引擎中的查詢關(guān)鍵字等）并不遵守語(yǔ)法規(guī)則?，F(xiàn)有方法通?；诖至６?、領(lǐng)域相關(guān)，以及需要大量訓(xùn)練數(shù)據(jù)。本書將介紹一種基于語(yǔ)義的短文本主題詞與修飾詞檢測(cè)方法。此方法首先從搜索日志中獲取大量實(shí)體級(jí)別的“主題詞修飾詞”對(duì)，然后通過(guò)概念化模型將這些實(shí)體對(duì)歸納至概念級(jí)別，最后通過(guò)這些精細(xì)且精確的帶權(quán)重的概念模式來(lái)進(jìn)行主題詞與修飾詞的檢測(cè)。

此外，單實(shí)體概念化模型也能夠幫助解決基于概念化的詞相似度計(jì)算。計(jì)算兩個(gè)詞之間的相似度對(duì)很多文本分析理解相關(guān)的應(yīng)用至關(guān)重要。目前，這一任務(wù)主要有兩種解決方法：基于知識(shí)的方法和基于文集的方法。然而，這些方法主要應(yīng)用在單詞之間的語(yǔ)義相似度計(jì)算，無(wú)法擴(kuò)展到多個(gè)單詞組成的多詞表達(dá)式或文本。針對(duì)此問(wèn)題，本書將介紹一種基于語(yǔ)義網(wǎng)絡(luò)的詞相似度計(jì)算方法。該語(yǔ)義網(wǎng)絡(luò)基于十億級(jí)的網(wǎng)頁(yè)文本創(chuàng)建，包含百萬(wàn)級(jí)的概念。本書首先闡述如何將兩個(gè)詞映射到概念空間，進(jìn)而介紹一種概念聚類的方法以提高相似度度量的準(zhǔn)確性。

在應(yīng)用層，利用概念化層所構(gòu)建的各個(gè)模型，可以有效應(yīng)用在不同的任務(wù)中，如廣告關(guān)鍵字匹配、搜索排序、查詢推薦、短文本聚類、智能問(wèn)答系統(tǒng)、Web表格理解等。本書選取搜索廣告應(yīng)用場(chǎng)景，展示了一種基于概念化的海量競(jìng)價(jià)關(guān)鍵字匹配技術(shù)。搜索廣告是搜索引擎的主要收入來(lái)源。廣告商以關(guān)鍵字對(duì)他們的廣告競(jìng)價(jià)，而搜索引擎在競(jìng)價(jià)關(guān)鍵字基礎(chǔ)上通過(guò)匹配用戶查詢進(jìn)行相關(guān)廣告推送。由于查詢和競(jìng)價(jià)關(guān)鍵字都是短文本并且不能由標(biāo)準(zhǔn)的詞袋（bagofwords）方法建模，大部分現(xiàn)有方法是利用用戶行為數(shù)據(jù)（例如點(diǎn)擊數(shù)據(jù)、會(huì)話數(shù)據(jù)等）去填補(bǔ)在匹配競(jìng)價(jià)關(guān)鍵字與用戶查詢上的語(yǔ)義差距。然而這種方法卻不能處理沒(méi)有很多用戶行為數(shù)據(jù)的長(zhǎng)尾查詢。盡管它特殊罕見(jiàn)，長(zhǎng)尾查詢整體上卻占據(jù)相當(dāng)大的查詢量，并且是搜索引擎收入的一個(gè)重要來(lái)源。本書將介紹一種匹配查詢和競(jìng)價(jià)關(guān)鍵字的新方法。利用概率分類和大型同現(xiàn)網(wǎng)絡(luò)，把短文本概念化成一組相關(guān)概念。為了處理大量查詢和海量關(guān)鍵字，創(chuàng)建概念的語(yǔ)義索引：通過(guò)測(cè)量它們?cè)诟怕士臻g的相似度，對(duì)于給定的查詢選擇相關(guān)的競(jìng)價(jià)關(guān)鍵字。

與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證，附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的《短文本数据理解(1)》一1.3 短文本理解框架的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：《Abaqus GUI程序开发指南（Py
下一篇：《微信小程序开发入门精要》——导读

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

《短文本数据理解(1)》一1.3 短文本理解框架

1.3 短文本理解框架

總結(jié)