當(dāng)前位置：首頁(yè) > 运维知识 > windows >内容正文

windows

基于内容推荐系统中的常识 [ACM暑校]

發(fā)布時(shí)間：2025/3/15 windows 39 豆豆

生活随笔收集整理的這篇文章主要介紹了基于内容推荐系统中的常识 [ACM暑校] 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

How to represent content to improve information access and build a new generation of services for user modeling and recommender systems?

1. 內(nèi)容主旨

Why？ ......? 1. Why do we need intelligent information access? （為什么我們需要只能信息訪問(wèn)） 2.?Why do we need content? （為什么我們需要內(nèi)容） 3.?Why do we need semantics? （為什么我們需要語(yǔ)義）
How？ ...... 1.??How to introduce semantics? （如何介紹語(yǔ)義） 2.?Basics of Natural Language Processing （自然語(yǔ)言處理基礎(chǔ)） 3.?Encoding exogenous semantics,i.e. explicit semantics （編碼外部語(yǔ)義，如顯式語(yǔ)義） 4.?Encoding endogenous semantics, i.e. implicit semantics （編碼內(nèi)部語(yǔ)義，如隱式語(yǔ)義）
What？ ...... 1.?Explanation of Recommendations （推薦系統(tǒng)的解釋） 2.?Serendipity in Recommender Systems （推薦系統(tǒng)的驚喜度）

2. Why？

Why do we need intelligent information access?

由于信息負(fù)載（information overload），生理上不可能實(shí)時(shí)跟蹤信息流。

信息負(fù)載示例

Challenge：為了有效地應(yīng)對(duì)信息超載和有限理性，我們需要對(duì)信息流進(jìn)行過(guò)濾(Filter)。因此，我們需要智能信息訪問(wèn)的技術(shù)和算法。

左側(cè)：搜索引擎（信息檢索 information retrieval）成功案例；? 右側(cè)：推薦系統(tǒng)（信息過(guò)濾 information filter）成功案例

Why do we need content?

在推薦系統(tǒng)領(lǐng)域，其實(shí)基于內(nèi)容的推薦并不是必須的。我們都知道，目前存在基于協(xié)同濾波（矩陣分解、張量分解）的推薦系統(tǒng)、基于內(nèi)容的推薦系統(tǒng)、混合推薦系統(tǒng)等。但是，內(nèi)容的存在可以補(bǔ)償協(xié)同濾波的劣勢(shì)，如數(shù)據(jù)稀疏性問(wèn)題、

協(xié)同濾波目前存在的四大窘境：數(shù)據(jù)稀疏性問(wèn)題；新物品推薦問(wèn)題；模型缺少透明性；糟糕的可解釋性；

原因大概有以下三個(gè)方面：

（1）通俗地講，（利用社交媒體上傳播的信息等）擴(kuò)展和改進(jìn)用戶建模。（2）克服典型的協(xié)同過(guò)濾和矩陣分解問(wèn)題。（3）因?yàn)樗阉饕娌荒軟](méi)有內(nèi)容而工作。

Why do we need semantics?

深層理性要求對(duì)文本內(nèi)容所傳達(dá)的信息有深刻的理解。為了實(shí)現(xiàn)這一目標(biāo)，提高用戶圖譜/畫(huà)像的質(zhì)量和智能信息訪問(wèn)平臺(tái)的有效性至關(guān)重要。（1）通過(guò)將物品描述與用戶興趣進(jìn)行匹配而進(jìn)行推薦；（2）推薦是通過(guò)將存儲(chǔ)在用戶畫(huà)像中的功能與要推薦的項(xiàng)目的功能相匹配而生成。

單純依靠文本是不可靠的，因?yàn)槲谋久黠@存在一詞多義、文本意象等。如下所示：

單純的文本不能輔助情景理解，此時(shí)需要語(yǔ)義提取

很明顯：（1）單純的基于內(nèi)容的表示不能處理多義詞；（2）純基于內(nèi)容的表示很容易將推薦系統(tǒng)推向兩個(gè)極端! （3）多詞的概念（同義詞），如Artificial intelligence、AI等；（4）基于內(nèi)容的推薦系統(tǒng)是語(yǔ)言依賴性的（如英語(yǔ)、漢語(yǔ)、德文），然而基于語(yǔ)義的推薦系統(tǒng)是不受語(yǔ)言限制的。

因此，研究基于語(yǔ)義的推薦系統(tǒng)，有以下好處：

（1）In general: to improve content representation in intelligent information access platforms；（2）To avoid typical issues of
natural language representations (polysemy, synonymy, multi-word concepts, etc.) （3）To model user preferences in an effective way （4）To better understand the information spread on social media （5）To provide multilingual recommendations

3. How？

How to introduce semantics?

如何將我們連接到我們正在尋找的信息（搜索任務(wù)）或我們想接觸的信息（建議和用戶建模任務(wù)）？（1）我們需要一些“智能”支持（作為智能信息訪問(wèn)技術(shù)）（2）我們需要更好地理解和表示內(nèi)容。最根本的基礎(chǔ)就是自然語(yǔ)言處理。

Basics of Natural Language Processing？

（1）Normalization?去掉不需要的字符/標(biāo)記(如HTML/XML標(biāo)記、標(biāo)點(diǎn)符號(hào)、數(shù)字等)；（2）tokenization?將文本分解為token（分詞）（3）?stopword removal?排除語(yǔ)義內(nèi)容較少的常用詞；（4）?lemmatization?將變體形式減少為基形式，例如am、are、is->be （5）?stemming?將術(shù)語(yǔ)簡(jiǎn)化為它們的“根”，例如automate(s), automatic, automation 都簡(jiǎn)化為automat。

基本NLP處理方式

對(duì)文本內(nèi)容進(jìn)行簡(jiǎn)單的NLP處理后，我們需要給每個(gè)特征賦予權(quán)重，下面展示了使用TF-IDF（terms frequency – inverse document frequency ，詞頻-逆文檔頻率）進(jìn)行特征權(quán)重賦值。術(shù)語(yǔ)的權(quán)重就是通過(guò)術(shù)語(yǔ)頻率權(quán)重和反比文檔頻率權(quán)重的乘積得到。

tf：術(shù)語(yǔ)在文檔中出現(xiàn)的次數(shù)；idf：取決于集合中術(shù)語(yǔ)的稀有性；tf-idf：隨著文檔中出現(xiàn)的次數(shù)和集合中術(shù)語(yǔ)的稀有性而增加。

后面的處理就是傳統(tǒng)的機(jī)器學(xué)習(xí)內(nèi)容，一般通過(guò)Vector Space Model 和?Similarity between vectors進(jìn)行處理。但是這種以單詞為核心的內(nèi)容推薦系統(tǒng)性能往往不好，以為單詞難以表征內(nèi)容的語(yǔ)義，或者說(shuō)文章的內(nèi)容主旨。因此，更加合理的內(nèi)容使用方式，應(yīng)該是關(guān)注文本概念/主旨，而并不是僅僅是關(guān)鍵詞。

Exogenous semantics?,i.e. explicit semantics?&?Endogenous semantics, i.e. implicit semantics

語(yǔ)義表示 = 顯式語(yǔ)義 + 隱式語(yǔ)義；顯式語(yǔ)義：基于外部知識(shí)的集成的自上而下的方法來(lái)表示內(nèi)容，能夠在內(nèi)容表達(dá)中提供語(yǔ)言、文化和背景知識(shí)。隱式語(yǔ)義：自下而上的方法，通過(guò)分析一個(gè)詞在普通和具體語(yǔ)言行為背景下的用法規(guī)則來(lái)確定該詞的含義。

Encoding exogenous semantics,i.e. explicit semantics

（1）通過(guò)映射描述（語(yǔ)義概念）物品的特征引入語(yǔ)義；（2）通過(guò)將物品鏈接到知識(shí)圖來(lái)引入語(yǔ)義；

Encoding endogenous semantics, i.e. implicit semantics

其實(shí)，我們也可以直接利用大量的內(nèi)容學(xué)習(xí)單詞的表示。根據(jù)術(shù)語(yǔ)用法學(xué)習(xí)的語(yǔ)義稱為“distributional”。Distributional 假設(shè)：在類(lèi)似內(nèi)容中使用的術(shù)語(yǔ)具有相似的含義。

Distributional Semantics（分布式語(yǔ)義）：一個(gè)詞的意思取決于它的用法，通過(guò)分析大量的文本數(shù)據(jù)語(yǔ)料庫(kù)，可以推斷出有關(guān)術(shù)語(yǔ)用法（含義）的信息。例如：Beer and wine, dog and cat share a similar meaning since they are often used in similar contexts。

context 用粒度表示

分布式語(yǔ)義的好處在于：（1）我們可以利用數(shù)據(jù)的語(yǔ)料庫(kù)直接學(xué)習(xí)語(yǔ)言術(shù)語(yǔ)的語(yǔ)義向量空間表示；（2）輕量級(jí)語(yǔ)義，未正式定義；（3）高度的靈活性，每一個(gè)術(shù)語(yǔ)都可以用一個(gè)向量進(jìn)行表示；（4）內(nèi)容具有不同的粒度；?

分布式語(yǔ)義的弊端在于：（1）需要大量的內(nèi)容進(jìn)行學(xué)習(xí)；（2）這個(gè)矩陣非常的大，很難去構(gòu)建（特征太多，需要去裁減）

4. What ?

Explanation of Recommendations

可解釋性的目標(biāo)：（1）透明度：解釋系統(tǒng)的工作原理；（2）可審查性：允許用戶告訴系統(tǒng)它是錯(cuò)誤的；（3）說(shuō)服力：說(shuō)服用戶嘗試或購(gòu)買(mǎi)；（4）真實(shí)性：提高用戶對(duì)系統(tǒng)的信心；（5）有效性：幫助用戶做出正確的決策；（6）效率：幫助用戶更快地做出決策；（7）滿意度：用戶增加使用或享受便利性；

Serendipity in Recommender Systems

Serendipity = attractive + unexpected；個(gè)性化推薦是一個(gè)好事，但是千篇一律就會(huì)讓大家感到厭煩，所以驚喜度也是推薦系統(tǒng)需要考慮的一個(gè)因素，他可以強(qiáng)化用戶粘性。但是，如何在推薦過(guò)程中引入驚喜度？很明顯，語(yǔ)義匹配不是很好的解決方案。語(yǔ)義畫(huà)像可能比基于關(guān)鍵字的配置文件提供更準(zhǔn)確的建議。

參考文獻(xiàn)：

Semantics-aware Recommender Systems：

C. Musto, G.Semeraro, M.de Gemmis, P. Lops. A Hybrid Recommendation Framework Exploiting Linked Open Data and Graph-based Features. UMAP 2017

Cross-language Recommender Systems：

F. Narducci, P. Basile, C. Musto, P. Lops, A. Caputo, M. de Gemmis, L. Iaquinta, G. Semeraro: Conceptbased item representations for a cross-lingual content-based recommendation process. Inf. Sci. 374: 15-31 (2016)

Explanations：

C. Musto, F. Narducci, P. Lops, M. de Gemmis, G. Semeraro: ExpLOD: A Framework for Explaining Recommendations based on the Linked Open Data Cloud. In Proc. of the 10th ACM Conference on Recommender Systems (RecSys '16). ACM, New York, NY, USA, 151-154.

Serendipity：

M. de Gemmis, P. Lops, G. Semeraro, C. Musto. An Investigation on the Serendipity Problem in Recommender Systems. Information Processing and Management, 2015 DOI: 10.1016/j.ipm.2015.06.008

總結(jié)

以上是生活随笔為你收集整理的基于内容推荐系统中的常识 [ACM暑校]的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：一个25岁董事长给程序员的18条忠告
下一篇：十大开源推荐系统简介 [转自oschin