日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

基于内容推荐系统中的常识 [ACM暑校]

發(fā)布時間:2025/3/15 windows 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于内容推荐系统中的常识 [ACM暑校] 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

How to represent content to improve information access and build a new generation of services for user modeling and recommender systems?

1. 內(nèi)容主旨

  • Why? ......? 1. Why do we need intelligent information access? (為什么我們需要只能信息訪問) 2.?Why do we need content? (為什么我們需要內(nèi)容) 3.?Why do we need semantics? (為什么我們需要語義)
  • How? ...... 1.??How to introduce semantics? (如何介紹語義) 2.?Basics of Natural Language Processing (自然語言處理基礎(chǔ)) 3.?Encoding exogenous semantics,i.e. explicit semantics (編碼外部語義,如顯式語義) 4.?Encoding endogenous semantics, i.e. implicit semantics (編碼內(nèi)部語義,如隱式語義)
  • What? ...... 1.?Explanation of Recommendations (推薦系統(tǒng)的解釋) 2.?Serendipity in Recommender Systems (推薦系統(tǒng)的驚喜度)

2. Why?

  • Why do we need intelligent information access?

由于信息負載(information overload),生理上不可能實時跟蹤信息流。

信息負載示例

Challenge:為了有效地應對信息超載和有限理性,我們需要對信息流進行過濾(Filter)。因此,我們需要智能信息訪問的技術(shù)和算法。

左側(cè):搜索引擎(信息檢索 information retrieval)成功案例;? 右側(cè):推薦系統(tǒng)(信息過濾 information filter)成功案例
  • Why do we need content?

在推薦系統(tǒng)領(lǐng)域,其實基于內(nèi)容的推薦并不是必須的。我們都知道,目前存在基于協(xié)同濾波(矩陣分解、張量分解)的推薦系統(tǒng)、基于內(nèi)容的推薦系統(tǒng)、混合推薦系統(tǒng)等。但是,內(nèi)容的存在可以補償協(xié)同濾波的劣勢,如數(shù)據(jù)稀疏性問題、

協(xié)同濾波目前存在的四大窘境: 數(shù)據(jù)稀疏性問題; 新物品推薦問題; 模型缺少透明性;糟糕的可解釋性;

原因大概有以下三個方面:

(1)通俗地講,(利用社交媒體上傳播的信息等)擴展和改進用戶建模。(2)克服典型的協(xié)同過濾和矩陣分解問題。(3)因為搜索引擎不能沒有內(nèi)容而工作。

  • Why do we need semantics?

深層理性要求對文本內(nèi)容所傳達的信息有深刻的理解。為了實現(xiàn)這一目標,提高用戶圖譜/畫像的質(zhì)量和智能信息訪問平臺的有效性至關(guān)重要。(1)通過將物品描述與用戶興趣進行匹配而進行推薦;(2)推薦是通過將存儲在用戶畫像中的功能與要推薦的項目的功能相匹配而生成。

單純依靠文本是不可靠的,因為文本明顯存在一詞多義、文本意象等。如下所示:

單純的文本不能輔助情景理解,此時需要語義提取

很明顯:(1)單純的基于內(nèi)容的表示不能處理多義詞;(2)純基于內(nèi)容的表示很容易將推薦系統(tǒng)推向兩個極端! (3)多詞的概念(同義詞),如Artificial intelligence、AI等;(4)基于內(nèi)容的推薦系統(tǒng)是語言依賴性的(如英語、漢語、德文),然而基于語義的推薦系統(tǒng)是不受語言限制的。

因此,研究基于語義的推薦系統(tǒng),有以下好處:

(1)In general: to improve content representation in intelligent information access platforms; (2)To avoid typical issues of
natural language representations (polysemy, synonymy, multi-word concepts, etc.) (3)To model user preferences in an effective way (4)To better understand the information spread on social media (5)To provide multilingual recommendations

3. How?

  • How to introduce semantics?

如何將我們連接到我們正在尋找的信息(搜索任務)或我們想接觸的信息(建議和用戶建模任務)?(1)我們需要一些“智能”支持(作為智能信息訪問技術(shù)) (2)我們需要更好地理解和表示內(nèi)容。 最根本的基礎(chǔ)就是自然語言處理。

  • Basics of Natural Language Processing

(1)Normalization?去掉不需要的字符/標記(如HTML/XML標記、標點符號、數(shù)字等); (2)tokenization?將文本分解為token(分詞) (3)?stopword removal?排除語義內(nèi)容較少的常用詞; (4)?lemmatization?將變體形式減少為基形式,例如am、are、is->be (5)?stemming?將術(shù)語簡化為它們的“根”,例如automate(s), automatic, automation 都簡化為automat。

基本NLP處理方式

對文本內(nèi)容進行簡單的NLP處理后,我們需要給每個特征賦予權(quán)重,下面展示了使用TF-IDF(terms frequency – inverse document frequency ,詞頻-逆文檔頻率)進行特征權(quán)重賦值。術(shù)語的權(quán)重就是通過術(shù)語頻率權(quán)重和反比文檔頻率權(quán)重的乘積得到。

tf:術(shù)語在文檔中出現(xiàn)的次數(shù);idf:取決于集合中術(shù)語的稀有性;tf-idf:隨著文檔中出現(xiàn)的次數(shù)和集合中術(shù)語的稀有性而增加。

后面的處理就是傳統(tǒng)的機器學習內(nèi)容,一般通過Vector Space Model 和?Similarity between vectors進行處理。但是這種以單詞為核心的內(nèi)容推薦系統(tǒng)性能往往不好,以為單詞難以表征內(nèi)容的語義,或者說文章的內(nèi)容主旨因此,更加合理的內(nèi)容使用方式,應該是關(guān)注文本概念/主旨,而并不是僅僅是關(guān)鍵詞。

  • Exogenous semantics?,i.e. explicit semantics?&?Endogenous semantics, i.e. implicit semantics

語義表示 = 顯式語義 + 隱式語義; 顯式語義:基于外部知識的集成的自上而下的方法來表示內(nèi)容,能夠在內(nèi)容表達中提供語言、文化和背景知識。隱式語義:自下而上的方法,通過分析一個詞在普通和具體語言行為背景下的用法規(guī)則來確定該詞的含義。

  • Encoding exogenous semantics,i.e. explicit semantics

(1)通過映射描述(語義概念)物品的特征引入語義;(2)通過將物品鏈接到知識圖來引入語義;

  • Encoding endogenous semantics, i.e. implicit semantics

其實,我們也可以直接利用大量的內(nèi)容學習單詞的表示。根據(jù)術(shù)語用法學習的語義稱為“distributional”。Distributional 假設:在類似內(nèi)容中使用的術(shù)語具有相似的含義。

Distributional Semantics(分布式語義):一個詞的意思取決于它的用法,通過分析大量的文本數(shù)據(jù)語料庫,可以推斷出有關(guān)術(shù)語用法(含義)的信息。例如:Beer and wine, dog and cat share a similar meaning since they are often used in similar contexts。

context 用粒度表示

分布式語義的好處在于:(1)我們可以利用數(shù)據(jù)的語料庫直接學習語言術(shù)語的語義向量空間表示;(2)輕量級語義,未正式定義;(3)高度的靈活性,每一個術(shù)語都可以用一個向量進行表示; (4)內(nèi)容具有不同的粒度;?

分布式語義的弊端在于:(1)需要大量的內(nèi)容進行學習;(2)這個矩陣非常的大,很難去構(gòu)建(特征太多,需要去裁減)

4. What ?

  • Explanation of Recommendations

可解釋性的目標:(1)透明度:解釋系統(tǒng)的工作原理;(2)可審查性:允許用戶告訴系統(tǒng)它是錯誤的;(3)說服力:說服用戶嘗試或購買;(4)真實性:提高用戶對系統(tǒng)的信心;(5)有效性:幫助用戶做出正確的決策;(6)效率:幫助用戶更快地做出決策; (7)滿意度:用戶增加使用或享受便利性;

  • Serendipity in Recommender Systems

Serendipity = attractive + unexpected;個性化推薦是一個好事,但是千篇一律就會讓大家感到厭煩,所以驚喜度也是推薦系統(tǒng)需要考慮的一個因素,他可以強化用戶粘性。但是,如何在推薦過程中引入驚喜度?很明顯,語義匹配不是很好的解決方案。語義畫像可能比基于關(guān)鍵字的配置文件提供更準確的建議。

參考文獻

Semantics-aware Recommender Systems:

C. Musto, G.Semeraro, M.de Gemmis, P. Lops. A Hybrid Recommendation Framework Exploiting Linked Open Data and Graph-based Features. UMAP 2017

Cross-language Recommender Systems:

F. Narducci, P. Basile, C. Musto, P. Lops, A. Caputo, M. de Gemmis, L. Iaquinta, G. Semeraro: Conceptbased item representations for a cross-lingual content-based recommendation process. Inf. Sci. 374: 15-31 (2016)

Explanations:

C. Musto, F. Narducci, P. Lops, M. de Gemmis, G. Semeraro: ExpLOD: A Framework for Explaining Recommendations based on the Linked Open Data Cloud. In Proc. of the 10th ACM Conference on Recommender Systems (RecSys '16). ACM, New York, NY, USA, 151-154.

Serendipity

M. de Gemmis, P. Lops, G. Semeraro, C. Musto. An Investigation on the Serendipity Problem in Recommender Systems. Information Processing and Management, 2015 DOI: 10.1016/j.ipm.2015.06.008

總結(jié)

以上是生活随笔為你收集整理的基于内容推荐系统中的常识 [ACM暑校]的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。