基于内容推荐系统中的常识 [ACM暑校]
How to represent content to improve information access and build a new generation of services for user modeling and recommender systems?
1. 內(nèi)容主旨
- Why? ......? 1. Why do we need intelligent information access? (為什么我們需要只能信息訪問(wèn)) 2.?Why do we need content? (為什么我們需要內(nèi)容) 3.?Why do we need semantics? (為什么我們需要語(yǔ)義)
- How? ...... 1.??How to introduce semantics? (如何介紹語(yǔ)義) 2.?Basics of Natural Language Processing (自然語(yǔ)言處理基礎(chǔ)) 3.?Encoding exogenous semantics,i.e. explicit semantics (編碼外部語(yǔ)義,如顯式語(yǔ)義) 4.?Encoding endogenous semantics, i.e. implicit semantics (編碼內(nèi)部語(yǔ)義,如隱式語(yǔ)義)
- What? ...... 1.?Explanation of Recommendations (推薦系統(tǒng)的解釋) 2.?Serendipity in Recommender Systems (推薦系統(tǒng)的驚喜度)
2. Why?
- Why do we need intelligent information access?
由于信息負(fù)載(information overload),生理上不可能實(shí)時(shí)跟蹤信息流。
信息負(fù)載示例Challenge:為了有效地應(yīng)對(duì)信息超載和有限理性,我們需要對(duì)信息流進(jìn)行過(guò)濾(Filter)。因此,我們需要智能信息訪問(wèn)的技術(shù)和算法。
左側(cè):搜索引擎(信息檢索 information retrieval)成功案例;? 右側(cè):推薦系統(tǒng)(信息過(guò)濾 information filter)成功案例- Why do we need content?
在推薦系統(tǒng)領(lǐng)域,其實(shí)基于內(nèi)容的推薦并不是必須的。我們都知道,目前存在基于協(xié)同濾波(矩陣分解、張量分解)的推薦系統(tǒng)、基于內(nèi)容的推薦系統(tǒng)、混合推薦系統(tǒng)等。但是,內(nèi)容的存在可以補(bǔ)償協(xié)同濾波的劣勢(shì),如數(shù)據(jù)稀疏性問(wèn)題、
協(xié)同濾波目前存在的四大窘境: 數(shù)據(jù)稀疏性問(wèn)題; 新物品推薦問(wèn)題; 模型缺少透明性;糟糕的可解釋性;原因大概有以下三個(gè)方面:
(1)通俗地講,(利用社交媒體上傳播的信息等)擴(kuò)展和改進(jìn)用戶建模。(2)克服典型的協(xié)同過(guò)濾和矩陣分解問(wèn)題。(3)因?yàn)樗阉饕娌荒軟](méi)有內(nèi)容而工作。
- Why do we need semantics?
深層理性要求對(duì)文本內(nèi)容所傳達(dá)的信息有深刻的理解。為了實(shí)現(xiàn)這一目標(biāo),提高用戶圖譜/畫(huà)像的質(zhì)量和智能信息訪問(wèn)平臺(tái)的有效性至關(guān)重要。(1)通過(guò)將物品描述與用戶興趣進(jìn)行匹配而進(jìn)行推薦;(2)推薦是通過(guò)將存儲(chǔ)在用戶畫(huà)像中的功能與要推薦的項(xiàng)目的功能相匹配而生成。
單純依靠文本是不可靠的,因?yàn)槲谋久黠@存在一詞多義、文本意象等。如下所示:
單純的文本不能輔助情景理解,此時(shí)需要語(yǔ)義提取很明顯:(1)單純的基于內(nèi)容的表示不能處理多義詞;(2)純基于內(nèi)容的表示很容易將推薦系統(tǒng)推向兩個(gè)極端! (3)多詞的概念(同義詞),如Artificial intelligence、AI等;(4)基于內(nèi)容的推薦系統(tǒng)是語(yǔ)言依賴性的(如英語(yǔ)、漢語(yǔ)、德文),然而基于語(yǔ)義的推薦系統(tǒng)是不受語(yǔ)言限制的。
因此,研究基于語(yǔ)義的推薦系統(tǒng),有以下好處:
(1)In general: to improve content representation in intelligent information access platforms; (2)To avoid typical issues of
natural language representations (polysemy, synonymy, multi-word concepts, etc.) (3)To model user preferences in an effective way (4)To better understand the information spread on social media (5)To provide multilingual recommendations
3. How?
- How to introduce semantics?
如何將我們連接到我們正在尋找的信息(搜索任務(wù))或我們想接觸的信息(建議和用戶建模任務(wù))?(1)我們需要一些“智能”支持(作為智能信息訪問(wèn)技術(shù)) (2)我們需要更好地理解和表示內(nèi)容。 最根本的基礎(chǔ)就是自然語(yǔ)言處理。
- Basics of Natural Language Processing?
(1)Normalization?去掉不需要的字符/標(biāo)記(如HTML/XML標(biāo)記、標(biāo)點(diǎn)符號(hào)、數(shù)字等); (2)tokenization?將文本分解為token(分詞) (3)?stopword removal?排除語(yǔ)義內(nèi)容較少的常用詞; (4)?lemmatization?將變體形式減少為基形式,例如am、are、is->be (5)?stemming?將術(shù)語(yǔ)簡(jiǎn)化為它們的“根”,例如automate(s), automatic, automation 都簡(jiǎn)化為automat。
基本NLP處理方式對(duì)文本內(nèi)容進(jìn)行簡(jiǎn)單的NLP處理后,我們需要給每個(gè)特征賦予權(quán)重,下面展示了使用TF-IDF(terms frequency – inverse document frequency ,詞頻-逆文檔頻率)進(jìn)行特征權(quán)重賦值。術(shù)語(yǔ)的權(quán)重就是通過(guò)術(shù)語(yǔ)頻率權(quán)重和反比文檔頻率權(quán)重的乘積得到。
tf:術(shù)語(yǔ)在文檔中出現(xiàn)的次數(shù);idf:取決于集合中術(shù)語(yǔ)的稀有性;tf-idf:隨著文檔中出現(xiàn)的次數(shù)和集合中術(shù)語(yǔ)的稀有性而增加。
后面的處理就是傳統(tǒng)的機(jī)器學(xué)習(xí)內(nèi)容,一般通過(guò)Vector Space Model 和?Similarity between vectors進(jìn)行處理。但是這種以單詞為核心的內(nèi)容推薦系統(tǒng)性能往往不好,以為單詞難以表征內(nèi)容的語(yǔ)義,或者說(shuō)文章的內(nèi)容主旨。因此,更加合理的內(nèi)容使用方式,應(yīng)該是關(guān)注文本概念/主旨,而并不是僅僅是關(guān)鍵詞。
- Exogenous semantics?,i.e. explicit semantics?&?Endogenous semantics, i.e. implicit semantics
語(yǔ)義表示 = 顯式語(yǔ)義 + 隱式語(yǔ)義; 顯式語(yǔ)義:基于外部知識(shí)的集成的自上而下的方法來(lái)表示內(nèi)容,能夠在內(nèi)容表達(dá)中提供語(yǔ)言、文化和背景知識(shí)。隱式語(yǔ)義:自下而上的方法,通過(guò)分析一個(gè)詞在普通和具體語(yǔ)言行為背景下的用法規(guī)則來(lái)確定該詞的含義。
- Encoding exogenous semantics,i.e. explicit semantics
(1)通過(guò)映射描述(語(yǔ)義概念)物品的特征引入語(yǔ)義;(2)通過(guò)將物品鏈接到知識(shí)圖來(lái)引入語(yǔ)義;
- Encoding endogenous semantics, i.e. implicit semantics
其實(shí),我們也可以直接利用大量的內(nèi)容學(xué)習(xí)單詞的表示。根據(jù)術(shù)語(yǔ)用法學(xué)習(xí)的語(yǔ)義稱為“distributional”。Distributional 假設(shè):在類(lèi)似內(nèi)容中使用的術(shù)語(yǔ)具有相似的含義。
Distributional Semantics(分布式語(yǔ)義):一個(gè)詞的意思取決于它的用法,通過(guò)分析大量的文本數(shù)據(jù)語(yǔ)料庫(kù),可以推斷出有關(guān)術(shù)語(yǔ)用法(含義)的信息。例如:Beer and wine, dog and cat share a similar meaning since they are often used in similar contexts。
context 用粒度表示分布式語(yǔ)義的好處在于:(1)我們可以利用數(shù)據(jù)的語(yǔ)料庫(kù)直接學(xué)習(xí)語(yǔ)言術(shù)語(yǔ)的語(yǔ)義向量空間表示;(2)輕量級(jí)語(yǔ)義,未正式定義;(3)高度的靈活性,每一個(gè)術(shù)語(yǔ)都可以用一個(gè)向量進(jìn)行表示; (4)內(nèi)容具有不同的粒度;?
分布式語(yǔ)義的弊端在于:(1)需要大量的內(nèi)容進(jìn)行學(xué)習(xí);(2)這個(gè)矩陣非常的大,很難去構(gòu)建(特征太多,需要去裁減)
4. What ?
- Explanation of Recommendations
可解釋性的目標(biāo):(1)透明度:解釋系統(tǒng)的工作原理;(2)可審查性:允許用戶告訴系統(tǒng)它是錯(cuò)誤的;(3)說(shuō)服力:說(shuō)服用戶嘗試或購(gòu)買(mǎi);(4)真實(shí)性:提高用戶對(duì)系統(tǒng)的信心;(5)有效性:幫助用戶做出正確的決策;(6)效率:幫助用戶更快地做出決策; (7)滿意度:用戶增加使用或享受便利性;
- Serendipity in Recommender Systems
Serendipity = attractive + unexpected;個(gè)性化推薦是一個(gè)好事,但是千篇一律就會(huì)讓大家感到厭煩,所以驚喜度也是推薦系統(tǒng)需要考慮的一個(gè)因素,他可以強(qiáng)化用戶粘性。但是,如何在推薦過(guò)程中引入驚喜度?很明顯,語(yǔ)義匹配不是很好的解決方案。語(yǔ)義畫(huà)像可能比基于關(guān)鍵字的配置文件提供更準(zhǔn)確的建議。
參考文獻(xiàn):
Semantics-aware Recommender Systems:
C. Musto, G.Semeraro, M.de Gemmis, P. Lops. A Hybrid Recommendation Framework Exploiting Linked Open Data and Graph-based Features. UMAP 2017
Cross-language Recommender Systems:
F. Narducci, P. Basile, C. Musto, P. Lops, A. Caputo, M. de Gemmis, L. Iaquinta, G. Semeraro: Conceptbased item representations for a cross-lingual content-based recommendation process. Inf. Sci. 374: 15-31 (2016)
Explanations:
C. Musto, F. Narducci, P. Lops, M. de Gemmis, G. Semeraro: ExpLOD: A Framework for Explaining Recommendations based on the Linked Open Data Cloud. In Proc. of the 10th ACM Conference on Recommender Systems (RecSys '16). ACM, New York, NY, USA, 151-154.
Serendipity:
M. de Gemmis, P. Lops, G. Semeraro, C. Musto. An Investigation on the Serendipity Problem in Recommender Systems. Information Processing and Management, 2015 DOI: 10.1016/j.ipm.2015.06.008
總結(jié)
以上是生活随笔為你收集整理的基于内容推荐系统中的常识 [ACM暑校]的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 一个25岁董事长给程序员的18条忠告
- 下一篇: 十大开源推荐系统简介 [转自oschin