推荐系统实战3
第3章 推薦系統(tǒng)冷啟動(dòng)問題
3.1 冷啟動(dòng)問題簡介 冷啟動(dòng)問題主要分為3類:- 用戶冷啟動(dòng):用戶冷啟動(dòng)主要解決如何給新用戶做個(gè)性化推薦的問題。
- 物品冷啟動(dòng):主要解決如何將新的物品推薦給可能對(duì)它感興趣的用戶這一問題。
- 系統(tǒng)冷啟動(dòng):系統(tǒng)冷啟動(dòng)主要解決如何在一個(gè)新開發(fā)的網(wǎng)站上(還沒有用戶,也沒有用戶行為,只有一些物品的信息)設(shè)計(jì)個(gè)性化推薦系統(tǒng)。
- 提供非個(gè)性化的推薦:推薦熱門排行榜,然后等到用戶收集到一定的時(shí)候,再切換為個(gè)性化推薦。
- 利用用戶注冊(cè)時(shí)提供的年齡、性別等數(shù)據(jù)做粗粒度的個(gè)性化。
- 利用用戶的社交網(wǎng)絡(luò)賬號(hào)登錄(需要用戶授權(quán)),導(dǎo)入用戶在社交網(wǎng)站上的好友信息,然后給用戶推薦其好友喜歡的物品。
- 要求用戶在登錄時(shí)對(duì)一些物品進(jìn)行反饋,收集用戶對(duì)這些物品的興趣信息,然后給用戶推薦那些和這些物品相似的物品。
- 對(duì)于新加入的物品,可以利用內(nèi)容信息,將它們推薦給喜歡過和它們相似的物品的用戶。
- 在系統(tǒng)冷啟動(dòng)時(shí),可以引入專家的知識(shí),通過一定的高效方式迅速建立起物品的相關(guān)度表。
3.2 利用用戶注冊(cè)信息 用戶注冊(cè)信息分3種:
- 人口統(tǒng)計(jì)學(xué)信息:包括用戶的年齡,性別,職業(yè),民族,學(xué)歷和居住地。
- 用戶興趣的描述:有一些網(wǎng)站會(huì)讓用戶描述他們的興趣。
- 從其他網(wǎng)站導(dǎo)入的用戶站外行為數(shù)據(jù)
3.3 選擇合適的物品啟動(dòng)用戶的興趣 解決用戶冷啟動(dòng)問題的另一個(gè)方法是在新用戶第一次訪問推薦系統(tǒng)時(shí),不立即給用戶展示推薦結(jié)果,而是給用戶提供一些物品,讓用戶反饋他們對(duì)這些物品的興趣,然后根據(jù)反饋結(jié)果提供個(gè)性化推薦。 一般來說,能夠用來啟動(dòng)用戶興趣的物品需要具有以下特點(diǎn):
- 比較熱門
- 具有代表性和區(qū)分性:啟動(dòng)用戶興趣的物品不能是大眾化和老少皆宜的,因?yàn)檫@樣的物品對(duì)用戶興趣沒有區(qū)分性。
- 啟動(dòng)物品集合需要多樣性
3.4 利用物品的內(nèi)容信息 第2章介紹了兩種主要的推薦算法——UserCF與ItemCF算法。首先需要指出的是,UserCF算法對(duì)冷啟動(dòng)問題并不非常敏感。因?yàn)?#xff0c;UserCF在給用戶進(jìn)行推薦時(shí),會(huì)首先找到和用戶興趣相似的一群用戶,然后給用戶推薦這一群用戶喜歡的物品,在很多網(wǎng)站中,推薦列表并不是給用戶展示內(nèi)容的唯一列表,那么當(dāng)一個(gè)新物品加入的時(shí)候,總會(huì)有用戶從某些途徑看到這些物品,對(duì)這些物品產(chǎn)生反饋。那么當(dāng)一個(gè)用戶對(duì)某個(gè)物品產(chǎn)生反饋后,和他歷史興趣相似的其他用戶的推薦列表中就有可能出現(xiàn)這一物品,從而更多的人就會(huì)對(duì)這個(gè)物品產(chǎn)生反饋,導(dǎo)致更多的人的推薦列表中會(huì)出現(xiàn)這一物品,因此該物品就能不斷擴(kuò)散開來,從而逐步展示到對(duì)它感興趣用戶的推薦列表中。 但是,有些網(wǎng)站中推薦列表可能是用戶獲取信息的主要途徑,比如豆瓣網(wǎng)絡(luò)電臺(tái)。那么對(duì)于UserCF算法就需要解決第一推動(dòng)力的問題,即第一個(gè)用戶從哪兒發(fā)現(xiàn)新的物品,只要有一小部分人能夠發(fā)現(xiàn)并喜歡新的物品,UserCF算法就能夠?qū)⑦@些物品擴(kuò)散到更多的用戶中,解決第一推動(dòng)力最簡單的方法是將新的物品隨機(jī)展示給用戶,但這樣顯然不太個(gè)性化,因此可以考慮利用物品的內(nèi)容信息,將新物品先投放給曾經(jīng)喜歡過和它內(nèi)容相似的其他物品的用戶。 對(duì)于ItemCF算法來說,物品冷啟動(dòng)就是一個(gè)嚴(yán)重的問題了。因?yàn)镮temCF算法的原理是給用戶推薦和他之前喜歡的物品的相似的物品。ItemCF算法會(huì)每隔一段時(shí)間利用用戶行為計(jì)算物品相似度表(一般一天計(jì)算一次),在線服務(wù)ItemCF算法會(huì)將之前計(jì)算好的物品相關(guān)度矩陣放在內(nèi)存中。因此當(dāng)新物品加入時(shí),內(nèi)存中的物品相關(guān)表中不會(huì)存在這個(gè)物品,從而ItemCF算法無法推薦新的物品。解決這一問題的辦法是頻繁更新新物品相似度表,但基于用戶行為計(jì)算物品相似度是非常耗時(shí)的事情,主要原因是用戶行為日志非常龐大。而且,新物品如果不展示給用戶,用戶就無法對(duì)它產(chǎn)生行為,通過行為日志計(jì)算是計(jì)算不出包含新物品的相關(guān)矩陣的。為此,我們只能利用物品的內(nèi)容信息計(jì)算物品相關(guān)表,并且頻繁更新相關(guān)表(比如半小時(shí)計(jì)算一次)。 物品的內(nèi)容信息多種多樣,不同類型的物品有不同的內(nèi)容信息。如果是電影,那么內(nèi)容信息一般包括標(biāo)題、導(dǎo)演、演員、編劇、劇情、風(fēng)格、國家、年代等。如果是圖書,內(nèi)容信息一般包括標(biāo)題、作者、出版社、正文、分類等。
轉(zhuǎn)載于:https://www.cnblogs.com/chuwu6859/p/10993785.html
總結(jié)
- 上一篇: 长春理工大学第十四届程序设计竞赛(重现赛
- 下一篇: java信息管理系统总结_java实现科