推荐系统开源数据集
最近比較多的小伙伴在后臺(tái)說自己希望從事推薦相關(guān)的工作研究,問有哪些練手的數(shù)據(jù)集可以自己玩玩,今天我們分享一下推薦系統(tǒng)中最為常見的一些開源數(shù)據(jù)集。
MovieLens數(shù)據(jù)集由GroupLens研究團(tuán)隊(duì)收集的。MovieLens是電影評(píng)分的集合,有不同的大小。數(shù)據(jù)集命名為1M,10M和20M不等,目前又增加了25M,在2019年12月份放出的,它公包含2500萬的ratings和100萬個(gè)標(biāo)簽應(yīng)用程序應(yīng)用于162000名用戶的62000部電影。包括1129個(gè)標(biāo)簽的1500萬個(gè)相關(guān)分?jǐn)?shù)的標(biāo)簽基因組數(shù)據(jù)。
下載地址為:https://grouplens.org/datasets/movielens/
該數(shù)據(jù)集主要由Cai-Nicolas Ziegler在四周內(nèi)收集得到。包含278858個(gè)用戶(匿名但包含人口統(tǒng)計(jì)信息),提供1149780個(gè)評(píng)分,評(píng)分范圍從1到10(顯式/隱式),約271379本書。
下載地址為:http://www2.informatik.uni-freiburg.de/~cziegler/BX/
Last.fm是音樂推薦的數(shù)據(jù)集。包含來自1892個(gè)用戶的92800個(gè)藝術(shù)家listening記錄。
下載地址為:https://grouplens.org/datasets/hetrec-2011/
該數(shù)據(jù)集采集于豆瓣電影,電影與明星數(shù)據(jù)收集于2019年8月上旬,影評(píng)數(shù)據(jù)(用戶、評(píng)分、評(píng)論)收集于2019年9月初,共945萬數(shù)據(jù),其中包含14萬部電影,7萬演員,63萬用戶,416萬條電影評(píng)分,442萬條影評(píng),該數(shù)據(jù)集正好彌補(bǔ)下國(guó)內(nèi)公開電影數(shù)據(jù)集的空缺。數(shù)據(jù)已經(jīng)過初步清洗,可用于推薦系統(tǒng)、情感分析、QA問答、知識(shí)圖譜等多個(gè)領(lǐng)域。數(shù)據(jù)集共有5個(gè)文件: movies.csv、person.csv、users.csv、comments.csv、ratings.csv,關(guān)于各個(gè)文件的具體內(nèi)容將在下文介紹。
下載地址:https://www.csuldw.com/2019/09/08/2019-09-08-moviedata-10m/
這是Netflix大獎(jiǎng)賽使用的官方數(shù)據(jù)集。該數(shù)據(jù)由大約1億電影收視率組成,目標(biāo)是預(yù)測(cè)電影用戶收視率矩陣中缺失的條目。
下載地址:https://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a
這個(gè)數(shù)據(jù)集包含亞馬遜的產(chǎn)品評(píng)論和元數(shù)據(jù),包括1996年5月至2014年7月的1.428億條評(píng)論。此數(shù)據(jù)集包括評(píng)論(評(píng)級(jí)、文本、幫助投票)、產(chǎn)品元數(shù)據(jù)(描述、類別信息、價(jià)格、品牌和圖像特征)和鏈接(還查看/還購(gòu)買了圖表)。
下載鏈接:http://jmcauley.ucsd.edu/data/amazon/links.html
這個(gè)是LibRec 開源工具提供的數(shù)據(jù)集,有將近10個(gè)不同的數(shù)據(jù)集,有興趣的伙伴可以自己下載把玩。
下載鏈接:https://www.librec.net/datasets.html
煉丹材料準(zhǔn)備好了!總結(jié)
- 上一篇: 大有可为的GNN:DeepWalk
- 下一篇: java信息管理系统总结_java实现科