當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python电影推荐算法_电影推荐系统python实现

發(fā)布時間：2025/3/19 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python电影推荐算法_电影推荐系统python实现小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

寒假在家保持寫代碼不手生，實現(xiàn)了這個小推薦系統(tǒng)。

簡介：推薦系統(tǒng)的一種簡單實現(xiàn)就是，給定一個用戶A，找到所有用戶中與A最相似的用戶B，把B看過的電影中A沒看過的挑出來，再把B評分最高的幾部挑出來。

1 數(shù)據(jù)說明

解壓縮后用到兩個文件 movies.csv 和 ratings.csv 。

movies.csv是各種電影的數(shù)據(jù)，列分別為電影編號、電影名、所屬類型。

movieId

title

genres

Toy Story (1995)

Adventure,Animation,Children,Comedy,Fantasy

Jumanji (1995)

Adventure,Children,Fantasy

ratings.csv用戶的評分?jǐn)?shù)據(jù)，列分別為用戶編號、電影編號、評分、時間戳。

userId

movieId

rating

timestamp

4.0

964982703

4.0

964981247

2 數(shù)據(jù)處理

我們的目的是給定一個用戶id，找出他可能喜歡的電影名。

但是兩個文件電影信息和用戶評分信息是分開的，所以需要合并。

2.1讀取原始數(shù)據(jù)

import pandas as pd

movies = pd.read_csv(r'C:\Users\yyy\Desktop\推薦系統(tǒng)\movies.csv') #注意含中文路徑需要在前面加 r 轉(zhuǎn)義

ratings = pd.read_csv(r'C:\Users\yyy\Desktop\推薦系統(tǒng)\ratings.csv')

2.2合并兩個文件

data = pd.merge(movies,ratings,on = 'movieId')#通過兩數(shù)據(jù)框之間的movieId連接

data[['userId','rating','movieId','title']].sort_values('userId').to_csv(r'C:\Users\yyy\Desktop\推薦系統(tǒng)\merged.csv',index=False)

2.3 用字典存放所得數(shù)據(jù)

file = open(r'C:\Users\yyy\Desktop\推薦系統(tǒng)\merged.csv','r')#記得讀取文件時加‘r’， encoding='UTF-8'

##讀取data.csv中每行中除了名字的數(shù)據(jù)

data = {}##存放每位用戶評論的電影和評分

for line in file.readlines():

#注意這里不是readline()

line = line.strip().split(',')

#如果字典中沒有某位用戶，則使用用戶ID來創(chuàng)建這位用戶

if not line[0] in data.keys():

data[line[0]] = {line[3]:line[1]}

#否則直接添加以該用戶ID為key字典中

else:

data[line[0]][line[3]] = line[1]

此時得到的data[:2]

movieId

title

genres

userId

rating

timestamp

Toy Story (1995)

Adventure,Animation,Children,Comedy,Fantasy

4.0

964982703

Toy Story (1995)

Adventure,Animation,Children,Comedy,Fantasy

4.0

847434962

3 推薦系統(tǒng)

3.1 計算兩個用戶的相似度

注意：最后把距離縮放到了[0, 1]之間，這是為了簡化計算。因為有可能兩個用戶之間的差異很大，平方和累加起來是一個很大的數(shù)，他們兩個差異這么大對這個推薦系統(tǒng)沒用，所以用1/(1+distance)把它縮放到0.

from math import pow, sqrt

def Euclidean(user1,user2):

#取出兩位用戶評論過的電影和評分

user1_data=data[user1]

user2_data=data[user2]

distance = 0

#找到兩位用戶都評論過的電影，并計算歐式距離

for key in user1_data.keys():

if key in user2_data.keys():

#注意，distance越大表示兩者越相似

distance += pow(float(user1_data[key])-float(user2_data[key]),2)

return 1/(1+sqrt(distance))#這里返回值越大，相似度越大

3.2 找到最相似的k個用戶

def top10_similar(userID):

res = []

for userid in data.keys():

if not userid == userID:

sim = Euclidean(userID, userid)

res.append((userid, sim))

res.sort(key=lambda val:val[1], reverse=True)

return res[:10]

RES = top10_similar('1')

print(RES)

3.3 找到最相似的用戶看過的電影

def recommend(user, k=5):

recomm = []

most_sim_user = top10_similar(user)[0][0]

items = data[most_sim_user]

for item in items.keys():

if item not in data[user].keys():

recomm.append((item, items[item]))

recomm.sort(key=lambda val:val[1], reverse=True)

return recomm[:k]

RECOM = recommend('1')

print(RECOM)

總結(jié)

以上是生活随笔為你收集整理的python电影推荐算法_电影推荐系统python实现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：安卓 sharedpreferences
下一篇： python3多线程爬虫_【Python

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python电影推荐算法_电影推荐系统python实现

總結(jié)