豆瓣250排行榜算法
IMDB網站依據下列公式計算每部影片的得分,以排定名次:?
?
加權平均分(WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C?
?
在這里:?
R = 該電影的平均分?
v = 該電影的總投票數?
m = 列入前250所需要的最少票數(目前是1300票)?
C = 數據庫中所有電影的總平均分(目前是6.7)?
?
這個估算比目前豆瓣所采用的簡單平均分方法要科學的多,因為它既考慮了電影的受眾人數,也考慮了優劣。比如一部電影只有10個人看過,這10個人都給它打10分,而另一部電影有10000人看過,平均分是9分,大家覺得哪個好?我想大部分人會相信是后者。所以這就是貝葉斯算法的依據。
?
從目前的分析來看,豆瓣250應該也采用了這種算法,其中的四項參數,R和V可以根據用戶對電影的評分直接獲得,而m和C兩項參數則略為復雜。?
先來說說C值,該值總體來說比較平穩,經過一段時間的觀察和試算,應該是在3.8左右平穩上升。?
應該這個平均分是比較高的,由于豆瓣采取的是5分制,折算成IMDB分有7.6了,這比上文提到的IMDB平均分高了近1分。如果這確實是數據庫中所有電影的總平均分,那么可以推測豆瓣用戶總體來說是比較“寬容”的,或者說更愿意對自己推薦的電影進行評分而對較差的電影則不予評價。?
另一個參數m,是至關重要的一個閥值,即使一部電影的評分再高,如果總投票數不能達到這個閥值,也是不能上榜的。?
由于豆瓣250排行榜每周更新一次,根據每周的排名情況,我們可以發現從250創設到現在,m值在短短1個半月內,由最初的1300左右增加至目前的1500左右,應該說,這樣一個增幅是比較高的。上周,一直在榜單中的《L.A. Confidential》就因為沒到跟上M的漲速而掉隊,但于本周返回榜單。?
m值的設定可以說一定程度上決定了整個榜單的取向,如果設定的較低,會使得榜單更容易被人為操縱,畢竟現在注冊馬甲不是很困難的事情;但設的高了,一些受眾較少的優秀電影也會因為評分人數達不到及格線而被擋在榜單之外;極端的說,如果設定過高,留在榜單上的只能是一些“暢銷”電影了。而豆瓣250有關這個參數的確定方式,是所有參數中最難以判定的。
轉載于:https://www.cnblogs.com/jamesbd/p/3954658.html
總結
以上是生活随笔為你收集整理的豆瓣250排行榜算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: easyui的filebox赋值回显
- 下一篇: 信息安全意识分享—电子邮件安全