日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

豆瓣250排行榜算法

發(fā)布時間:2023/12/18 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 豆瓣250排行榜算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

IMDB網(wǎng)站依據(jù)下列公式計算每部影片的得分,以排定名次:?
  ?
  加權(quán)平均分(WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C?
  ?
  在這里:?
  R = 該電影的平均分?
  v = 該電影的總投票數(shù)?
  m = 列入前250所需要的最少票數(shù)(目前是1300票)?
  C = 數(shù)據(jù)庫中所有電影的總平均分(目前是6.7)?
  ?
  這個估算比目前豆瓣所采用的簡單平均分方法要科學(xué)的多,因為它既考慮了電影的受眾人數(shù),也考慮了優(yōu)劣。比如一部電影只有10個人看過,這10個人都給它打10分,而另一部電影有10000人看過,平均分是9分,大家覺得哪個好?我想大部分人會相信是后者。所以這就是貝葉斯算法的依據(jù)。

?

從目前的分析來看,豆瓣250應(yīng)該也采用了這種算法,其中的四項參數(shù),R和V可以根據(jù)用戶對電影的評分直接獲得,而m和C兩項參數(shù)則略為復(fù)雜。?

先來說說C值,該值總體來說比較平穩(wěn),經(jīng)過一段時間的觀察和試算,應(yīng)該是在3.8左右平穩(wěn)上升。?
應(yīng)該這個平均分是比較高的,由于豆瓣采取的是5分制,折算成IMDB分有7.6了,這比上文提到的IMDB平均分高了近1分。如果這確實是數(shù)據(jù)庫中所有電影的總平均分,那么可以推測豆瓣用戶總體來說是比較“寬容”的,或者說更愿意對自己推薦的電影進行評分而對較差的電影則不予評價。?

另一個參數(shù)m,是至關(guān)重要的一個閥值,即使一部電影的評分再高,如果總投票數(shù)不能達到這個閥值,也是不能上榜的。?
由于豆瓣250排行榜每周更新一次,根據(jù)每周的排名情況,我們可以發(fā)現(xiàn)從250創(chuàng)設(shè)到現(xiàn)在,m值在短短1個半月內(nèi),由最初的1300左右增加至目前的1500左右,應(yīng)該說,這樣一個增幅是比較高的。上周,一直在榜單中的《L.A. Confidential》就因為沒到跟上M的漲速而掉隊,但于本周返回榜單。?
m值的設(shè)定可以說一定程度上決定了整個榜單的取向,如果設(shè)定的較低,會使得榜單更容易被人為操縱,畢竟現(xiàn)在注冊馬甲不是很困難的事情;但設(shè)的高了,一些受眾較少的優(yōu)秀電影也會因為評分人數(shù)達不到及格線而被擋在榜單之外;極端的說,如果設(shè)定過高,留在榜單上的只能是一些“暢銷”電影了。而豆瓣250有關(guān)這個參數(shù)的確定方式,是所有參數(shù)中最難以判定的。

轉(zhuǎn)載于:https://www.cnblogs.com/jamesbd/p/3954658.html

總結(jié)

以上是生活随笔為你收集整理的豆瓣250排行榜算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。