推荐算法-聚类-K-MEANS
????對于大型的推薦系統,直接上協同過濾或者矩陣分解的話可能存在計算復雜度過高的問題,這個時候可以考慮用聚類做處理,其實聚類本身在機器學習中也常用,屬于是非監督學習的應用,我們有的只是一組組數據,最終我們要把它們分組,但是前期沒有任何的先驗知識告訴我們那個點是屬于那個組的。
????當我們有足夠的數據的時候可以考慮先用聚類做第一步處理,來縮減協同過濾的選擇范圍,從而降低復雜度。
????對了還想起來機器學習里面也經常用聚類的方式進行降維。這個在機器學習筆記部分后期我會整理。
????最終,每個聚類中的用戶,都會收到為這個聚類計算出的推薦內容。聚類的話也有很多種方法時間,今天是整理最簡單的那個姿勢:K-MEANS
????K-MEANS聚類算法是非常常用的聚類算法。它出現在很多介紹性的數據科學和機器學習課程中。在代碼中很容易理解和實現!
????K-MEANS聚類算法的優勢在于它的速度非常快,因為我們所有的只是計算點和集群中心之間的距離,它有一個線性復雜度O(n)[注意不是整體的時間復雜度]。
另一方面,K-MEANS也有幾個缺點。首先,你必須選擇有多少組/類。這并不是不重要的事,理想情況下,我們希望它能幫我門解決這些問題,因為他的關鍵在于從數據中國的一些啟示,K-MEANS也從隨機的聚類中心開始,因此在不同的算法運行中可能產生不同的聚類結果。因此,結果可能是不可重復的,并且缺乏一致性。其他聚類方法更加一致。
????K-Medians是另一種與K-MEANS有關的聚類算法,除了使用均值的中間值來重新計算數組中心點以外,這種方法對于離散值的民高度較低(因為使用中值),但對于較大的數據集來說,它要慢得多,因為在計算中值向量時,每次迭代都需要進行排序。
?
?
總結
以上是生活随笔為你收集整理的推荐算法-聚类-K-MEANS的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐算法-矩阵分解
- 下一篇: 推荐算法-聚类-均值偏移聚类(爬山算法)