當前位置：首頁 > 运维知识 > windows >内容正文

windows

1. 推薦系統(tǒng)

推薦系統(tǒng)相當于信息的“過濾器”，它旨在解決信息過載的問題，幫助人們更好地作出決策。它的主要原理是根據(jù)用戶過去的行為（比如購買、評分、點擊等）來建立用戶興趣模型，之后利用一定的推薦算法，把用戶最可能感興趣的內(nèi)容推薦給用戶，如下圖：

召回（recall）

從海量（數(shù)千萬）item中粗選出幾百或者上千的候選集的過程，可以理解為向用戶粗選一批待推薦的商品。

排序（sort）

從召回的上千候選集中，預(yù)測出用戶的點擊概率，以此排序，給出最終向用戶推薦的結(jié)果集。

2. 數(shù)據(jù)基礎(chǔ)

用戶數(shù)據(jù)（user）

用來建立用戶模型的數(shù)據(jù)，因不同推薦算法而不同，典型的數(shù)據(jù)包括用戶興趣點、用戶profile、用戶的社交好友關(guān)系等。

內(nèi)容數(shù)據(jù)（item）

??用來描述被推薦內(nèi)容主要屬性的數(shù)據(jù)，這些屬性都是跟具體的內(nèi)容相關(guān)的，如一部電影的導演、演員、類型和風格等。

用戶-內(nèi)容數(shù)據(jù)（user-item）

?用戶-內(nèi)容交互是指反映用戶與內(nèi)容內(nèi)在聯(lián)系的數(shù)據(jù)，分為隱式和顯式兩種；顯式主要是指評價、打分、購買等能明顯反映用戶對內(nèi)容興趣的交互數(shù)據(jù)，隱式指的是用戶的點擊、搜索記錄等間接反映用戶對內(nèi)容興趣的交互數(shù)據(jù)。

3. 相關(guān)算法

基于內(nèi)容的推薦（Content-based）

根據(jù)用戶過去喜歡的內(nèi)容而推薦相似的內(nèi)容。

基于協(xié)同過濾的推薦(Collaborative Filtering，CF)

根據(jù)與當前用戶相似的用戶的興趣點，給當前用戶推薦相似的內(nèi)容。

基于人口統(tǒng)計學的推薦(Demographic-based)

?根據(jù)用戶共同的年齡、地域等人口統(tǒng)計學信息進行共同的推薦。

基于知識的推薦(Knowledge-based)

?根據(jù)對用戶和內(nèi)容的特定領(lǐng)域知識，給特定的用戶推薦特定的內(nèi)容。

基于團體的推薦(Community-based)

?根據(jù)用戶的社交好友關(guān)系，給用戶推薦其好友感興趣的內(nèi)容。

混合推薦(Hybrid Recommender System)

4. 數(shù)據(jù)預(yù)處理相關(guān)

推薦系統(tǒng)相關(guān)的數(shù)據(jù)預(yù)處理技術(shù)除了通常的歸一化、變量替換等以外，最主要的是相似度計算、抽樣和維度約減。

4.1 相似度計算

相似度通常有兩種衡量方式，一是直接計算相似度，二是計算距離，距離是本質(zhì)上是相異程度的度量，距離越小，相似度越高。

相似度計算

余弦相似度（其幾何意義就是兩個向量的空間夾角的余弦值，取值范圍在-1到1之間。取值為-1表示完全相反，取值為1表示完全相同，其余值表示介于二者之間）、皮爾遜相關(guān)系數(shù)（意義是兩個隨機變量x和y之間的線性相關(guān)性，取值范圍在-1和1之間。-1表示負線性相關(guān)，1表示正線性相關(guān)，其余值表示介于二者之間）、Jaccard相關(guān)系數(shù)（用于集合相似度的一種方式）。

距離度量

歐幾里得距離（Euclidean Distance）、曼哈頓距離（Manhattan Distance）、切比雪夫距離（Chebyshev Distance）、閔可夫斯基距離（Minkowski Distance）、標準化歐氏距離（Standardized Euclidean Distance）、馬哈拉諾比斯距離（Mahalanobis Distance）

4.2 抽樣

?抽樣技術(shù)在數(shù)據(jù)挖掘中主要用在兩個地方：一是在數(shù)據(jù)預(yù)處理和后處理階段，為了避免計算規(guī)模過大，進行抽樣計算；二是在數(shù)據(jù)挖掘階段，通常會對訓練出來的模型進行交叉驗證，需要抽樣將所有樣本劃分為訓練集和測試集。

通常所說的抽樣都是隨機抽樣(random sampling)，主要用于所有樣本點都可以認為沒有區(qū)分時適用。還有一種分層抽樣(striated sampling)，在樣本需要顯著的分為不同的子集時，針對每個子集分別進行抽樣。

4.3 降維(Dimensionality Reduction)

?在統(tǒng)計學習理論中，當樣本的維度增加的時候，待學習的模型的復雜性是隨著維度呈指數(shù)增長的，這種現(xiàn)象通常稱為“維數(shù)災(zāi)難(curse of dimensionality)”。這也就意味著，如果我們想在高維空間中學到和在低維空間中精度一樣高的模型，所需要的樣本數(shù)是呈指數(shù)增長的。

??降維通常是用來處理維災(zāi)難問題的。通常降維有兩種思路，一是從高維數(shù)據(jù)中選出最能表達數(shù)據(jù)的一些維度，并用這些維度來代表數(shù)據(jù)，稱為特征選擇(feature selection)；另一種是將高維數(shù)據(jù)通過某種trick變換映射到低維空間，稱為特征構(gòu)造(feature extraction)。

主成分分析（Principal Component Analysis, PCA）是最主要的一種特征選擇方式。它通過特征分解能夠得到每一個維度對于整個數(shù)據(jù)的最小均方差的貢獻程度，從而定量判斷每一維對于數(shù)據(jù)所包含信息的貢獻度。然后保留最主要的一些維度，拋棄一些不顯著的維度，對數(shù)據(jù)進行降維。

異值分解（Singular Value Decomposition, SVD）是主要的特征構(gòu)造方式。它通過矩陣分解的方式，將數(shù)據(jù)從高維空間映射到低維空間，對數(shù)據(jù)進行降維。

5. 數(shù)據(jù)挖掘-分類

?分類是數(shù)據(jù)挖掘的主要內(nèi)容，方法眾多，各自都有不同數(shù)據(jù)假設(shè)和理論支持。這里簡單列舉最有代表性的一些算法。

KNN(K-nearest Neighbor)

KNN是最容易理解的分類器，它不訓練任何模型。當有一個未知樣本需要預(yù)測時，它從已知樣本中找到與這個未知樣本距離最近的K個點，根據(jù)這K個點的類別來預(yù)測未知樣本的類別。它最主要的不足在于它需要的樣本量非常大，同時因為它沒有任何訓練的模型，每一次預(yù)測都要計算k次距離，計算量非常大。

決策樹(Decision Tree)

決策樹將分類過程抽象為一顆樹，它通過最大化信息增益的方式對樹的分支進行劃分，最終通過設(shè)置不純度的閾值來停止樹的劃分，形成最終的決策樹。它的主要優(yōu)點在于模型的訓練和預(yù)測都非常快，不足在于模型的精度有時會低于其它分類器。不過，通過集群學習(ensemble learning)的方式能夠極大的克服這一點，如采用bagging思想的random forest和采用boosting思想的GBDT，都是決策樹的延伸，它們綜合多棵決策樹的分類結(jié)果來組合出更精確的分類器。

基于規(guī)則的分類器(Rule-based Classifier)

?基于規(guī)則的分類器通常都是利用“如果…則…”一類的規(guī)則來進行分類。其適用性有限，且要獲得靠譜的規(guī)則比較困難，一般用的較少。

貝葉斯分類器（Bayes classifier）

??貝葉斯分類器其實是一類分類器，主要是利用貝葉斯公式，通過估計先驗概率和似然概率，并利用一部分先驗信息，來計算給定樣本的各維度數(shù)據(jù)值的情況下，樣本屬于某個類別的概率。

人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN ）

不必多言，當下最火效果最好的分類器。

支持向量機(Support Vector Machine, SVM)

支持向量機是線性分類器的代表。與貝葉斯分類器先估計概率密度然后計算判別函數(shù)不同，線性分類器都是直接估計線性判別式，并最小化某個目標函數(shù)，利用某種凸優(yōu)化方法求解得到最終的線性判別式。這是最流行的分類器之一，通常認為它訓練、預(yù)測速度快，而且精度靠譜，所以在各種領(lǐng)域廣泛使用。

集成學習(Ensemble Learning)

集合若干個弱分類器來組合成一個強分類器，通常有bagging和boosting兩種思路。

6. 分類器性能評估

Precision-recall：準確率-召回率，根據(jù)混淆矩陣計算
F1：結(jié)合準確率-召回率的一個綜合指標
ROC：直觀的曲線比較分類器性能
AUC：ROC的定量化表達
MAE：平均絕對誤差
RMSE：平均根方誤差

總結(jié)

以上是生活随笔為你收集整理的推荐系统常用术语 [ACM暑校]的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：浅析Windows2000/XP服务与后
下一篇：最新研究前线-深度推荐系统真的有效吗？