當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习实战】第14章利用SVD简化数据

發布時間：2025/5/22 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习实战】第14章利用SVD简化数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第14章利用SVD簡化數據

SVD 概述

奇異值分解（SVD, Singular Value Decomposition）:提取信息的一種方法，可以把 SVD 看成是從噪聲數據中抽取相關特征。從生物信息學到金融學，SVD 是提取信息的強大工具。

SVD 場景

信息檢索-隱形語義檢索（Lstent Semantic Indexing, LSI）或隱形語義分析（Latent Semantic Analysis, LSA）

隱性語義索引：矩陣 = 文檔 + 詞語

是最早的 SVD 應用之一，我們稱利用 SVD 的方法為隱性語義索引（LSI）或隱性語義分析（LSA）。

推薦系統

利用 SVD 從數據中構建一個主題空間。

再在該空間下計算其相似度。(從高維-低維空間的轉化，在低維空間來計算相似度，SVD 提升了推薦系統的效率。)

上圖右邊標注的為一組共同特征，表示美式 BBQ 空間；另一組在上圖右邊未標注的為日式食品空間。

圖像壓縮

例如：32*32=1024 => 32*2+2*1+32*2=130(2*1表示去掉了除對角線的0), 幾乎獲得了10倍的壓縮比。

SVD 原理

SVD 工作原理

矩陣分解

矩陣分解是將數據矩陣分解為多個獨立部分的過程。
矩陣分解可以將原始矩陣表示成新的易于處理的形式，這種新形式是兩個或多個矩陣的乘積。（類似代數中的因數分解）
舉例：如何將12分解成兩個數的乘積？（1，12）、（2，6）、（3，4）都是合理的答案。

SVD 是矩陣分解的一種類型，也是矩陣分解最常見的技術

SVD 將原始的數據集矩陣 Data 分解成三個矩陣 U、∑、V
舉例：如果原始矩陣 \(Data_{m*n}\) 是m行n列，
- \(U_{m*n}\) 表示m行n列
- \(∑_{m*k}\) 表示m行k列
- \(V_{k*n}\) 表示k行n列。

\(Data_{m*n} = U_{m*k} * ∑_{k*k} * V_{k*n}\)

具體的案例：（大家可以試著推導一下：https://wenku.baidu.com/view/b7641217866fb84ae45c8d17.html?）

上述分解中會構建出一個矩陣∑，該矩陣只有對角元素，其他元素均為0(近似于0)。另一個慣例就是，∑的對角元素是從大到小排列的。這些對角元素稱為奇異值。
奇異值與特征值(PCA 數據中重要特征)是有關系的。這里的奇異值就是矩陣 \(Data * Data^T\) 特征值的平方根。
普遍的事實：在某個奇異值的數目(r 個=>奇異值的平方和累加到總值的90%以上)之后，其他的奇異值都置為0(近似于0)。這意味著數據集中僅有 r 個重要特征，而其余特征則都是噪聲或冗余特征。

SVD 算法特點

優點：簡化數據，去除噪聲，優化算法的結果缺點：數據的轉換可能難以理解使用的數據類型：數值型數據

推薦系統

項目案例: 餐館菜肴推薦系統

項目概述

假如一個人在家決定外出吃飯，但是他并不知道該到哪兒去吃飯，該點什么菜。推薦系統可以幫他做到這兩點。

開發流程

收集并準備數據

def loadExData3():# 利用SVD提高推薦效果，菜肴矩陣""" 行：代表人列：代表菜肴名詞值：代表人對菜肴的評分，0表示未評分 """ return[[2, 0, 0, 4, 4, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5], [0, 0, 0, 0, 0, 0, 0, 1, 0, 4, 0], [3, 3, 4, 0, 3, 0, 0, 2, 2, 0, 0], [5, 5, 5, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 5, 0, 0, 5, 0], [4, 0, 4, 0, 0, 0, 0, 0, 0, 0, 5], [0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 4], [0, 0, 0, 0, 0, 0, 5, 0, 0, 5, 0], [0, 0, 0, 3, 0, 0, 0, 0, 4, 5, 0], [1, 1, 2, 1, 1, 2, 1, 0, 4, 5, 0]]

分析數據: 這里不做過多的討論(當然此處可以對比不同距離之間的差別)

訓練算法: 通過調用 recommend() 函數進行推薦

recommend() 會調用基于物品相似度或者是基于SVD，得到推薦的物品評分。

1.基于物品相似度

# 基于物品相似度的推薦引擎 def standEst(dataMat, user, simMeas, item): """standEst(計算某用戶未評分物品中，以對該物品和其他物品評分的用戶的物品相似度，然后進行綜合評分) Args: dataMat 訓練數據集 user 用戶編號 simMeas 相似度計算方法 item 未評分的物品編號 Returns: ratSimTotal/simTotal 評分（0～5之間的值） """ # 得到數據集中的物品數目 n = shape(dataMat)[1] # 初始化兩個評分值 simTotal = 0.0 ratSimTotal = 0.0 # 遍歷行中的每個物品（對用戶評過分的物品進行遍歷，并將它與其他物品進行比較） for j in range(n): userRating = dataMat[user, j] # 如果某個物品的評分值為0，則跳過這個物品 if userRating == 0: continue # 尋找兩個用戶都評級的物品 # 變量 overLap 給出的是兩個物品當中已經被評分的那個元素的索引ID # logical_and 計算x1和x2元素的真值。 overLap = nonzero(logical_and(dataMat[:, item].A > 0, dataMat[:, j].A > 0))[0] # 如果相似度為0，則兩著沒有任何重合元素，終止本次循環 if len(overLap) == 0: similarity = 0 # 如果存在重合的物品，則基于這些重合物重新計算相似度。 else: similarity = simMeas(dataMat[overLap, item], dataMat[overLap, j]) # print 'the %d and %d similarity is : %f'(iten,j,similarity) # 相似度會不斷累加，每次計算時還考慮相似度和當前用戶評分的乘積 # similarity 用戶相似度， userRating 用戶評分 simTotal += similarity ratSimTotal += similarity * userRating if simTotal == 0: return 0 # 通過除以所有的評分總和，對上述相似度評分的乘積進行歸一化，使得最后評分在0~5之間，這些評分用來對預測值進行排序 else: return ratSimTotal/simTotal

2.基于SVD(參考地址：http://www.codeweblog.com/svd-%E7%AC%94%E8%AE%B0/)

# 基于SVD的評分估計 # 在recommend() 中，這個函數用于替換對standEst()的調用，該函數對給定用戶給定物品構建了一個評分估計值 def svdEst(dataMat, user, simMeas, item): """svdEst(計算某用戶未評分物品中，以對該物品和其他物品評分的用戶的物品相似度，然后進行綜合評分) Args: dataMat 訓練數據集 user 用戶編號 simMeas 相似度計算方法 item 未評分的物品編號 Returns: ratSimTotal/simTotal 評分（0～5之間的值） """ # 物品數目 n = shape(dataMat)[1] # 對數據集進行SVD分解 simTotal = 0.0 ratSimTotal = 0.0 # 奇異值分解 # 在SVD分解之后，我們只利用包含了90%能量值的奇異值，這些奇異值會以NumPy數組的形式得以保存 U, Sigma, VT = la.svd(dataMat) # # 分析 Sigma 的長度取值 # analyse_data(Sigma, 20) # 如果要進行矩陣運算，就必須要用這些奇異值構建出一個對角矩陣 Sig4 = mat(eye(4) * Sigma[: 4]) # 利用U矩陣將物品轉換到低維空間中，構建轉換后的物品(物品+4個主要的特征) xformedItems = dataMat.T * U[:, :4] * Sig4.I # 對于給定的用戶，for循環在用戶對應行的元素上進行遍歷， # 這和standEst()函數中的for循環的目的一樣，只不過這里的相似度計算時在低維空間下進行的。 for j in range(n): userRating = dataMat[user, j] if userRating == 0 or j == item: continue # 相似度的計算方法也會作為一個參數傳遞給該函數 similarity = simMeas(xformedItems[item, :].T, xformedItems[j, :].T) # for 循環中加入了一條print語句，以便了解相似度計算的進展情況。如果覺得累贅，可以去掉 print 'the %d and %d similarity is: %f' % (item, j, similarity) # 對相似度不斷累加求和 simTotal += similarity # 對相似度及對應評分值的乘積求和 ratSimTotal += similarity * userRating if simTotal == 0: return 0 else: # 計算估計評分 return ratSimTotal/simTotal

排序獲取最后的推薦結果

# recommend()函數，就是推薦引擎，它默認調用standEst()函數，產生了最高的N個推薦結果。 # 如果不指定N的大小，則默認值為3。該函數另外的參數還包括相似度計算方法和估計方法 def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst): # 尋找未評級的物品 # 對給定的用戶建立一個未評分的物品列表 unratedItems = nonzero(dataMat[user, :].A == 0)[1] # 如果不存在未評分物品，那么就退出函數 if len(unratedItems) == 0: return 'you rated everything' # 物品的編號和評分值 itemScores = [] # 在未評分物品上進行循環 for item in unratedItems: estimatedScore = estMethod(dataMat, user, simMeas, item) # 尋找前N個未評級物品，調用standEst()來產生該物品的預測得分，該物品的編號和估計值會放在一個元素列表itemScores中 itemScores.append((item, estimatedScore)) # 按照估計得分，對該列表進行排序并返回。列表逆排序，第一個值就是最大值 return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[: N]

測試和項目調用，可直接參考我們的代碼

完整代碼地址:?https://github.com/apachecn/MachineLearning/blob/master/src/python/14.SVD/svdRecommend.py

要點補充

基于內容(content-based)的推薦

通過各種標簽來標記菜肴

將這些屬性作為相似度計算所需要的數據

這就是：基于內容的推薦。

構建推薦引擎面臨的挑戰

問題

1）在大規模的數據集上，SVD分解會降低程序的速度
2）存在其他很多規模擴展性的挑戰性問題，比如矩陣的表示方法和計算相似度得分消耗資源。
3）如何在缺乏數據時給出好的推薦-稱為冷啟動【簡單說：用戶不會喜歡一個無效的物品，而用戶不喜歡的物品又無效】

建議

1）在大型系統中，SVD分解(可以在程序調入時運行一次)每天運行一次或者其頻率更低，并且還要離線運行。
2）在實際中，另一個普遍的做法就是離線計算并保存相似度得分。(物品相似度可能被用戶重復的調用)
3）冷啟動問題，解決方案就是將推薦看成是搜索問題，通過各種標簽／屬性特征進行基于內容的推薦。

項目案例: 基于 SVD 的圖像壓縮

收集并準備數據

將文本數據轉化為矩陣

# 加載并轉換數據 def imgLoadData(filename):myl = [] # 打開文本文件，并從文件以數組方式讀入字符 for line in open(filename).readlines(): newRow = [] for i in range(32): newRow.append(int(line[i])) myl.append(newRow) # 矩陣調入后，就可以在屏幕上輸出該矩陣 myMat = mat(myl) return myMat

分析數據: 分析 Sigma 的長度個數

通常保留矩陣 80% ～ 90% 的能量，就可以得到重要的特征并去除噪聲。

def analyse_data(Sigma, loopNum=20): """analyse_data(分析 Sigma 的長度取值) Args: Sigma Sigma的值 loopNum 循環次數 """ # 總方差的集合（總能量值） Sig2 = Sigma**2 SigmaSum = sum(Sig2) for i in range(loopNum): SigmaI = sum(Sig2[:i+1]) ''' 根據自己的業務情況，就行處理，設置對應的 Singma 次數通常保留矩陣 80% ～ 90% 的能量，就可以得到重要的特征并取出噪聲。 ''' print '主成分：%s, 方差占比：%s%%' % (format(i+1, '2.0f'), format(SigmaI/SigmaSum*100, '4.2f'))

使用算法: 對比使用 SVD 前后的數據差異對比，對于存儲大家可以試著寫寫

例如：32*32=1024 => 32*2+2*1+32*2=130(2*1表示去掉了除對角線的0), 幾乎獲得了10倍的壓縮比。

# 打印矩陣 def printMat(inMat, thresh=0.8): # 由于矩陣保護了浮點數，因此定義淺色和深色，遍歷所有矩陣元素，當元素大于閥值時打印1，否則打印0 for i in range(32): for k in range(32): if float(inMat[i, k]) > thresh: print 1, else: print 0, print '' # 實現圖像壓縮，允許基于任意給定的奇異值數目來重構圖像 def imgCompress(numSV=3, thresh=0.8): """imgCompress( ) Args: numSV Sigma長度 thresh 判斷的閾值 """ # 構建一個列表 myMat = imgLoadData('input/14.SVD/0_5.txt') print "****original matrix****" # 對原始圖像進行SVD分解并重構圖像e printMat(myMat, thresh) # 通過Sigma 重新構成SigRecom來實現 # Sigma是一個對角矩陣，因此需要建立一個全0矩陣，然后將前面的那些奇異值填充到對角線上。 U, Sigma, VT = la.svd(myMat) # SigRecon = mat(zeros((numSV, numSV))) # for k in range(numSV): # SigRecon[k, k] = Sigma[k] # 分析插入的 Sigma 長度 analyse_data(Sigma, 20) SigRecon = mat(eye(numSV) * Sigma[: numSV]) reconMat = U[:, :numSV] * SigRecon * VT[:numSV, :] print "****reconstructed matrix using %d singular values *****" % numSV printMat(reconMat, thresh)

完整代碼地址:?https://github.com/apachecn/MachineLearning/blob/master/src/python/14.SVD/svdRecommend.py

作者：片刻?1988
GitHub地址:?https://github.com/apachecn/MachineLearning
版權聲明：歡迎轉載學習 => 請標注信息來源于?ApacheCN

轉載于:https://www.cnblogs.com/jiangzhonglian/p/7815289.html

總結

以上是生活随笔為你收集整理的【机器学习实战】第14章利用SVD简化数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python 正则表达式匹配任意字符
下一篇：算法题

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔

生活随笔

编程问答

【机器学习实战】第14章利用SVD简化数据

第14章利用SVD簡化數據

SVD 概述

SVD 場景

SVD 原理

SVD 工作原理

SVD 算法特點

推薦系統

推薦系統概述

推薦系統場景

推薦系統要點

推薦系統原理

項目案例: 餐館菜肴推薦系統

項目概述

開發流程

要點補充

項目案例: 基于 SVD 的圖像壓縮

總結

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

【机器学习实战】第14章 利用SVD简化数据

第14章 利用SVD簡化數據

SVD 概述

SVD 場景

SVD 原理

SVD 工作原理

SVD 算法特點

推薦系統

推薦系統 概述

推薦系統 場景

推薦系統 要點

推薦系統 原理

項目案例: 餐館菜肴推薦系統

項目概述

開發流程

要點補充

項目案例: 基于 SVD 的圖像壓縮

總結

【机器学习实战】第14章利用SVD简化数据

第14章利用SVD簡化數據

推薦系統概述

推薦系統場景

推薦系統要點

推薦系統原理