日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘算法_技术分享|大数据挖掘算法之KNNk近邻算法

發布時間:2024/7/19 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘算法_技术分享|大数据挖掘算法之KNNk近邻算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

程一艦

數據技術處

? ? ? K最近鄰(kNN,k-NearestNeighbor)分類算法是數據挖掘分類技術中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。KNN是通過測量不同特征值之間的距離進行分類。其基本思想可以用這樣一句俗語來解釋——“近朱者赤,近墨者黑”。

一、原理介紹K近鄰的思路是如果一個樣本在特征空間中的k個最鄰近的樣本中的大多數屬于某一個類別,則該樣本也劃分為這個類別。通過下面的這張圖就好理解了:如果要確定綠點屬于哪個顏色(紅色或者藍色),要做的就是選出距離目標點距離最近的k個點,看這k個點的大多數顏色是什么顏色。當k取3的時候,我們可以看出距離最近的三個,分別是紅色、紅色、藍色,因此得到目標點為紅色。

二、算法步驟

K緊鄰分類主要分為以下幾個步驟:

1)計算測試數據與各個訓練數據之間的距離;2)按照距離的遞增關系進行排序;3)選取距離最小的K個點;4)確定前K個點所在類別的出現頻率;5)返回前K個點中出現頻率最高的類別作為測試數據的預測分類三、實例說明下面用一個經過改造了的Peter Harrington的《機器學習實戰》中電影分類的例子(當然實際情況不可能這么簡單)來說明該算法的用法。第一步:準備下電影分類數據集(電影名稱與分類來自于優酷網;鏡頭數量則純屬虛構):上面數據集中序號1-12為已知的電影分類,分為喜劇片、動作片、愛情片三個種類,使用的特征值分別為搞笑鏡頭、打斗鏡頭、擁抱鏡頭的數量。那么來了一部新電影《唐人街探案》,它屬于上述3個電影分類中的哪個類型?用KNN是怎么做的呢?首先,我們構建一個已分好類的數據集。對于一個規模巨大的數據集,顯然數據庫是更好的選擇。這里為了方便驗證,使用Python的字典dict構造數據集。第二步:計算一個新樣本與數據集中所有數據的距離。這里的新樣本就是:"唐人街探案": [23, 3, 17, "?片"]。歐式距離是一個非常簡單又最常用的距離計算方法。其中x,y為2個樣本,n為維度,xi,yi為x,y第i個維度上的特征值。如x為:"唐人街探案": [23, 3, 17, "?片"],y為:"倫敦陷落": [2, 3, 55, "動作片"],則兩者之間的距離為:下面為求與數據集中所有數據的距離代碼:第三步:按照距離大小進行遞增排序。KNN.sort(key=lambda dis: dis[1])輸出結果:第四步:選取距離最小的*k**個樣本。*這里取k=5;KNN=KNN[:5]輸出:[['我的特工爺爺', 17.49], ['美人魚', 18.55], ['功夫熊貓3', 21.47], ['寶貝當家', 23.43], ['澳門風云3', 32.14]]第五步:確定前*k**個樣本所在類別出現的頻率,并輸出出現頻率最高的類別。*輸出結果:[('喜劇片', 4), ('動作片', 1), ('愛情片', 0)]喜劇片四、總結

KNN算法是最簡單有效的分類算法,簡單且容易實現。當訓練數據集很大時,需要大量的存儲空間,而且需要計算待測樣本和訓練數據集中所有樣本的距離,所以非常耗時。KNN對于隨機分布的數據集分類效果較差,對于類內間距小,類間間距大的數據集分類效果好,而且對于邊界不規則的數據效果好于線性分類器。KNN對于樣本不均衡的數據效果不好,需要進行改進。改進的方法時對k個近鄰數據賦予權重,比如距離測試樣本越近,權重越大。KNN很耗時,時間復雜度為O(n),一般適用于樣本數較少的數據集,當數據量大時,可以將數據以樹的形式呈現,能提高速度,常用的有kd-tree和ball-tree。大數據平臺將一如既往的為各種數據挖掘類應用提供算力支持,為我行金融科技發展打造堅持的大數據平臺支撐。

總結

以上是生活随笔為你收集整理的数据挖掘算法_技术分享|大数据挖掘算法之KNNk近邻算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。