日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[机器学习笔记]Note11--聚类

發布時間:2023/12/10 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [机器学习笔记]Note11--聚类 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

繼續是機器學習課程的筆記,本節介紹的是聚類方法,主要是K-means算法。

非監督學習

首先介紹監督學習和非監督學習的區別。一個監督學習的例子如下圖,給定訓練集如:{(x(1),y(1)),(x(2),y(2)),,(x(m),y(m))},每個訓練實例都有對應的標簽。

而對于非監督學習,其例子如下圖所示,給定訓練集是如:{x(1),x(2),,x(m)},,一般可以使用聚類的方法將訓練集的數據進行劃分。

K-均值算法(K-means)

K-均值是最普及的聚類算法,算法接受一個未標記的數據集,然后將數據集聚類成不同的組。

K-均值是一個迭代算法,假設我們想要將數據聚類成n個組,其方法為:

  • 首先選擇K個隨機的點,稱其為聚類中心
  • 對于數據集中的每一個數據,按照距離K個中心點的距離,將其與距離最近的中心點關聯起來,與同一個中心點關聯的所有點聚成一個類
  • 計算每一個組的平均值,將該組所關聯的中心點移動到平均值的位置
  • 重復步驟2-3,直到中心點不再變化
  • 下面是一個聚類示例,這是迭代1次的狀態,可以看出初始有3群數據,初始聚類中心有3個。如下所示

    然后是迭代3次時候的情況,如下所示,初始聚類中心開始移動。

    這是迭代10次后,初始聚類中心已經分別移動到3群數據的中心位置。

    這里用μ1,μ2,,μm來表示聚類中心,用c(1),c(2),,c(m)來存儲與第i個實例數據最近的聚類中心的索引,K-均值算法的偽代碼如下所示:

    Repeat{
    for i = 1 to m
    c(i) := index (from 1 to K) of cluster centroid closed to x(i)
    for k = 1 to K
    μk:= average (mean) of points assigned to cluster K
    }

    這個算法分為兩個步驟,第一個for循環是計算數據集每個數據與聚類中心的距離,然后分別將最近的聚類中心的索引賦值到對應的c(i),而第二個for循環就是移動聚類中心到其類平均值處。

    當然在這個過程中可能遇到有聚類中心是沒有分配數據點給它的,通常的一個做法是刪除這種聚類中心,或者是重新選擇聚類中心,保證聚類中心數還是初始設定的K個。

    K-均值算法是可以很方便將數據分為不同組的,即使是在沒有非常明顯區分的組群的情況下也可以。如下圖是一個包含身高和體重兩個特征的數據集,可以利用K-均值算法將數據分為三類,用于幫助確定將要生產的T-恤的三種尺寸。

    優化目標

    K-均值最小化問題,就是最小化所有的數據點與其所關聯的聚類中心之間的距離之和,因此K-均值的代價函數(又稱為畸變函數)為:

    J(c(1),c(2),,c(m),μ1,μ2,,μm)=1mi=1m||x(i)?μc(i)||2
    其中 μc(i)代表與 x(i)最近的聚類中心點。

    所以我們的優化目標是找出是的代價函數最小的c(1),c(2),,c(m)μ1,μ2,,μm:

    minc(1),c(2),,c(m),μ1,μ2,,μmJ(c(1),c(2),,c(m),μ1,μ2,,μm)

    回顧上一小節中K-均值迭代算法的偽代碼可知,第一個循環就是用于減小c(i)引起的代價,而第二個循環則是用于減小μi引起的代價,因此,迭代的過程一定會是每一次迭代都在減小代價函數,不然便是出現了錯誤。

    隨機初始化

    在運行K-均值算法之前,首先需要隨機初始化所有的聚類中心點,做法如下:

  • 首先應該選擇K<m,即聚類中心點的個數要小于所有訓練集實例的數量
  • 隨機選擇K個訓練實例,然后令K個聚類中心分別于這K個訓練實例相等
  • K-均值的一個問題在于,它有可能會停留在一個局部最小值處,而這取決于初始化的情況。

    為了解決這個問題,通常需要多次運行K-均值算法,每一次都重新進行隨機初始化,最后再比較多次運行K-均值的結果,選擇代價函數最小的結果。這種方法在K較小(2-10)的時候還是可行的,但是如果K較大,這種做法可能不會有明顯地改善。

    選擇聚類數

    沒有所謂最好的選擇聚類數的方法,通常是需要根據不同的問題,人工進行選擇的。選擇的時候思考我們運用K-均值算法聚類的動機是什么,然后選擇能最好服務于該目標的聚類數。

    例如,在之前給出的T-恤制造例子中,我們要將用戶按照身材聚類,我們可以分成3個尺寸S,M,L,也可以分成5個尺寸XS,S,M,L,XL,這樣的選擇是建立在回答“聚類后我們制造的T-恤是否能較好地適合我們的客戶”這個問題的基礎上做出的。

    小結

    本節課介紹了非監督學習中的聚類算法的一種最常用的K-均值算法,這種算法是比較簡單,也比較常用。它的做法是先隨機選擇K個聚類中心,然后計算每個數據點到這K個聚類中心的距離,然后劃分數據點到其最近的聚類中心,并視為一類,然后計算每類的平均值,再將聚類中心移動到這個類平均值處,然后再重復這幾個步驟,直到聚類中心不再移動。

    該算法的不足就是聚類中心數目的選擇是需要多次實驗才能得到最佳的,同時對于初始的聚類中心數,一般是使用隨機初始化,所以可能導致算法落入局部最優,在K較小的情況可以多次運行算法,選擇代價函數最小的一個。

    總結

    以上是生活随笔為你收集整理的[机器学习笔记]Note11--聚类的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 九月婷婷 | 亚洲黄色小说网 | 亚洲精品黄色 | 又爽又黄视频 | 亚洲精品国产精品乱码不66 | aise爱色av| 青草视频在线免费观看 | 丰满人妻在公车被猛烈进入电影 | 国产在线资源 | 欧美日韩一本 | www国产精品视频 | 黄色天堂| japanese av在线 | 国产毛片欧美毛片久久久 | 日本高清无吗 | 国产精品高潮av | 亚洲av无码一区二区二三区软件 | 日本一道本在线 | 男人添女人下部高潮全视频 | 一级美女大片 | 欧美做爰xxxⅹ性欧美大片 | 色视av| 亚洲精品视频在线观看免费 | 国产精品视频免费在线观看 | 久久久久久久网 | 精品久久久视频 | 99色国产| 九九久久国产精品 | 麻豆精品视频在线 | 粗大挺进潘金莲身体在线播放 | 草草影院在线免费观看 | 黄色短视频在线观看 | www免费视频 | 国产午夜视频在线播放 | 深夜国产福利 | 亚洲天堂网络 | 黄网站视频在线观看 | 日本三级韩国三级三级a级中文 | 亚洲精品美女网站 | va毛片| 日韩欧美精品 | ass大乳尤物肉体pics | 四虎最新网址在线观看 | 国产美女永久免费 | 国产露脸国语对白在线 | 欧美日韩 一区二区三区 | 少妇无码av无码专区在线观看 | 天干夜夜爽爽日日日日 | 大香伊人 | 激情久久五月 | 久久久久久久久久久久 | 国产午夜在线 | 国产精彩视频一区二区 | 一区二区三区精品久久久 | 日本a视频 | 99久久99久久精品免费看蜜桃 | 高潮爽爆喷水h | 天堂久久久久 | 日韩女女同性aa女同 | 大胸喷奶水www视频妖精网站 | 一边摸一边做爽的视频17国产 | 一级做a爱 | 日韩在线观看精品 | 中文字幕35页 | 高清国产午夜精品久久久久久 | 亚洲老妇色熟女老太 | 少妇高清精品毛片在线视频 | 欧美激情精品久久 | 一边吃奶一边摸做爽视频 | 草久免费视频 | 日韩欧美一区二区三区在线 | 免费网站91| 九七影院在线观看免费观看电视 | 久久国产主播 | 边打电话边做 | 亚洲成人免费在线观看 | 亚洲久久久| 玖玖玖在线观看 | 欧美透逼视频 | 韩日视频 | 日皮在线观看 | 欧美美女在线 | 人成网站在线观看 | 中文字幕乱码亚洲精品一区 | 国产永久精品 | 亚洲在线色 | 亚洲片国产一区一级在线观看 | 海角社区id | 国产在线999| 久久免费黄色 | 亚州av一区| yw视频在线观看 | 国产在线视视频有精品 | 裸体按摩www性xxxcom | 欧美精品乱码久久久久久 | 亚洲在线激情 | 先锋影音一区二区三区 | 91视| 在线播放一区 |