日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

MachineLearning(10)-聚类

發(fā)布時(shí)間:2023/12/13 编程问答 71 豆豆
生活随笔 收集整理的這篇文章主要介紹了 MachineLearning(10)-聚类 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

聚類(lèi)

  • 1.K-mean
  • 2.系統(tǒng)聚類(lèi)
  • 3.DBSCAN聚類(lèi)算法

聚類(lèi):無(wú)監(jiān)督學(xué)習(xí),將相似的樣本聚為一類(lèi)。核心如何定義相似。
分類(lèi):有監(jiān)督學(xué)習(xí),依據(jù)分類(lèi)準(zhǔn)則,將樣本劃分為不同的類(lèi)。核心分類(lèi)器的設(shè)計(jì)(KNN)

聚類(lèi):根據(jù)彼此不同的屬性進(jìn)行辨認(rèn),將具有相似屬性的事物聚為一類(lèi),使得同一類(lèi)的事物具有高度的相似性。

1.K-mean

  • 隨機(jī)選取k個(gè)類(lèi)別中心
  • 計(jì)算每個(gè)樣本點(diǎn)到每個(gè)中心的距離,將樣本歸類(lèi)到距離最近的類(lèi)中。
  • 依據(jù)每個(gè)類(lèi)的樣本更新類(lèi)中心
  • 重復(fù)2,3直至類(lèi)中心變化小于某個(gè)閾值。
  • K-meas 算法的優(yōu)點(diǎn):簡(jiǎn)介快速,時(shí)間復(fù)雜度O(nkt)
    K-meas 算法的缺點(diǎn):需要預(yù)先知道/設(shè)定聚類(lèi)數(shù)量k

    2.系統(tǒng)聚類(lèi)

    自底向上的一種方法:初始時(shí),各個(gè)樣本自成一類(lèi),依據(jù)定義的相似度,每次合并一個(gè)類(lèi),不斷向上合并直至到達(dá)設(shè)定了類(lèi)別數(shù)

  • 定義樣本間距離和類(lèi)間距離的計(jì)算方法,每個(gè)樣本自成一類(lèi)
  • 計(jì)算任意兩個(gè)類(lèi)間距離,將距離最短的兩個(gè)類(lèi)合并
  • 重復(fù)步驟2直至聚為k類(lèi)
  • 樣本間距離:歐幾里得距離、均方距離、曼哈頓距離(1范數(shù))、余弦距離、最大距離(無(wú)窮范數(shù))
    類(lèi)間距離:最大距離、最小距離、平均距離、離差平方和距離

    系統(tǒng)聚類(lèi)的優(yōu)點(diǎn):靈活定義的距離對(duì)昂使得他有廣泛的適用性
    系統(tǒng)聚類(lèi)的缺點(diǎn):時(shí)間復(fù)雜度高,一般為o(n3)o(n^3)o(n3)

    3.DBSCAN聚類(lèi)算法

    DBSCAN:density-based spatial clustering of applications with noise
    將類(lèi)定義為:密度相連的點(diǎn)的最大集合,通過(guò)在樣本空間中不斷尋找最大集合從而完成聚類(lèi)
    有幾個(gè)基本定義:?\epsilon?領(lǐng)域,核心對(duì)象,直接密度可達(dá),密度可達(dá),密度相連

    密度可達(dá)是直接密度可達(dá)的傳遞閉包

  • 定義半徑?\epsilon?和MinPts
  • 抽取未被訪問(wèn)的樣本點(diǎn)q
  • 檢驗(yàn)是否為核心對(duì)象,是-進(jìn)入步驟4,否-返回步驟2
  • 找出該樣本點(diǎn)所有密度可達(dá)的對(duì)象,構(gòu)成聚類(lèi)CqC_qCq?.
  • 重復(fù)步驟2,直至所有樣本點(diǎn)都被訪問(wèn)過(guò)一遍
  • 能在帶噪聲的樣本空間中發(fā)現(xiàn)任意形狀的聚類(lèi)并排除噪聲

    DBSCAN聚類(lèi)的優(yōu)點(diǎn):能夠過(guò)濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本點(diǎn)。不需要制定聚類(lèi)數(shù),可以過(guò)濾噪聲,時(shí)間復(fù)雜度o(nlog?n)o(n\log n)o(nlogn)

    (概念稍微復(fù)雜點(diǎn)的一個(gè)聚類(lèi)算法)

    總結(jié)

    以上是生活随笔為你收集整理的MachineLearning(10)-聚类的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。