日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

kmeans算法_实战 | KMeans 聚类算法

發(fā)布時(shí)間:2023/12/15 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 kmeans算法_实战 | KMeans 聚类算法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1. 寫在前面

如果想從事數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)的工作,掌握常用的機(jī)器學(xué)習(xí)算法是非常有必要的,常見的機(jī)器學(xué)習(xí)算法:

  • 監(jiān)督學(xué)習(xí)算法:邏輯回歸,線性回歸,決策樹,樸素貝葉斯,K近鄰,支持向量機(jī),集成算法Adaboost等
  • 無監(jiān)督算法:聚類,降維,關(guān)聯(lián)規(guī)則, PageRank等

為了詳細(xì)的理解這些原理,曾經(jīng)看過西瓜書,統(tǒng)計(jì)學(xué)習(xí)方法,機(jī)器學(xué)習(xí)實(shí)戰(zhàn)等書,也聽過一些機(jī)器學(xué)習(xí)的課程,但總感覺話語(yǔ)里比較深?yuàn)W,讀起來沒有耐心,并且理論到處有,而實(shí)戰(zhàn)最重要, 所以在這里想用最淺顯易懂的語(yǔ)言寫一個(gè)白話機(jī)器學(xué)習(xí)算法理論+實(shí)戰(zhàn)系列。

個(gè)人認(rèn)為,理解算法背后的idea和使用,要比看懂它的數(shù)學(xué)推導(dǎo)更加重要。idea會(huì)讓你有一個(gè)直觀的感受,從而明白算法的合理性,數(shù)學(xué)推導(dǎo)只是將這種合理性用更加嚴(yán)謹(jǐn)?shù)恼Z(yǔ)言表達(dá)出來而已,打個(gè)比方,一個(gè)梨很甜,用數(shù)學(xué)的語(yǔ)言可以表述為糖分含量90%,但只有親自咬一口,你才能真正感覺到這個(gè)梨有多甜,也才能真正理解數(shù)學(xué)上的90%的糖分究竟是怎么樣的。如果算法是個(gè)梨,本文的首要目的就是先帶領(lǐng)大家咬一口。另外還有下面幾個(gè)目的:

  • 檢驗(yàn)自己對(duì)算法的理解程度,對(duì)算法理論做一個(gè)小總結(jié)
  • 能開心的學(xué)習(xí)這些算法的核心思想, 找到學(xué)習(xí)這些算法的興趣,為深入的學(xué)習(xí)這些算法打一個(gè)基礎(chǔ)。
  • 每一節(jié)課的理論都會(huì)放一個(gè)實(shí)戰(zhàn)案例,能夠真正的做到學(xué)以致用,既可以鍛煉編程能力,又可以加深算法理論的把握程度。
  • 也想把之前所有的筆記和參考放在一塊,方便以后查看時(shí)的方便。

    學(xué)習(xí)算法的過程,獲得的不應(yīng)該只有算法理論,還應(yīng)該有樂趣和解決實(shí)際問題的能力!

今天是白話機(jī)器學(xué)習(xí)算法理論+實(shí)戰(zhàn)的第八篇 之KMeans聚類算法, 聽到這個(gè)名字,你可別和第七篇K近鄰算法搞混了,K-Means 是一種非監(jiān)督學(xué)習(xí),解決的是聚類問題,這里的K表示的是聚成K類。而之前的K近鄰算法是監(jiān)督學(xué)習(xí)算法,解決的是分類問題,這里的K表示的是K個(gè)鄰居。相差十萬(wàn)八千里吧, 一條取經(jīng)路呢。一定要區(qū)分開。這個(gè)算法也不是很難,前面說道,K近鄰算法的原理可以用八個(gè)大字叫做“近朱者赤,近墨者黑”來總結(jié),這里我依然放出八個(gè)大字:“人以類聚,物以群分”,形容KMeans最好不過了。

通過今天的學(xué)習(xí),掌握KMeans算法的工作原理,然后會(huì)使用sklearn實(shí)現(xiàn)KMeans聚類,最后我們來做一個(gè)實(shí)戰(zhàn)項(xiàng)目:如何使用KMeans對(duì)圖像進(jìn)行分割??下面我們開始吧。

大綱如下:

  • KMeans聚類的工作原理(結(jié)合足球隊(duì)等級(jí)劃分談一談)
  • 20支亞洲足球隊(duì),你能劃分出等級(jí)嗎?(KMeans聚類應(yīng)用)
  • KMeans聚類的實(shí)戰(zhàn):圖像分割OK, let's go!

2. K-Means的工作原理

上面我們說過,K-Means 是一種非監(jiān)督學(xué)習(xí),解決的是聚類問題。K 代表的是 K 類,Means 代表的是中心,你可以理解這個(gè)算法的本質(zhì)是確定 K 類的中心點(diǎn),當(dāng)你找到了這些中心點(diǎn),也就完成了聚類。

那么這里有兩個(gè)問題:如何確定K類的中心點(diǎn)?如何把其他類劃分到K個(gè)類中去?

先別慌, 先和我考慮一個(gè)場(chǎng)景,假設(shè)我有 20 支亞洲足球隊(duì),想要將它們按照成績(jī)劃分成 3 個(gè)等級(jí),可以怎樣劃分?

元芳, 你怎么看?

對(duì)亞洲足球隊(duì)的水平,你可能也有自己的判斷。比如一流的亞洲球隊(duì)有誰(shuí)?你可能會(huì)說伊朗或韓國(guó)。二流的亞洲球隊(duì)呢?你可能說是中國(guó)。三流的亞洲球隊(duì)呢?你可能會(huì)說越南。

其實(shí)這些都是靠我們的經(jīng)驗(yàn)來劃分的,那么伊朗、中國(guó)、越南可以說是三個(gè)等級(jí)的典型代表,也就是我們每個(gè)類的中心點(diǎn)。

所以回過頭來,如何確定 K 類的中心點(diǎn)?一開始我們是可以隨機(jī)指派的,當(dāng)你確認(rèn)了中心點(diǎn)后,就可以按照距離將其他足球隊(duì)劃分到不同的類別中。

這也就是 K-Means 的中心思想,就是這么簡(jiǎn)單直接。

你可能會(huì)問:如果一開始,選擇一流球隊(duì)是中國(guó),二流球隊(duì)是伊朗,三流球隊(duì)是韓國(guó),中心點(diǎn)選擇錯(cuò)了怎么辦?其實(shí)不用擔(dān)心,K-Means 有自我糾正機(jī)制,在不斷的迭代過程中,會(huì)糾正中心點(diǎn)。中心點(diǎn)在整個(gè)迭代過程中,并不是唯一的,只是你需要一個(gè)初始值,一般算法會(huì)隨機(jī)設(shè)置初始的中心點(diǎn)。

那下面就給出K-Means的工作原理,兩步就搞定,就是那兩個(gè)問題的解決:

  • 選取 K 個(gè)點(diǎn)作為初始的類中心點(diǎn),這些點(diǎn)一般都是從數(shù)據(jù)集中隨機(jī)抽取的;
  • 將每個(gè)點(diǎn)分配到最近的類中心點(diǎn),這樣就形成了 K 個(gè)類,然后重新計(jì)算每個(gè)類的中心點(diǎn);(這個(gè)怎么算最近,一般是歐幾里得距離公式, 那么怎么重新計(jì)算每個(gè)類的中心點(diǎn), 每個(gè)維度的平均值就可以的)
  • 重復(fù)第二步,直到類不發(fā)生變化,或者你也可以設(shè)置最大迭代次數(shù),這樣即使類中心點(diǎn)發(fā)生變化,但是只要達(dá)到最大迭代次數(shù)就會(huì)結(jié)束。
  • 什么?還不明白??好吧,那直接看看亞洲球隊(duì)聚類的例子吧

    3. 如何給亞洲球隊(duì)做聚類

    對(duì)于機(jī)器來說需要數(shù)據(jù)才能判斷類中心點(diǎn),所以下面整理了 2015-2019 年亞洲球隊(duì)的排名,如下表所示。

    我來說明一下數(shù)據(jù)概況。

    其中 2019 年國(guó)際足聯(lián)的世界排名,2015 年亞洲杯排名均為實(shí)際排名。2018 年世界杯中,很多球隊(duì)沒有進(jìn)入到?jīng)Q賽圈,所以只有進(jìn)入到?jīng)Q賽圈的球隊(duì)才有實(shí)際的排名。如果是亞洲區(qū)預(yù)選賽 12 強(qiáng)的球隊(duì),排名會(huì)設(shè)置為 40。如果沒有進(jìn)入亞洲區(qū)預(yù)選賽 12 強(qiáng),球隊(duì)排名會(huì)設(shè)置為 50。我們?cè)趺醋鼍垲惸?#xff1f;可以跟著我的思路走了:

    • 首先,針對(duì)上面的排名,我們需要做的就是數(shù)據(jù)規(guī)范化,你可以把這些值劃分到[0,1]或者按照均值為 0,方差為 1 的正態(tài)分布進(jìn)行規(guī)范化。我先把數(shù)值規(guī)范化到了[0,1]空間中,得到了下面的數(shù)值表:如果我們隨機(jī)選取中國(guó)、日本、韓國(guó)為三個(gè)類的中心點(diǎn),我們就需要看下這些球隊(duì)到中心點(diǎn)的距離。

    • 下面就是把其其他樣本根據(jù)距離中心點(diǎn)的遠(yuǎn)近劃分到這三個(gè)類中去,有關(guān)距離可以參考KNN那一篇博客。?常用的有歐氏距離,曼哈頓距離等。這里采用歐式距離。

    • 歐氏距離是最常用的距離計(jì)算方式,這里選擇歐氏距離作為距離的標(biāo)準(zhǔn),計(jì)算每個(gè)隊(duì)伍分別到中國(guó)、日本、韓國(guó)的距離,然后根據(jù)距離遠(yuǎn)近來劃分。我們看到大部分的隊(duì),會(huì)和中國(guó)隊(duì)聚類到一起。這里我整理了距離的計(jì)算過程,比如中國(guó)和中國(guó)的歐氏距離為 0,中國(guó)和日本的歐式距離為 0.732003。如果按照中國(guó)、日本、韓國(guó)為 3 個(gè)分類的中心點(diǎn),歐氏距離的計(jì)算結(jié)果如下表所示:然后我們?cè)僦匦掠?jì)算這三個(gè)類的中心點(diǎn),如何計(jì)算呢?最簡(jiǎn)單的方式就是取平均值,然后根據(jù)新的中心點(diǎn)按照距離遠(yuǎn)近重新分配球隊(duì)的分類,再根據(jù)球隊(duì)的分類更新中心點(diǎn)的位置。計(jì)算過程這里不展開,最后一直迭代(重復(fù)上述的計(jì)算過程:計(jì)算中心點(diǎn)和劃分分類)到分類不再發(fā)生變化,可以得到以下的分類結(jié)果:所以我們能看出來第一梯隊(duì)有日本、韓國(guó)、伊朗、沙特、澳洲;第二梯隊(duì)有中國(guó)、伊拉克、阿聯(lián)酋、烏茲別克斯坦;第三梯隊(duì)有卡塔爾、泰國(guó)、越南、阿曼、巴林、朝鮮、印尼、敘利亞、約旦、科威特和巴勒斯坦。

    這個(gè)就是KMeans進(jìn)行聚類的過程了。簡(jiǎn)單點(diǎn),就是反復(fù)兩個(gè)過程:

    • 確定中心點(diǎn)
    • 把其他的點(diǎn)按照距中心點(diǎn)的遠(yuǎn)近歸到相應(yīng)的中心點(diǎn)

    上面這個(gè)也可以使用sklearn中的K-Means進(jìn)行實(shí)戰(zhàn)一下子,作為圖像分割圖像的準(zhǔn)備期。

    4. KMeans聚類實(shí)戰(zhàn):如何使用KMeans對(duì)圖像進(jìn)行分割?

    還是老規(guī)矩,我們?cè)趯?shí)戰(zhàn)之前,先看一下如何調(diào)用sklearn實(shí)現(xiàn)KMeans。

    4.1 如何使用sklearn中的KMeans算法

    sklearn 是 Python 的機(jī)器學(xué)習(xí)工具庫(kù),如果從功能上來劃分,sklearn 可以實(shí)現(xiàn)分類、聚類、回歸、降維、模型選擇和預(yù)處理等功能。這里我們使用的是 sklearn 的聚類函數(shù)庫(kù),因此需要引用工具包,具體代碼如下:

    from sklearn.cluster import KMeans

    當(dāng)然 K-Means 只是 sklearn.cluster 中的一個(gè)聚類庫(kù),實(shí)際上包括 K-Means 在內(nèi),sklearn.cluster 一共提供了 9 種聚類方法,比如 Mean-shift,DBSCAN,Spectral clustering(譜聚類)等。這些聚類方法的原理和 K-Means 不同,這里不做介紹。

    我們看下 K-Means 如何創(chuàng)建:

    KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm='auto')

    這些參數(shù)解釋一下:

    • n_clusters: 即 K 值,一般需要多試一些 K 值來保證更好的聚類效果。你可以隨機(jī)設(shè)置一些 K 值,然后選擇聚類效果最好的作為最終的 K 值;max_iter:最大迭代次數(shù),如果聚類很難收斂的話,設(shè)置最大迭代次數(shù)可以讓我們及時(shí)得到反饋結(jié)果,否則程序運(yùn)行時(shí)間會(huì)非常長(zhǎng);
    • n_init:初始化中心點(diǎn)的運(yùn)算次數(shù),默認(rèn)是 10。程序是否能快速收斂和中心點(diǎn)的選擇關(guān)系非常大,所以在中心點(diǎn)選擇上多花一些時(shí)間,來爭(zhēng)取整體時(shí)間上的快速收斂還是非常值得的。由于每一次中心點(diǎn)都是隨機(jī)生成的,這樣得到的結(jié)果就有好有壞,非常不確定,所以要運(yùn)行 n_init 次, 取其中最好的作為初始的中心點(diǎn)。如果 K 值比較大的時(shí)候,你可以適當(dāng)增大 n_init 這個(gè)值;
    • init:即初始值選擇的方式,默認(rèn)是采用優(yōu)化過的 k-means++ 方式,你也可以自己指定中心點(diǎn),或者采用 random 完全隨機(jī)的方式。自己設(shè)置中心點(diǎn)一般是對(duì)于個(gè)性化的數(shù)據(jù)進(jìn)行設(shè)置,很少采用。random 的方式則是完全隨機(jī)的方式,一般推薦采用優(yōu)化過的 k-means++ 方式;
    • algorithm:k-means 的實(shí)現(xiàn)算法,有“auto” “full”“elkan”三種。一般來說建議直接用默認(rèn)的"auto"。簡(jiǎn)單說下這三個(gè)取值的區(qū)別,如果你選擇"full"采用的是傳統(tǒng)的 K-Means 算法,“auto”會(huì)根據(jù)數(shù)據(jù)的特點(diǎn)自動(dòng)選擇是選擇“full”還是“elkan”。我們一般選擇默認(rèn)的取值,即“auto” 。
    • 在創(chuàng)建好 K-Means 類之后,就可以使用它的方法,最常用的是 fit 和 predict 這個(gè)兩個(gè)函數(shù)。你可以單獨(dú)使用 fit 函數(shù)和 predict 函數(shù),也可以合并使用 fit_predict 函數(shù)。其中 fit(data) 可以對(duì) data 數(shù)據(jù)進(jìn)行 k-Means 聚類。predict(data) 可以針對(duì) data 中的每個(gè)樣本,計(jì)算最近的類。

    下面我們先跑一遍20支亞洲球隊(duì)的聚類問題:


    # coding: utf-8
    from sklearn.cluster import KMeans
    from sklearn import preprocessing
    import pandas as pd
    import numpy as np
    # 輸入數(shù)據(jù)
    data = pd.read_csv('data.csv', encoding='gbk')
    train_x = data[["2019年國(guó)際排名","2018世界杯","2015亞洲杯"]]
    df = pd.DataFrame(train_x)
    kmeans = KMeans(n_clusters=3)
    # 規(guī)范化到[0,1]空間
    min_max_scaler=preprocessing.MinMaxScaler()
    train_x=min_max_scaler.fit_transform(train_x)
    # kmeans算法
    kmeans.fit(train_x)
    predict_y = kmeans.predict(train_x)
    # 合并聚類結(jié)果,插入到原數(shù)據(jù)中
    result = pd.concat((data,pd.DataFrame(predict_y)),axis=1)
    result.rename({0:u'聚類'},axis=1,inplace=True)
    print(result)

    運(yùn)行結(jié)果如下:


    國(guó)家 ?2019年國(guó)際排名 ?2018世界杯 ?2015亞洲杯 ?聚類
    0 ? ? ? 中國(guó) ? ? ? ? 73 ? ? ? 40 ? ? ? ?7 ? 2
    1 ? ? ? 日本 ? ? ? ? 60 ? ? ? 15 ? ? ? ?5 ? 0
    2 ? ? ? 韓國(guó) ? ? ? ? 61 ? ? ? 19 ? ? ? ?2 ? 0
    3 ? ? ? 伊朗 ? ? ? ? 34 ? ? ? 18 ? ? ? ?6 ? 0
    4 ? ? ? 沙特 ? ? ? ? 67 ? ? ? 26 ? ? ? 10 ? 0
    5 ? ? ?伊拉克 ? ? ? ? 91 ? ? ? 40 ? ? ? ?4 ? 2
    6 ? ? ?卡塔爾 ? ? ? ?101 ? ? ? 40 ? ? ? 13 ? 1
    7 ? ? ?阿聯(lián)酋 ? ? ? ? 81 ? ? ? 40 ? ? ? ?6 ? 2
    8 ? 烏茲別克斯坦 ? ? ? ? 88 ? ? ? 40 ? ? ? ?8 ? 2
    9 ? ? ? 泰國(guó) ? ? ? ?122 ? ? ? 40 ? ? ? 17 ? 1
    10 ? ? ?越南 ? ? ? ?102 ? ? ? 50 ? ? ? 17 ? 1
    11 ? ? ?阿曼 ? ? ? ? 87 ? ? ? 50 ? ? ? 12 ? 1
    12 ? ? ?巴林 ? ? ? ?116 ? ? ? 50 ? ? ? 11 ? 1
    13 ? ? ?朝鮮 ? ? ? ?110 ? ? ? 50 ? ? ? 14 ? 1
    14 ? ? ?印尼 ? ? ? ?164 ? ? ? 50 ? ? ? 17 ? 1
    15 ? ? ?澳洲 ? ? ? ? 40 ? ? ? 30 ? ? ? ?1 ? 0
    16 ? ? 敘利亞 ? ? ? ? 76 ? ? ? 40 ? ? ? 17 ? 1
    17 ? ? ?約旦 ? ? ? ?118 ? ? ? 50 ? ? ? ?9 ? 1
    18 ? ? 科威特 ? ? ? ?160 ? ? ? 50 ? ? ? 15 ? 1
    19 ? ?巴勒斯坦 ? ? ? ? 96 ? ? ? 50 ? ? ? 16 ? 1

    4.2 如何用KMeans對(duì)圖像進(jìn)行分割?

    圖像分割就是利用圖像自身的信息,比如顏色、紋理、形狀等特征進(jìn)行劃分,將圖像分割成不同的區(qū)域,劃分出來的每個(gè)區(qū)域就相當(dāng)于是對(duì)圖像中的像素進(jìn)行了聚類。單個(gè)區(qū)域內(nèi)的像素之間的相似度大,不同區(qū)域間的像素差異性大。這個(gè)特性正好符合聚類的特性,所以你可以把圖像分割看成是將圖像中的信息進(jìn)行聚類。當(dāng)然聚類只是分割圖像的一種方式,除了聚類,我們還可以基于圖像顏色的閾值進(jìn)行分割,或者基于圖像邊緣的信息進(jìn)行分割等。

    將微信開屏封面進(jìn)行分割。

    我們現(xiàn)在用 K-Means 算法對(duì)微信頁(yè)面進(jìn)行分割。微信開屏圖如下所示:我們先設(shè)定下聚類的流程,聚類的流程和分類差不多,如圖所示:在準(zhǔn)備階段里,我們需要對(duì)數(shù)據(jù)進(jìn)行加載。因?yàn)樘幚淼氖菆D像信息,我們除了要獲取圖像數(shù)據(jù)以外,還需要獲取圖像的尺寸和通道數(shù),然后基于圖像中每個(gè)通道的數(shù)值進(jìn)行數(shù)據(jù)規(guī)范化。這里我們需要定義個(gè)函數(shù) load_data,來幫我們進(jìn)行圖像加載和數(shù)據(jù)規(guī)范化。代碼如下:

    # 加載圖像,并對(duì)數(shù)據(jù)進(jìn)行規(guī)范化
    def load_data(filePath):
    ? ?# 讀文件
    ? ?f = open(filePath,'rb')
    ? ?data = []
    ? ?# 得到圖像的像素值
    ? ?img = image.open(f)
    ? ?# 得到圖像尺寸
    ? ?width, height = img.size
    ? ?for x in range(width):
    ? ? ? ?for y in range(height):
    ? ? ? ? ? ?# 得到點(diǎn)(x,y)的三個(gè)通道值
    ? ? ? ? ? ?c1, c2, c3 = img.getpixel((x, y))
    ? ? ? ? ? ?data.append([c1, c2, c3])
    ? ?f.close()
    ? ?# 采用Min-Max規(guī)范化
    ? ?mm = preprocessing.MinMaxScaler()
    ? ?data = mm.fit_transform(data)
    ? ?return np.mat(data), width, height

    因?yàn)?jpg 格式的圖像是三個(gè)通道 (R,G,B),也就是一個(gè)像素點(diǎn)具有 3 個(gè)特征值。這里我們用 c1、c2、c3 來獲取平面坐標(biāo)點(diǎn) (x,y) 的三個(gè)特征值,特征值是在 0-255 之間。

    為了加快聚類的收斂,我們需要采用 Min-Max 規(guī)范化對(duì)數(shù)據(jù)進(jìn)行規(guī)范化。我們定義的 load_data 函數(shù)返回的結(jié)果包括了針對(duì) (R,G,B) 三個(gè)通道規(guī)范化的數(shù)據(jù),以及圖像的尺寸信息。在定義好 load_data 函數(shù)后,我們直接調(diào)用就可以得到相關(guān)信息,代碼如下:

    # 加載圖像,得到規(guī)范化的結(jié)果img,以及圖像尺寸
    img, width, height = load_data('./weixin.jpg')

    假設(shè)我們想要對(duì)圖像分割成 2 部分,在聚類階段,我們可以將聚類數(shù)設(shè)置為 2,這樣圖像就自動(dòng)聚成 2 類。代碼如下:

    # 用K-Means對(duì)圖像進(jìn)行2聚類
    kmeans =KMeans(n_clusters=2)
    kmeans.fit(img)
    label = kmeans.predict(img)
    # 將圖像聚類結(jié)果,轉(zhuǎn)化成圖像尺寸的矩陣
    label = label.reshape([width, height])
    # 創(chuàng)建個(gè)新圖像pic_mark,用來保存圖像聚類的結(jié)果,并設(shè)置不同的灰度值
    pic_mark = image.new("L", (width, height))
    for x in range(width):
    ? ?for y in range(height):
    ? ? ? ?# 根據(jù)類別設(shè)置圖像灰度, 類別0 灰度值為255, 類別1 灰度值為127
    ? ? ? ?pic_mark.putpixel((x, y), int(256/(label[x][y]+1))-1)
    pic_mark.save("weixin_mark.jpg", "JPEG")

    代碼中有一些參數(shù),下面說一下這些參數(shù)的作用和設(shè)置方法:

    我們使用了 fit 和 predict 這兩個(gè)函數(shù)來做數(shù)據(jù)的訓(xùn)練擬合和預(yù)測(cè),因?yàn)閭魅氲膮?shù)是一樣的,我們可以同時(shí)進(jìn)行 fit 和 predict 操作,這樣我們可以直接使用 fit_predict(data) 得到聚類的結(jié)果。得到聚類的結(jié)果 label 后,實(shí)際上是一個(gè)一維的向量,我們需要把它轉(zhuǎn)化成圖像尺寸的矩陣。label 的聚類結(jié)果是從 0 開始統(tǒng)計(jì)的,當(dāng)聚類數(shù)為 2 的時(shí)候,聚類的標(biāo)識(shí) label=0 或者 1。
    如果你想對(duì)圖像聚類的結(jié)果進(jìn)行可視化,直接看 0 和 1 是看不出來的,還需要將 0 和 1 轉(zhuǎn)化為灰度值?;叶戎狄话闶窃?0-255 的范圍內(nèi),我們可以將 label=0 設(shè)定為灰度值 255,label=1 設(shè)定為灰度值 127。具體方法是用 int(256/(label[x][y]+1))-1。可視化的時(shí)候,主要是通過設(shè)置圖像的灰度值進(jìn)行顯示。所以我們把聚類 label=0 的像素點(diǎn)都統(tǒng)一設(shè)置灰度值為 255,把聚類 label=1 的像素點(diǎn)都統(tǒng)一設(shè)置灰度值為 127。原來圖像的灰度值是在 0-255 之間,現(xiàn)在就只有 2 種顏色(也就是灰度為 255,和灰度 127)。

    有了這些灰度信息,我們就可以用 image.new 創(chuàng)建一個(gè)新的圖像,用 putpixel 函數(shù)對(duì)新圖像的點(diǎn)進(jìn)行灰度值的設(shè)置,最后用 save 函數(shù)保存聚類的灰度圖像。這樣你就可以看到聚類的可視化結(jié)果了,如下圖所示:如果我們想要分割成 16 個(gè)部分,該如何對(duì)不同分類設(shè)置不同的顏色值呢?這里需要用到 skimage 工具包,它是圖像處理工具包。你需要使用 pip install scikit-image 來進(jìn)行安裝。這段代碼可以將聚類標(biāo)識(shí)矩陣轉(zhuǎn)化為不同顏色的矩陣:

    from skimage import color
    # 將聚類標(biāo)識(shí)矩陣轉(zhuǎn)化為不同顏色的矩陣
    label_color = (color.label2rgb(label)*255).astype(np.uint8)
    label_color = label_color.transpose(1,0,2)
    images = image.fromarray(label_color)
    images.save('weixin_mark_color.jpg')

    代碼中,我使用 skimage 中的 label2rgb 函數(shù)來將 label 分類標(biāo)識(shí)轉(zhuǎn)化為顏色數(shù)值,因?yàn)槲覀兊念伾捣秶荹0,255],所以還需要乘以 255 進(jìn)行轉(zhuǎn)化,最后再轉(zhuǎn)化為 np.uint8 類型。unit8 類型代表無符號(hào)整數(shù),范圍是 0-255 之間。

    得到顏色矩陣后,你可以把它輸出出來,這時(shí)你發(fā)現(xiàn)輸出的圖像是顛倒的,原因可能是圖像源拍攝的時(shí)候本身是倒置的。我們需要設(shè)置三維矩陣的轉(zhuǎn)置,讓第一維和第二維顛倒過來,也就是使用 transpose(1,0,2),將原來的 (0,1,2)順序轉(zhuǎn)化為 (1,0,2) 順序,即第一維和第二維互換。

    最后我們使用 fromarray 函數(shù),它可以通過矩陣來生成圖片,并使用 save 進(jìn)行保存。最后得到的分類標(biāo)識(shí)顏色化圖像是這樣的:剛才我們做的是聚類的可視化。如果我們想要看到對(duì)應(yīng)的原圖,可以將每個(gè)簇(即每個(gè)類別)的點(diǎn)的 RGB 值設(shè)置為該簇質(zhì)心點(diǎn)的 RGB 值,也就是簇內(nèi)的點(diǎn)的特征均為質(zhì)心點(diǎn)的特征。

    我給出了完整的代碼,代碼中,我可以把范圍為 0-255 的數(shù)值投射到 1-256 數(shù)值之間,方法是對(duì)每個(gè)數(shù)值進(jìn)行加 1,你可以自己來運(yùn)行下:

    # -*- coding: utf-8 -*-
    # 使用K-means對(duì)圖像進(jìn)行聚類,并顯示聚類壓縮后的圖像
    import numpy as np
    import PIL.Image as image
    from sklearn.cluster import KMeans
    from sklearn import preprocessing
    import matplotlib.image as mpimg
    # 加載圖像,并對(duì)數(shù)據(jù)進(jìn)行規(guī)范化
    def load_data(filePath):
    ? ?# 讀文件
    ? ?f = open(filePath,'rb')
    ? ?data = []
    ? ?# 得到圖像的像素值
    ? ?img = image.open(f)
    ? ?# 得到圖像尺寸
    ? ?width, height = img.size
    ? ?for x in range(width):
    ? ? ? ?for y in range(height):
    ? ? ? ? ? ?# 得到點(diǎn)(x,y)的三個(gè)通道值
    ? ? ? ? ? ?c1, c2, c3 = img.getpixel((x, y))
    ? ? ? ? ? ?data.append([(c1+1)/256.0, (c2+1)/256.0, (c3+1)/256.0])
    ? ?f.close()
    ? ?return np.mat(data), width, height
    # 加載圖像,得到規(guī)范化的結(jié)果imgData,以及圖像尺寸
    img, width, height = load_data('./weixin.jpg')
    # 用K-Means對(duì)圖像進(jìn)行16聚類
    kmeans =KMeans(n_clusters=16)
    label = kmeans.fit_predict(img)
    # 將圖像聚類結(jié)果,轉(zhuǎn)化成圖像尺寸的矩陣
    label = label.reshape([width, height])
    # 創(chuàng)建個(gè)新圖像img,用來保存圖像聚類壓縮后的結(jié)果
    img=image.new('RGB', (width, height))
    for x in range(width):
    ? ?for y in range(height):
    ? ? ? ?c1 = kmeans.cluster_centers_[label[x, y], 0]
    ? ? ? ?c2 = kmeans.cluster_centers_[label[x, y], 1]
    ? ? ? ?c3 = kmeans.cluster_centers_[label[x, y], 2]
    ? ? ? ?img.putpixel((x, y), (int(c1*256)-1, int(c2*256)-1, int(c3*256)-1))
    img.save('weixin_new.jpg')

    結(jié)果如下:你可以看到我沒有用到 sklearn 自帶的 MinMaxScaler,而是自己寫了 Min-Max 規(guī)范化的公式。這樣做的原因是我們知道 RGB 每個(gè)通道的數(shù)值在[0,255]之間,所以我們可以用每個(gè)通道的數(shù)值 +1/256,這樣數(shù)值就會(huì)在[0,1]之間。

    對(duì)圖像做了 Min-Max 空間變換之后,還可以對(duì)其進(jìn)行反變換,還原出對(duì)應(yīng)原圖的通道值。對(duì)于點(diǎn) (x,y),我們找到它們所屬的簇 label[x,y],然后得到這個(gè)簇的質(zhì)心特征,用 c1,c2,c3 表示:

    c1 = kmeans.cluster_centers_[label[x, y], 0]
    c2 = kmeans.cluster_centers_[label[x, y], 1]
    c3 = kmeans.cluster_centers_[label[x, y], 2]

    因?yàn)?c1, c2, c3 對(duì)應(yīng)的是數(shù)據(jù)規(guī)范化的數(shù)值,因此我們還需要進(jìn)行反變換,即:

    c1=int(c1*256)-1
    c2=int(c2*256)-1
    c3=int(c3*256)-1

    然后用 img.putpixel 設(shè)置點(diǎn) (x,y) 反變換后得到的特征值。最后用 img.save 保存圖像。

    5. 總結(jié)

    好了,寫到這關(guān)于KMeans,就要結(jié)束了。下面快速的回顧一下:

    首先,通過足球隊(duì)聚類的例子引出了KMeans聚類的工作原理,簡(jiǎn)單來說兩步,你可以回憶回憶。

    然后,通過KMeans實(shí)現(xiàn)了對(duì)圖像分割的實(shí)戰(zhàn),另外我們還學(xué)習(xí)了如何在 Python 中如何對(duì)圖像進(jìn)行讀寫,具體的代碼如下,上文中也有相應(yīng)代碼,你也可以自己對(duì)應(yīng)下:

    import PIL.Image as image
    # 得到圖像的像素值
    img = image.open(f)
    # 得到圖像尺寸
    width, height = img.size

    這里會(huì)使用 PIL 這個(gè)工具包,它的英文全稱叫 Python Imaging Library,顧名思義,它是 Python 圖像處理標(biāo)準(zhǔn)庫(kù)。同時(shí)我們也使用到了 skimage 工具包(scikit-image),它也是圖像處理工具包。用過 Matlab 的同學(xué)知道,Matlab 處理起圖像來非常方便。skimage 可以和它相媲美,集成了很多圖像處理函數(shù),其中對(duì)不同分類標(biāo)識(shí)顯示不同的顏色。在 Python 中圖像處理工具包,我們用的是 skimage 工具包。

    好了,KMeans的故事就到這里吧。

    參考:

    • http://note.youdao.com/noteshare?id=10dac8bb5d83358ffe73c792e1490a7b&sub=C7A3E74A1088435ABBE11AB91AC37194
    • https://time.geekbang.org/
    公眾號(hào):Python數(shù)據(jù)分析實(shí)戰(zhàn)與AI干貨

    關(guān)注我,一起進(jìn)步!

    點(diǎn)個(gè)在看,么么噠!

    總結(jié)

    以上是生活随笔為你收集整理的kmeans算法_实战 | KMeans 聚类算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 精品蜜桃av | 国产手机在线播放 | 你懂的在线免费观看 | 亚洲AV无码精品久久一区二区 | 午夜电影一区二区三区 | 国产毛片视频 | 亚洲一区二区自拍 | 欧美国产精品久久 | 一级爱爱片 | 韩国性猛交╳xxx乱大交 | 国产另类专区 | 亚洲一区二区影院 | 精品国产a线一区二区三区东京热 | h视频在线观看网站 | 色婷婷国产精品 | 欧美少妇一级片 | 黄瓜视频91| 国产91一区在线精品 | 亚洲一区色 | 国产美女精品在线 | 午夜色大片 | 美女视频黄色在线观看 | 国产五区 | 人人人人爽 | 精品在线视频一区二区 | 成人免费毛片高清视频 | 欧美日韩亚洲在线观看 | www.国产区| 大波大乳videos巨大 | 青娱乐国产在线视频 | 日韩精品无码一本二本三本色 | a级大片免费看 | 久久青青草原亚洲av无码麻豆 | 麻豆三级视频 | 中文字幕一区电影 | 国产一二三在线视频 | 成人免费看aa片 | 人人射av| 日韩在线不卡 | 成人午夜网站 | 国产一区二区不卡 | 福利所导航 | 色片在线播放 | 日日干夜夜爽 | 久草超碰在线 | 日韩在线三级 | 国产尤物网站 | 国产盗摄av | 欧美日韩精品在线 | 成人性生活毛片 | 久草福利资源在线 | 免费无码毛片一区二三区 | 亚洲大片免费观看 | 毛片在线免费观看网站 | 午夜神马福利 | 91人妻一区二区三区蜜臀 | 我和公激情中文字幕 | 日本孕妇孕交 | 草草在线免费视频 | 亚洲一区精品在线观看 | 日韩深夜在线 | 麻豆乱码国产一区二区三区 | 1级黄色大片儿 | 熟女少妇一区二区 | 亚洲香蕉中文网 | 亚洲专区一 | 亚洲黄网在线 | av秋霞 | 国产伊人一区 | 九色视频在线观看 | 91爱国产 | xxx国产精品 | 亚洲国产精品va在线看黑人 | 精品国产免费人成在线观看 | 久久久久久无码午夜精品直播 | 九一天堂 | 国产丰满麻豆 | 9191在线视频 | 久久久久国产精品视频 | 91色视频 | feel性丰满白嫩嫩hd | 欧洲美一区二区三区亚洲 | 婷婷国产精品 | 国产九九热 | 国产又粗又猛又爽又黄91 | 夜夜夜久久久 | 天天干天天操天天爱 | 一级黄色片在线免费观看 | 日精品 | 图片区 小说区 区 亚洲五月 | 中文字幕亚洲一区二区三区五十路 | 四季av中文字幕 | 亚洲色欧美另类 | 欧美一区二区三区免费 | av青青| av色婷婷 | 福利视频三区 | 91精品国产91久久久久 | 国产经典久久久 |