當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

K-Means算法的10个有趣用例

發(fā)布時(shí)間：2023/12/4 编程问答 63 豆豆

生活随笔收集整理的這篇文章主要介紹了 K-Means算法的10个有趣用例小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

K-means算法具有悠久的歷史，并且也是最常用的聚類算法之一。K-means算法實(shí)施起來非常簡單，因此，它非常適用于機(jī)器學(xué)習(xí)新手愛好者。首先我們來回顧K-Means算法的起源，然后介紹其較為典型的應(yīng)用場景。

起源

1967年，James MacQueen在他的論文《用于多變量觀測分類和分析的一些方法》中首次提出 “K-means”這一術(shù)語。1957年，貝爾實(shí)驗(yàn)室也將標(biāo)準(zhǔn)算法用于脈沖編碼調(diào)制技術(shù)。1965年，E.W. Forgy發(fā)表了本質(zhì)上相同的算法——Lloyd-Forgy算法。

什么是K-Means算法？

聚類，是將數(shù)據(jù)分成若干組，使得相同組中的數(shù)據(jù)點(diǎn)之間比其他組中的數(shù)據(jù)點(diǎn)更具有相似性。簡而言之，聚類就是將具有相似特征的數(shù)據(jù)點(diǎn)分割成一個(gè)個(gè)組，也就是一個(gè)個(gè)聚類中。K-means算法的目標(biāo)是在數(shù)據(jù)中查找一個(gè)個(gè)組，組的數(shù)量由變量K表示。根據(jù)數(shù)據(jù)所提供的特征，通過迭代運(yùn)算將每個(gè)數(shù)據(jù)點(diǎn)分配給K個(gè)組中的其中一個(gè)組。下圖中K = 2，因此可以從原始數(shù)據(jù)集中識別出兩個(gè)聚類。

在一個(gè)數(shù)據(jù)集上執(zhí)行K-means算法，其輸出分別是：

1.K中心點(diǎn)：從數(shù)據(jù)集中識別的k個(gè)聚類的每一個(gè)中心點(diǎn)。

2.數(shù)據(jù)集的完全標(biāo)記，以確保每個(gè)數(shù)據(jù)點(diǎn)都可以分配給其中一個(gè)聚類。

K-Means算法的十大用例

K-means算法通常可以應(yīng)用于維數(shù)、數(shù)值都很小且連續(xù)的數(shù)據(jù)集，比如：從隨機(jī)分布的事物集合中將相同事物進(jìn)行分組。

1.文檔分類器

根據(jù)標(biāo)簽、主題和文檔內(nèi)容將文檔分為多個(gè)不同的類別。這是一個(gè)非常標(biāo)準(zhǔn)且經(jīng)典的K-means算法分類問題。首先，需要對文檔進(jìn)行初始化處理，將每個(gè)文檔都用矢量來表示，并使用術(shù)語頻率來識別常用術(shù)語進(jìn)行文檔分類，這一步很有必要。然后對文檔向量進(jìn)行聚類，識別文檔組中的相似性。?這里是用于文檔分類的K-means算法實(shí)現(xiàn)案例。

2.物品傳輸優(yōu)化

使用K-means算法的組合找到無人機(jī)最佳發(fā)射位置和遺傳算法來解決旅行商的行車路線問題，優(yōu)化無人機(jī)物品傳輸過程。這是該項(xiàng)目的白皮書。

3.識別犯罪地點(diǎn)

使用城市中特定地區(qū)的相關(guān)犯罪數(shù)據(jù)，分析犯罪類別、犯罪地點(diǎn)以及兩者之間的關(guān)聯(lián)，可以對城市或區(qū)域中容易犯罪的地區(qū)做高質(zhì)量的勘察。這是基于德里飛行情報(bào)區(qū)犯罪數(shù)據(jù)的論文。

4.客戶分類

聚類能過幫助營銷人員改善他們的客戶群（在其目標(biāo)區(qū)域內(nèi)工作），并根據(jù)客戶的購買歷史、興趣或活動(dòng)監(jiān)控來對客戶類別做進(jìn)一步細(xì)分。這是關(guān)于電信運(yùn)營商如何將預(yù)付費(fèi)客戶分為充值模式、發(fā)送短信和瀏覽網(wǎng)站幾個(gè)類別的白皮書。對客戶進(jìn)行分類有助于公司針對特定客戶群制定特定的廣告。

5.球隊(duì)狀態(tài)分析

分析球員的狀態(tài)一直都是體育界的一個(gè)關(guān)鍵要素。隨著競爭越來愈激烈，機(jī)器學(xué)習(xí)在這個(gè)領(lǐng)域也扮演著至關(guān)重要的角色。如果你想創(chuàng)建一個(gè)優(yōu)秀的隊(duì)伍并且喜歡根據(jù)球員狀態(tài)來識別類似的球員，那么K-means算法是一個(gè)很好的選擇。具體細(xì)節(jié)和實(shí)現(xiàn)請參照這篇文章。

6.保險(xiǎn)欺詐檢測

機(jī)器學(xué)習(xí)在欺詐檢測中也扮演著一個(gè)至關(guān)重要的角色，在汽車、醫(yī)療保險(xiǎn)和保險(xiǎn)欺詐檢測領(lǐng)域中廣泛應(yīng)用。利用以往欺詐性索賠的歷史數(shù)據(jù)，根據(jù)它和欺詐性模式聚類的相似性來識別新的索賠。由于保險(xiǎn)欺詐可能會(huì)對公司造成數(shù)百萬美元的損失，因此欺詐檢測對公司來說至關(guān)重要。這是汽車保險(xiǎn)中使用聚類來檢測欺詐的白皮書。

7.乘車數(shù)據(jù)分析

面向大眾公開的Uber乘車信息的數(shù)據(jù)集，為我們提供了大量關(guān)于交通、運(yùn)輸時(shí)間、高峰乘車地點(diǎn)等有價(jià)值的數(shù)據(jù)集。分析這些數(shù)據(jù)不僅對Uber大有好處，而且有助于我們對城市的交通模式進(jìn)行深入的了解，來幫助我們做城市未來規(guī)劃。這是一篇使用單個(gè)樣本數(shù)據(jù)集來分析Uber數(shù)據(jù)過程的文章。

8.網(wǎng)絡(luò)分析犯罪分子

網(wǎng)絡(luò)分析是從個(gè)人和團(tuán)體中收集數(shù)據(jù)來識別二者之間的重要關(guān)系的過程。網(wǎng)絡(luò)分析源自于犯罪檔案，該檔案提供了調(diào)查部門的信息，以對犯罪現(xiàn)場的罪犯進(jìn)行分類。這是一篇在學(xué)術(shù)環(huán)境中，如何根據(jù)用戶數(shù)據(jù)偏好對網(wǎng)絡(luò)用戶進(jìn)行?cyber-profile的論文。

9.呼叫記錄詳細(xì)分析

通話詳細(xì)記錄（CDR）是電信公司在對用戶的通話、短信和網(wǎng)絡(luò)活動(dòng)信息的收集。將通話詳細(xì)記錄與客戶個(gè)人資料結(jié)合在一起，這能夠幫助電信公司對客戶需求做更多的預(yù)測。在這篇文章中，你將了解如何使用無監(jiān)督K-Means聚類算法對客戶一天24小時(shí)的活動(dòng)進(jìn)行聚類，來了解客戶數(shù)小時(shí)內(nèi)的使用情況。

10.IT警報(bào)的自動(dòng)化聚類

大型企業(yè)IT基礎(chǔ)架構(gòu)技術(shù)組件（如網(wǎng)絡(luò)，存儲(chǔ)或數(shù)據(jù)庫）會(huì)生成大量的警報(bào)消息。由于警報(bào)消息可以指向具體的操作，因此必須對警報(bào)信息進(jìn)行手動(dòng)篩選，確保后續(xù)過程的優(yōu)先級。對數(shù)據(jù)進(jìn)行聚類可以對警報(bào)類別和平均修復(fù)時(shí)間做深入了解，有助于對未來故障進(jìn)行預(yù)測。

來源：阿里云云棲社區(qū)

英文原文來源：

https://dzone.com/articles/10-interesting-use-cases-for-the-k-means-algorithm?spm=a2c4e.11153959.blogcont573745.17.6f9741e21SXyGP

文章版權(quán)歸原作者所有，轉(zhuǎn)載僅供學(xué)習(xí)使用，不用于任何商業(yè)用途，如有侵權(quán)請留言聯(lián)系刪除，感謝合作。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的K-Means算法的10个有趣用例的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

K-Means算法的10个有趣用例

總結(jié)