日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

Python机器学习---KNN模型评价、追求

發(fā)布時間:2023/12/15 python 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python机器学习---KNN模型评价、追求 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 1. KNN模型評價
    • 1.1 計算效率低,耗費計算資源較大
    • 1.2 抗噪性較弱,對噪聲數(shù)據(jù)(異常值)較為敏感
    • 1.3 模型不穩(wěn)定,可重復(fù)性較弱
    • 1.4要進(jìn)行歸化處理:
  • 2.模型的追求
    • 2.1 模型效果
    • 2.2 運算速度
    • 2.3 可解釋性
    • 2.4 服務(wù)于業(yè)務(wù)

1. KNN模型評價

到這里,能夠?qū)NN進(jìn)行的全部優(yōu)化就已經(jīng)完成了。KNN代表若"投票類"的算法,一直廣泛受到業(yè)界的歡迎。不過KNN也有自己的缺點,那就是它的計算非常緩慢,因為KNN必須對每一個測試點來計算到每一 個訓(xùn)練數(shù)據(jù) 點的距離,并且這些距離點涉及到所有的特征,當(dāng)數(shù)據(jù)的維度很大,數(shù)據(jù)量也很大的時候,KNN的計算會成為詛咒,大概幾萬數(shù)據(jù)就足夠讓KNN跑幾個小時了。
根據(jù)算法基本執(zhí)行流程,我們可總結(jié)最近鄰分類器的特點如下:

  • 應(yīng)用廣泛:
    最近鄰分類屬于一類更廣泛的技術(shù),這種技術(shù)稱為基于實例的學(xué)習(xí),它使用具體的訓(xùn)練實例進(jìn)行預(yù)測,而不必維護源自數(shù)據(jù)的抽象(或模型)。基于實例的學(xué)習(xí)算法需要鄰近性度量來確定實例間的相似性或距離,還需要分類函數(shù)根據(jù)測試實例與其他實例的鄰近性返回測試實例的預(yù)測類標(biāo)號。

1.1 計算效率低,耗費計算資源較大

像最近鄰分類器這樣的消極學(xué)習(xí)方法不需要建立模型,所以,學(xué)習(xí)的開銷很大,因為需要逐個計算測試樣例和訓(xùn)練樣例之間的相似度。相反,積極學(xué)習(xí)方法通常花費大量計算資源來建立模型,模型一旦建立,分類測試樣例就會非常快。

1.2 抗噪性較弱,對噪聲數(shù)據(jù)(異常值)較為敏感

最近鄰分類器基于局部信息進(jìn)行預(yù)測,而決策樹和基于規(guī)則的分類器則試圖找到一個擬合整個輸入空間的全局模型。正是因為這樣的局部分類決策,最近鄰分類器(k很小時)對噪聲非常敏感。

1.3 模型不穩(wěn)定,可重復(fù)性較弱

最近鄰分類器可以生成任意形狀的決策邊界。這樣的決策邊界與決策樹和基于規(guī)則的分類器通常所局限的直線決策邊界相比,能提供更加靈活的模型表示。最近鄰分類器的決策邊界還有很高的可變性,因為它們依賴于訓(xùn)練樣例的組合。增加最近鄰的數(shù)目可以降低這種可變性。

1.4要進(jìn)行歸化處理:

除非采用適當(dāng)?shù)泥徑远攘亢蛿?shù)據(jù)預(yù)處理,否則最近鄰分類器可能做出錯誤的預(yù)測。例如,我們想根據(jù)身高(以米為單位)和體重(以磅為單位)等屬性來對一群人分類。屬性高度的可變性很小,從1.5米到1.85米,而體重范圍則可能是從90磅到250磅。如果不考慮屬性值的單位,那么鄰近性度量可能就會被人的體重差異所左右。

2.模型的追求

2.1 模型效果

使用機器學(xué)習(xí)進(jìn)行判斷/預(yù)測的效果
如果不能接近/超過人類,那就沒有任何意義
如果人臉識別不能達(dá)到幾乎100%準(zhǔn)確
根本不可能使用人臉識別代替人工檢查
所以追求模型預(yù)測準(zhǔn)確是機器學(xué)習(xí)的核心目標(biāo)

2.2 運算速度

能夠同時處理大量數(shù)據(jù),可以在超短時間內(nèi)極速學(xué)習(xí),是機器學(xué)習(xí)的重要優(yōu)勢,如果機器學(xué)習(xí)的判斷速度不能接近/超越人類,那計算機判斷的優(yōu)越性就幾乎不存在了。
模型效果與運算速度往往是此消彼長的,在模型效果不錯的情況下保障運算速度較快,是機器學(xué)習(xí)中重要的一環(huán).

2.3 可解釋性

機器學(xué)習(xí)是一門技術(shù),是一門有門檻的技術(shù),所以大眾注定不太可能短時間內(nèi)熟悉它,但是技術(shù)人員肩負(fù)著要向老板,客戶,同事,甚至親朋好友解釋機器學(xué)習(xí)在做什么的職責(zé)。
比如說,在“是否分發(fā)信用卡"的問題中,如果算法判斷"這個人有違約風(fēng)險,不發(fā)信用卡”,那客戶很可能找上門來要個解釋,這個時候,你能告訴他說“因為算法判斷你不通過"嗎?在解釋性需求很強的領(lǐng)域,我們就需要可解釋的算法。

2.4 服務(wù)于業(yè)務(wù)

而所有的一切,都是為了服務(wù)于業(yè)務(wù)。只有模型效果優(yōu)秀,運算速度快,還帶有一部分可解釋性的算法才是最優(yōu)秀的算法。

總結(jié)

以上是生活随笔為你收集整理的Python机器学习---KNN模型评价、追求的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。