日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

fisher判别_经典模式识别:Fisher线性判别

發(fā)布時(shí)間:2025/3/19 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 fisher判别_经典模式识别:Fisher线性判别 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文將介紹Fisher線(xiàn)性判別的原理和具體實(shí)踐,閱讀時(shí)間約8分鐘,關(guān)注公眾號(hào)可在后臺(tái)領(lǐng)取數(shù)據(jù)集資源哦^-^

Fisher線(xiàn)性判別

1.背景介紹

生活中我們往往會(huì)遇到具有高維特性的數(shù)據(jù),如個(gè)人信息,天氣數(shù)據(jù)等。而在使用統(tǒng)計(jì)方法處理分類(lèi)等模式識(shí)別問(wèn)題時(shí),通常是在低維空間展開(kāi)研究的。而一般基于統(tǒng)計(jì)學(xué)習(xí)方法難以求解高維數(shù)據(jù),所以降維成了解決問(wèn)題的突破口。

對(duì)于高維空間樣本,投影到一維坐標(biāo)上,可能會(huì)出現(xiàn)樣本特征混雜的現(xiàn)象,這將難以進(jìn)行分類(lèi)。如果尋找一個(gè)投影方向,使得樣本集合在該投影方向最易區(qū)分,找尋這個(gè)最優(yōu)方向的過(guò)程就是Fisher線(xiàn)性判別所解決的問(wèn)題。

Fisher判別法的基本思想是將 類(lèi)維數(shù)據(jù)集盡可能地投影到一條直線(xiàn)方向,使得類(lèi)與類(lèi)之間盡可能分開(kāi),再通過(guò)確定一個(gè)分類(lèi)閾值來(lái)進(jìn)行分類(lèi)。

2.模型建立及求解方法

2.1基本參量

假設(shè)有個(gè)N1屬于類(lèi)的n維樣本以及N2個(gè)屬于類(lèi)的n維樣本,將兩者合并成一個(gè)集合。經(jīng)線(xiàn)性組合可得標(biāo)量:

下面定義幾個(gè)基本參量。在n維X空間中:

  • 各類(lèi)樣本均值:

  • ??? 2.各類(lèi)類(lèi)內(nèi)離散度矩陣:

    ??? 3.總類(lèi)內(nèi)離散度矩陣:

    同理我們可以求得在一維Y空間中的各類(lèi)樣本均值,各類(lèi)類(lèi)內(nèi)離散度以及總類(lèi)內(nèi)離散度矩陣。此處不再贅述。

    2.2求解

    Fisher判別想要盡可能地在一維空間分開(kāi)樣本,需要使各類(lèi)類(lèi)間差異性盡可能大(均值差盡可能大),同時(shí)類(lèi)內(nèi)離散度盡可能小。根據(jù)這一思想,我們可以設(shè)立如下準(zhǔn)則函數(shù):

    通過(guò)推導(dǎo)(此處省略,詳細(xì)過(guò)程可參考《模式識(shí)別》西安電子科技大學(xué)出版社),可以求出最優(yōu)投影方向:

    我們可以將任意未知樣本投影到該一維方向上:

    此時(shí)我們還需要設(shè)定一個(gè)閾值來(lái)對(duì)一維方向上的樣本進(jìn)行劃分。此處我們采用

    其中,

    是投影到一維方向后兩類(lèi)樣本各自的均值。

    根據(jù)公式(6),我們可以對(duì)降維后的樣本進(jìn)行分類(lèi)。

    當(dāng)樣本投影到一維后的y值大于y0時(shí),樣本屬于第一類(lèi),反之屬于第二類(lèi)。

    3.實(shí)驗(yàn)

    3.1實(shí)驗(yàn)環(huán)境

    本文使用python3.7進(jìn)行編程仿真,并使用了sklearn、numpy、matplotlib等python庫(kù)。

    3.2iris數(shù)據(jù)集分類(lèi)問(wèn)題

    iris數(shù)據(jù)集中包含了3類(lèi)鳶尾花特征數(shù)據(jù)。每一類(lèi)分別有50條樣本,每條樣本有4個(gè)維度的特征數(shù)據(jù)(花萼長(zhǎng)度,花萼寬度,花瓣長(zhǎng)度,花瓣寬度)。首先我們先對(duì)數(shù)據(jù)集進(jìn)行可視化觀察。

    我們對(duì)花萼長(zhǎng)度、寬度這兩個(gè)特征,對(duì)150條樣本進(jìn)行比較。如下圖所示,可以發(fā)現(xiàn)第一類(lèi)鳶尾花與第二、三兩類(lèi)區(qū)分較大,可以通過(guò)一條直線(xiàn)來(lái)較好地劃分。而第二、三兩類(lèi)鳶尾花之間在花萼寬度上差異較小,難以直接區(qū)分,第三類(lèi)鳶尾花的花萼長(zhǎng)度整體較長(zhǎng)。

    再對(duì)花瓣長(zhǎng)度、寬度兩個(gè)特征進(jìn)行可視化比較。如下圖所示,可以發(fā)現(xiàn)三類(lèi)鳶尾花在這兩個(gè)特征上區(qū)分較為明顯,可以較為容易的進(jìn)行區(qū)分。

    然后,我們對(duì)每?jī)深?lèi)樣本分別進(jìn)行fisher線(xiàn)性判別分類(lèi),并分別計(jì)算正確率。以第二類(lèi)和第三類(lèi)數(shù)據(jù)為例,先分別從兩類(lèi)樣本中隨機(jī)選取30個(gè)樣本作為訓(xùn)練集,剩余的20個(gè)樣本作為測(cè)試集。通過(guò)2.2中求解方法對(duì)最優(yōu)方向w進(jìn)行求解,將樣本數(shù)據(jù)投影到該方向上的一維直線(xiàn)上,效果如下圖所示:

    紅色的代表第一類(lèi)鳶尾花,藍(lán)色代表第二類(lèi)鳶尾花。可以發(fā)現(xiàn),樣本已經(jīng)較好地被區(qū)分為兩類(lèi)。

    根據(jù)公式(6)可計(jì)算得到閾值,可以將測(cè)試樣本進(jìn)行完全的區(qū)分,正確率為100%。

    對(duì)三類(lèi)數(shù)據(jù)樣本兩兩進(jìn)行分類(lèi),并將每?jī)山M10次測(cè)試結(jié)果的正確率求平均值作為最終正確率。可以得到下表:

    可以看出,第一、二類(lèi)和第一、三類(lèi)鳶尾花都可以被很好地區(qū)分開(kāi),分類(lèi)正確率穩(wěn)定在100%;而第二、三類(lèi)在某些情況下會(huì)出現(xiàn)錯(cuò)誤分類(lèi)的樣本,但整體正確率仍然較高,達(dá)到94.25%。

    由此可見(jiàn),Fisher線(xiàn)性判別在iris數(shù)據(jù)集上能夠取得較好的分類(lèi)效果。

    3.2sonar數(shù)據(jù)集分類(lèi)問(wèn)題

    Sonar數(shù)據(jù)集共207條樣本,每個(gè)樣本含有60維的特征。樣本分為R、M兩類(lèi),其中R類(lèi)樣本有96條,M樣本有111條。

    與3.1相同,我們分別將R、M兩類(lèi)樣本的60%作為訓(xùn)練集,剩下的作為測(cè)試集。其中R類(lèi)測(cè)試樣本為39條,M類(lèi)測(cè)試樣本為45條。

    由于我們不確定以多少維特征進(jìn)行Fisher線(xiàn)性判別分類(lèi)效果較好,所以我們從采用隨機(jī)抽取1維到60維特征的方式不斷測(cè)試,計(jì)算采用不同維數(shù)的特征時(shí)的分類(lèi)正確率,重復(fù)實(shí)驗(yàn)二十次。并將20次實(shí)驗(yàn)的平均值作為采用不同特征緯度下Fisher線(xiàn)性判別的分類(lèi)正確率。

    最終,我們得到的實(shí)驗(yàn)效果圖如下:

    從中,我們可以看出從采用一維特征進(jìn)行分類(lèi)到采取18維特征,正確率不斷上升,最高可達(dá)到70.2%左右;但采用維數(shù)超過(guò)18維后,分類(lèi)正確率開(kāi)呈現(xiàn)波動(dòng)下降趨勢(shì)。

    我們對(duì)數(shù)據(jù)集進(jìn)行重新劃分,觀察訓(xùn)練樣本數(shù)量對(duì)分類(lèi)效果的影響。我們分別采用占總數(shù)據(jù)集70%,60%(上文實(shí)驗(yàn)),50%的訓(xùn)練樣本進(jìn)行訓(xùn)練,并在剩余樣本中測(cè)試正確率。第一、三組實(shí)驗(yàn)結(jié)果如下:

    第一組(70%)

    第二組(50%)

    可以發(fā)現(xiàn)當(dāng)增加訓(xùn)練樣本數(shù)量時(shí),測(cè)試正確率整體上升,正確率最高上升至74.2%,且當(dāng)增加樣本維數(shù)時(shí)正確率趨于穩(wěn)定,穩(wěn)定在72%左右;當(dāng)減少訓(xùn)練樣本數(shù)量時(shí),無(wú)明顯的改善情況,整體變化趨勢(shì)與第二組實(shí)驗(yàn)接近。

    在本問(wèn)題中,考慮兩類(lèi)測(cè)試樣本的數(shù)量不同,我們采用下式計(jì)算新的閾值。

    再次進(jìn)行實(shí)驗(yàn),訓(xùn)練、測(cè)試集比例為3:2。我們可以發(fā)現(xiàn)分類(lèi)正確率并未改善。

    4.思考

    Fisher線(xiàn)性判別在對(duì)復(fù)雜樣本降維分類(lèi)的情況中具有重要作用。在對(duì)維數(shù)少的樣本進(jìn)行分類(lèi)時(shí),Fisher線(xiàn)性判別往往能起到較好的效果;在對(duì)維數(shù)較高的樣本分類(lèi)時(shí),特征冗余度上升,投影到一維直線(xiàn)后區(qū)分難度大大提高,正確率降低或無(wú)法再繼續(xù)上升。在實(shí)際分類(lèi)時(shí),我們需要對(duì)訓(xùn)練、測(cè)試樣本的比例進(jìn)行實(shí)驗(yàn),更多的訓(xùn)練樣本可能會(huì)提升分類(lèi)的正確率,但也有可能造成過(guò)擬合現(xiàn)象,降低Fisher線(xiàn)性判別的泛化能力。

    在處理維數(shù)較多數(shù)據(jù)時(shí),我們可對(duì)特征先進(jìn)行主成分分析等關(guān)聯(lián)度分析方法,降低數(shù)據(jù)維數(shù),再進(jìn)行Fisher線(xiàn)性判別,可能可以取得更理想的效果,此處不再過(guò)多論述。

    5.代碼及數(shù)據(jù)集獲取

    sklearn包自帶iris數(shù)據(jù)集,本文直接導(dǎo)入。sonar數(shù)據(jù)集可關(guān)注微信公眾號(hào)后在后臺(tái)回復(fù)sonar領(lǐng)取。代碼已上傳作者的github。

    https://github.com/zoukeh/Fisher

    上文2.2中最優(yōu)投影方向公式推導(dǎo)可參考https://blog.csdn.net/bless2015/article/details/104765976(如有侵權(quán)請(qǐng)告知)

    作者水平有限,若有錯(cuò)誤敬請(qǐng)指正。請(qǐng)多多支持關(guān)注哦^-^

    總結(jié)

    以上是生活随笔為你收集整理的fisher判别_经典模式识别:Fisher线性判别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。