计算机视觉与模式识别速成
生活随笔
收集整理的這篇文章主要介紹了
计算机视觉与模式识别速成
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
模式識別的基本定義
分類:輸出量是離散的類別表達(dá),即輸出待識別模式所屬的類別
回歸:輸出量是連續(xù)的信號表達(dá)(回歸值) ,輸出量維度:單個/多個維度
模式識別:根據(jù)已有知識的表達(dá),針對待識別模式,判別決策其 所屬的類別或者預(yù)測其對應(yīng)的回歸分類(Classificat
(特征提取(feature extraction):從原始輸入數(shù)據(jù)提取更有效的信息 ?回歸器(regressor):將特征映射到回歸值 判別函數(shù):使用一些特定的非線性函數(shù)來實現(xiàn),記作函數(shù)g 。由于判別函數(shù)通常固定已知,所以不把它當(dāng)做模型的一部分 特征: 可以用于區(qū)分不同類別模式的、可測量的量。 例子:針對橙子和蘋果兩個類,形狀or顏色? 輸入數(shù)據(jù)也可以看做是一種原始特征表達(dá)。 特征的特點:魯棒性特征空間:每個坐標(biāo)軸代表一維特征
空間中的每個點代表一個模式(樣本) 從坐標(biāo)原點到任意一點(模式)之間的向量即為該模式的特征 向量。?
?練樣本
特征向量
一組訓(xùn)練樣本(數(shù)據(jù)),記作
? 每個訓(xùn)練樣本 , 都是通過采樣得到的一個模式,即輸入特征空 間中的一個向量;通常是高維度(即 p 很大),例如一幅圖像。 ? 訓(xùn)練樣本可以認(rèn)為是尚未加工的原始知識,模型則是經(jīng)過學(xué)習(xí)(即加工 整理歸納等)后的真正知識表達(dá)。 ? 所有訓(xùn)練樣本假設(shè)滿足independent and identical distribution (iid) 。 ? 如果想學(xué)得好,這組訓(xùn)練樣本要覆蓋模型所有可能的分布空間。 模型的參數(shù)和結(jié)構(gòu) ? 模型的參數(shù): ? 模型的結(jié)構(gòu):函數(shù) f 的形式。 ? 可見,模型結(jié)構(gòu)決定了模型有哪些參數(shù)。 ? 通常情況下,模型的結(jié)構(gòu)是設(shè)計人員事先給定的。 ? 如何學(xué)習(xí)模型結(jié)構(gòu)是當(dāng)前和未來機器學(xué)習(xí)領(lǐng)域的研究內(nèi)容之一。 線性模型 非線性模型 特征向量的定義 訓(xùn)練樣本個數(shù)=模型參數(shù)個數(shù)(N=M )參數(shù)有唯一的解。 訓(xùn)練樣本個數(shù) > 模型參數(shù)個數(shù)(N>M,Over-determined):沒有準(zhǔn)確的解。 訓(xùn)練樣本個數(shù)< 模型參數(shù)個數(shù)(N<M, Under-determined) : 無數(shù)個解/無解。 對亍over-determined的情況,需要額外添加一個標(biāo)準(zhǔn),通過優(yōu)化該標(biāo) 準(zhǔn) 來確定一個近似解。該標(biāo)準(zhǔn)就叫目標(biāo)函數(shù)(Objective function), 也稱 作代價函數(shù)(cost function)或損失函數(shù)(loss function)。 真值(ground truth):針對每個訓(xùn)練樣本 ,其對應(yīng)的真實 正確的輸出值, 記作 。 標(biāo)簽(label):對亍分類仸務(wù),真值又稱作標(biāo)簽。 通常,每個真值是一個向量 。二類分類:真值是一個標(biāo)量 。 標(biāo)注(labeling):給每個訓(xùn)練樣本標(biāo)出真值的過程。目前,主 要由人工完成。 標(biāo)注的樣本(labeled samples):有提供真值的樣本。 未標(biāo)注的樣本(unlabeled samples):沒有提供真值的樣本。 強化學(xué)習(xí) 有些仸務(wù)需要先后累積多次決策勱作才能知道最終結(jié)果好壞, 很難針對單次決策給出對應(yīng)的真值,例如,棋類游戲。 ?強化學(xué)習(xí):機器自行探索決策、真值滯后反饋的過程。 定義從輸入狀態(tài)到勱作決策為一個策略(policy) 使用該策略迚行決策探索時,給予每次決策一個獎勵(reward) ?累積多次獎勵獲得回報值(return) ?回報的期望值作為該策略的價值函數(shù)(value function) ?通過最大化回報的期望值,解出策略的參數(shù) 誤差(error):模型(機器)給出的預(yù)測/決策輸出與真值輸 出之間的差異。 訓(xùn)練誤差( training error):模型在訓(xùn)練集上的誤差。 測試誤差(test error):模型在測試集上的誤差。它反映了模 型的泛化能力,也稱作泛化誤差。 訓(xùn)練樣本存在的問題: 訓(xùn)練樣本稀疏:給定的訓(xùn)練樣本數(shù)量是有限的(即有限采 樣),很難完整表達(dá)樣本真實分布。 訓(xùn)練樣本采樣過程可能不均勻:有些區(qū)域采樣密一些,有些 區(qū)域采樣稀疏一些。 一些訓(xùn)練樣本可能帶有噪聲。 泛化能力:訓(xùn)練得到的模型不僅要對訓(xùn)練樣本具有決策能力, 也要對新的(訓(xùn)練過程中未看見)的模式具有決策能力。 過擬合(over-fitting): 模型訓(xùn)練階段表現(xiàn)很好,但是在測試階段表現(xiàn)很差。 模型過于擬合訓(xùn)練數(shù)據(jù)。 對于回歸任務(wù):測試誤差。 二類分類:真陽性(TP),假陽性(FP),真陰性(TN),假陰性(FN) 多類分類:依次以單個類作為正類,其余為負(fù)類混淆矩陣
?
?
?根據(jù)模型的預(yù)測數(shù)值,對樣本迚
行從高到低排序,排在前面的樣 本是正例的可能性更高。 按此順序逐個樣本作為正例迚行 預(yù)測(或設(shè)置閾值截斷正例和負(fù) 例),則每次可以計算一個召回 率和精度。 將這些值連成(擬合)一條曲線?
橫軸:False positive rate (FPR),度量所有陰性樣本中被錯誤 識別為陽性的比率。FPR=1-specificity。 ? 縱軸:True positive rate (TPR),即recall。度量所有陽性樣本 被識別為陽性的比例。 理想性能:左上角(0,1)處。 ROC曲線越往左上凸,說明模型的性能越好。 對角線:隨機識別的ROC曲線。 繪制方法:不PR曲線相似。? ? ? ? ROC曲線:對于各類別之間 樣本分布比例不敏感,因為 FPR和TPR各自只跟真值為 負(fù) 或真值為正的樣本相關(guān)。 ? PR曲線:對于各類別樣本分 布比例敏感,因為precision 同時和真值正負(fù)的樣本都相關(guān) MED分類器?
?
?
?特征正交白化
將原始特征映射到一個新的特征空間,使得在新空間 中特征的協(xié)方差矩陣為單位矩陣,從而去除特征變化 的不同及特征之間的相關(guān)性。 將特征轉(zhuǎn)換分為兩步:先去除特征之間的相關(guān)性(解耦, Decoupling), 然后再對特征進(jìn)行尺度變換(白化, Whitening),使每維特征的方差 相等?
Classification)總結(jié)
以上是生活随笔為你收集整理的计算机视觉与模式识别速成的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7下通过easyBCD引导安装Ub
- 下一篇: 英语练嘴宝典