神经网络训练中,错误数据集对模型结果的影响有多大
人工智能本質(zhì)上是一門(mén)研究如何用機(jī)器代替人類(lèi)的學(xué)科,工程師們嘗試用各種算法模型來(lái)賦予機(jī)器像人類(lèi)一樣的思考與聯(lián)想能力。
在當(dāng)下所屬的弱人工智能時(shí)代,實(shí)現(xiàn)人工智能的方式主要以有監(jiān)督的深度學(xué)習(xí)方法為主,是基于已知變量和因變量推導(dǎo)函數(shù)關(guān)系的算法模型。
而作為深度學(xué)習(xí)的重要基礎(chǔ),神經(jīng)網(wǎng)絡(luò)技術(shù)無(wú)疑是行業(yè)內(nèi)最熱門(mén)的研究方向之一。探尋神經(jīng)網(wǎng)絡(luò)技術(shù)原理、優(yōu)化神經(jīng)網(wǎng)絡(luò)算法模型、規(guī)避算法調(diào)優(yōu)過(guò)程中遇到的各種問(wèn)題,一直是學(xué)界關(guān)注的焦點(diǎn)與熱議的話(huà)題。
一.神經(jīng)網(wǎng)絡(luò)概述
廣義的神經(jīng)網(wǎng)絡(luò)包含生物神經(jīng)網(wǎng)絡(luò)與人工神經(jīng)網(wǎng)絡(luò)。在人工智能領(lǐng)域,神經(jīng)網(wǎng)絡(luò)技術(shù)采用了一種仿生學(xué)的思想,即通過(guò)模擬生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能來(lái)實(shí)現(xiàn)建模,這就需要了解生物神經(jīng)元細(xì)胞的工作原理。
如下圖所示,生物神經(jīng)網(wǎng)絡(luò)的工作原理如下:
1)外部信息通過(guò)神經(jīng)末梢,轉(zhuǎn)化為電信號(hào),轉(zhuǎn)導(dǎo)到神經(jīng)細(xì)胞;
2)神經(jīng)元組成神經(jīng)中樞;
3)神經(jīng)中樞分析各種信號(hào),做出判斷;
4)人體根據(jù)神經(jīng)中樞的指令,對(duì)外部信息做出反饋。
參考生物神經(jīng)網(wǎng)絡(luò)的運(yùn)作機(jī)制,科學(xué)家們構(gòu)建了類(lèi)似的人工神經(jīng)網(wǎng)絡(luò),較為經(jīng)典就是MP神經(jīng)元模型。這是1943年由科學(xué)家McCulloch和Pitts提出,他們將神經(jīng)元的整個(gè)工作過(guò)程抽象為下述的模型:
其中:
Inputs:模擬生物神經(jīng)網(wǎng)絡(luò)中來(lái)自其他神經(jīng)元的輸入;
Weights:模擬生物神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元對(duì)外接收的突觸強(qiáng)度不同,所以外界接收的輸入乘以一定權(quán)重;
Sum:模擬生物神經(jīng)網(wǎng)絡(luò)中神經(jīng)元對(duì)外接收的信號(hào)進(jìn)行累加匯總;
Bias:模擬生物神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的一般敏感性。每個(gè)神經(jīng)元的敏感性不同,所以需要一定的偏差來(lái)調(diào)整匯總值;
Activation Function:模擬生物神經(jīng)網(wǎng)絡(luò)中信號(hào)累積到一定程度產(chǎn)生的動(dòng)作電位,當(dāng)累積到一定程度就會(huì)“激活”動(dòng)作電位;
Output:模擬生物神經(jīng)網(wǎng)絡(luò)中神經(jīng)元對(duì)外釋放的新信號(hào)。
這是一種較為簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型,應(yīng)用場(chǎng)景的局限性較強(qiáng)。
隨著技術(shù)的發(fā)展,兩層神經(jīng)網(wǎng)絡(luò)、多層神經(jīng)網(wǎng)絡(luò)開(kāi)始出現(xiàn),非線(xiàn)性分界擬合能力不斷增強(qiáng),并具備了較強(qiáng)的可應(yīng)用性,開(kāi)始廣泛應(yīng)用于自動(dòng)駕駛、語(yǔ)音識(shí)別等具體場(chǎng)景。
上圖中,左側(cè)為簡(jiǎn)單神經(jīng)網(wǎng)絡(luò),右側(cè)為多層神經(jīng)網(wǎng)絡(luò),兩者的主要區(qū)別在于中間隱藏層的層數(shù)。隱藏層可以設(shè)計(jì)多層,并形成深度神經(jīng)網(wǎng)絡(luò)(DNN, Deep Neural Network)。
通過(guò)圖片示例我們可以發(fā)現(xiàn),每增加一層隱藏層,模型的參數(shù)數(shù)量就會(huì)急劇增加,這對(duì)模型訓(xùn)練所需的數(shù)據(jù)資源提出了更高的要求,無(wú)論是數(shù)據(jù)總量還是數(shù)據(jù)質(zhì)量,要求均尤為苛刻。
二.數(shù)據(jù)錯(cuò)誤類(lèi)型
從上文中,我們知曉了數(shù)據(jù)資源對(duì)神經(jīng)網(wǎng)絡(luò)模型的重要性。如何為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練提供優(yōu)質(zhì)的標(biāo)注數(shù)據(jù)集,對(duì)神經(jīng)網(wǎng)絡(luò)模型的創(chuàng)建與調(diào)優(yōu)至關(guān)重要。
然而,在實(shí)際的標(biāo)注場(chǎng)景下,即使借助AI自動(dòng)化的輔助,仍然避免不了人為原因所產(chǎn)生的各種數(shù)據(jù)質(zhì)量問(wèn)題,常見(jiàn)的標(biāo)注錯(cuò)誤類(lèi)型包括:
類(lèi)目錯(cuò)誤:對(duì)象被錯(cuò)誤地分類(lèi),例如車(chē)輛被標(biāo)記為行人;
屬性錯(cuò)誤:對(duì)象屬性描述錯(cuò)誤,例如停放的汽車(chē)被標(biāo)注為行駛中;
遺漏錯(cuò)誤:應(yīng)當(dāng)標(biāo)注的對(duì)象卻沒(méi)有被標(biāo)注;
冗余錯(cuò)誤:不應(yīng)當(dāng)標(biāo)注的對(duì)象卻被標(biāo)注;
貼合錯(cuò)誤:未全部包含或者不貼合;
未知錯(cuò)誤:原本貼合的對(duì)象,因誤觸導(dǎo)致位置偏移。
三.數(shù)據(jù)質(zhì)量對(duì)算法模型的影響
當(dāng)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練與調(diào)優(yōu)的過(guò)程中,輸入這些質(zhì)量較差的數(shù)據(jù)集時(shí),會(huì)產(chǎn)生什么樣的結(jié)果呢?
▌1.類(lèi)目錯(cuò)誤
在一些論文中,存在類(lèi)目錯(cuò)誤的數(shù)據(jù)通常被定義為類(lèi)噪聲(Class noise)或標(biāo)簽噪聲( Label noise)。依據(jù)錯(cuò)誤產(chǎn)生的原因,類(lèi)目錯(cuò)誤可以分為隨機(jī)錯(cuò)誤與主觀錯(cuò)誤兩種:
1)隨機(jī)錯(cuò)誤
此類(lèi)錯(cuò)誤產(chǎn)生的原因?yàn)殡S機(jī),比如待標(biāo)注對(duì)象原本為“小轎車(chē)”,但標(biāo)注員卻因?yàn)樽呱駥⑵錁?biāo)注為“貨車(chē)”、“SUV”或其他類(lèi)別。
2)主觀錯(cuò)誤
標(biāo)注員主觀上將類(lèi)別判定錯(cuò)誤,比如待標(biāo)注對(duì)象原本為“小轎車(chē)”,但標(biāo)注員卻認(rèn)為其為“貨車(chē)”。
學(xué)者Zhu和Wu在論文《Class noise vs. attribute noise: A quantitative study》中對(duì)這兩種錯(cuò)誤進(jìn)行了實(shí)驗(yàn)研究,相關(guān)實(shí)驗(yàn)表明:
1)類(lèi)目錯(cuò)誤對(duì)于模型質(zhì)量有相當(dāng)?shù)呢?fù)面影響;
2)主觀錯(cuò)誤對(duì)于模型的負(fù)面影響要比隨機(jī)錯(cuò)誤更高。(參考資料2)
而學(xué)者Flatow和Penner則進(jìn)一步研究了兩類(lèi)錯(cuò)誤對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)準(zhǔn)確性的影響。結(jié)果表明類(lèi)噪聲與測(cè)試準(zhǔn)確度之間存在線(xiàn)性相關(guān)性,其中10%的類(lèi)噪聲將導(dǎo)致模型準(zhǔn)確度降低4%。(參考資料3)
此外,類(lèi)噪聲對(duì)其他機(jī)器學(xué)習(xí)算法也有負(fù)面影響,例如對(duì)決策樹(shù)、支持向量機(jī)和K近鄰 (KNN) 等(參考資料4)。
▌2.屬性錯(cuò)誤
學(xué)者Zhu和Wu曾全面研究過(guò)屬性錯(cuò)誤對(duì)模型輸出的影響。他們進(jìn)行了一項(xiàng)包含超過(guò)十萬(wàn)個(gè)樣本的研究,并引入了暗示錯(cuò)誤或主觀設(shè)置屬性的噪聲來(lái)測(cè)試對(duì)分類(lèi)的影響。
實(shí)驗(yàn)結(jié)果表明:
1)屬性錯(cuò)誤較類(lèi)目錯(cuò)誤的負(fù)面影響低,但仍然會(huì)產(chǎn)生嚴(yán)重的分類(lèi)問(wèn)題;
2)屬性與分類(lèi)之間的相關(guān)性越高,該屬性對(duì)分類(lèi)的負(fù)面影響就越大;
3)打消除包含類(lèi)噪聲或噪聲清理的實(shí)例可能會(huì)提高分類(lèi)精度。
▌3.遺漏錯(cuò)誤
依據(jù)不同的場(chǎng)景,遺漏錯(cuò)誤可能產(chǎn)生不同的結(jié)果:
1)只關(guān)注標(biāo)簽本身
當(dāng)訓(xùn)練模型只關(guān)注于標(biāo)簽本身時(shí),當(dāng)其中某個(gè)對(duì)象沒(méi)有被標(biāo)記時(shí),用于訓(xùn)練的數(shù)據(jù)總量會(huì)減少,但數(shù)據(jù)仍然可用,并不會(huì)帶來(lái)過(guò)大的負(fù)面影響。
2)關(guān)注更多事物
在3D點(diǎn)云連續(xù)幀場(chǎng)景下,需要用相同的Track ID在不同幀內(nèi)跟蹤同一個(gè)物體,比如汽車(chē)。當(dāng)中間某一幀內(nèi)的汽車(chē)漏標(biāo)后,可能導(dǎo)致Track ID中斷,導(dǎo)致軌跡追蹤模型不可用。
學(xué)者Xu等人在論文《Missing labels in object detection》中探討了遺漏標(biāo)簽對(duì)FSOD(全監(jiān)督對(duì)象檢測(cè)模型)的影響。實(shí)驗(yàn)是在RCNN(基于區(qū)域的CNN)、Faster-RCNN(基于更快區(qū)域的 CNN)、YOLO(You Only Look Once,一種基于深度神經(jīng)網(wǎng)絡(luò)的對(duì)象識(shí)別和定位算法)和SSD(單鏡頭檢測(cè)器)和WSOD(弱監(jiān)督對(duì)象檢測(cè)模型)上進(jìn)行的。
實(shí)驗(yàn)結(jié)果表明,FSOD模型的性能隨著標(biāo)簽缺失率的增加而明顯下降。值得一提的是,標(biāo)簽遺漏對(duì)WSOD模型幾乎沒(méi)有影響,但它的檢測(cè)性能卻普遍較差(參考資料5)。
▌4.冗余錯(cuò)誤
與遺漏錯(cuò)誤相反,冗余錯(cuò)誤不是漏標(biāo)而是多標(biāo),但兩者對(duì)于算法模型均具備較高的負(fù)面影響。
▌5.精度錯(cuò)誤
貼合錯(cuò)誤與位置錯(cuò)誤可統(tǒng)一稱(chēng)之為精度錯(cuò)誤。相較于此前幾類(lèi)錯(cuò)誤類(lèi)型,精度錯(cuò)誤對(duì)于最終模型的負(fù)面影響相對(duì)較小,比如使用類(lèi)目錯(cuò)誤(小轎車(chē)標(biāo)記為貨車(chē))的數(shù)據(jù)集,最終訓(xùn)練得到的算法模型是完全錯(cuò)誤不可用的(會(huì)將小轎車(chē)誤認(rèn)為貨車(chē))。
而使用精度錯(cuò)誤的數(shù)據(jù)集,最終訓(xùn)練的算法模型一定程度上是可用的(可以正常識(shí)別出小轎車(chē),但是精度欠佳)。
不過(guò),從商業(yè)化應(yīng)用的角度考量,使用這種精度錯(cuò)誤的數(shù)據(jù)訓(xùn)練得到的模型同樣也是無(wú)法使用的。比如在自動(dòng)駕駛場(chǎng)景下,算法模型需要達(dá)到極高的精準(zhǔn)度,才能盡最大程度保證自動(dòng)駕駛汽車(chē)在行駛過(guò)程中的安全性。
所以,綜上而言,在人工智能應(yīng)用深入日常生活的今天,訓(xùn)練數(shù)據(jù)集的質(zhì)量問(wèn)題需要獲得更多的關(guān)注目光,數(shù)據(jù)服務(wù)商也需要投入更多精力在提升數(shù)據(jù)集質(zhì)量與數(shù)據(jù)精度上。
總結(jié)
以上是生活随笔為你收集整理的神经网络训练中,错误数据集对模型结果的影响有多大的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Linux磁盘分区了解多少?Linux入
- 下一篇: 安卓工控主板双网口有什么用途?