日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

SamplePairing:针对图像处理领域的高效数据增强方式 | PaperDaily #34

發(fā)布時(shí)間:2024/10/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SamplePairing:针对图像处理领域的高效数据增强方式 | PaperDaily #34 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.




在碎片化閱讀充斥眼球的時(shí)代,越來(lái)越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。


在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。


點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。

這是 PaperDaily 的第?34?篇文章

本期推薦的論文筆記來(lái)自 PaperWeekly 社區(qū)用戶 @chenhong本文提出了一種高效數(shù)據(jù)增強(qiáng)方式 SamplePairing,沒(méi)有任何公式,沒(méi)有任何框架,任何 CPU 都能處理。

如果你對(duì)本文工作感興趣,點(diǎn)擊底部的閱讀原文即可查看原論文。

關(guān)于作者:陳泰紅,小米高級(jí)算法工程師,研究方向?yàn)槿四槞z測(cè)識(shí)別,手勢(shì)識(shí)別與跟蹤。


■?論文 | Data Augmentation by Pairing Samples for Images Classification

■ 鏈接 | https://www.paperweekly.site/papers/1523

■ 作者 | chenhong


論文動(dòng)機(jī)


這是 IBM 在 arXiv,2018 年 1 月 9 日新掛的一篇論文,主要研究數(shù)據(jù)增強(qiáng)。核心思想很簡(jiǎn)單,小學(xué)生都會(huì),求平均值。這是我見(jiàn)到 CNN 領(lǐng)域最簡(jiǎn)單的一篇論文。?


數(shù)據(jù)增強(qiáng)是機(jī)器學(xué)習(xí)任務(wù)中廣泛使用的技術(shù),如圖像處理領(lǐng)域,人工標(biāo)注數(shù)據(jù)成本昂貴,而 CNN 的訓(xùn)練有需要大量標(biāo)注數(shù)據(jù)避免過(guò)擬合。像處理領(lǐng)域常用的數(shù)據(jù)增強(qiáng)技術(shù)有旋轉(zhuǎn)、扭曲、添加少量噪音、從原圖像裁剪等。


本文提出了一種高效數(shù)據(jù)增強(qiáng)方式 SamplePairing:從訓(xùn)練集隨機(jī)抽取的兩幅圖像疊加合成一個(gè)新的樣本(像素取平均值),可以使訓(xùn)練集規(guī)模從 N 擴(kuò)增到 N*N沒(méi)有任何公式,沒(méi)有任何框架,簡(jiǎn)單易懂簡(jiǎn)潔明了,任何 CPU 都能處理。


論文在使用 GoogLeNet,在 ILSVRC 2012 數(shù)據(jù)集從 top-1 錯(cuò)誤率從 33.5% 降低到 29%,在 CIFAR-10 數(shù)據(jù)集 top-1 錯(cuò)誤率從 8.22% 降低到 6.93%。這對(duì)訓(xùn)練集有限的任務(wù)而言,提高了模型的準(zhǔn)確性。


模型介紹



論文的模型結(jié)構(gòu) SamplePairing 如上圖所示。模型雖然很簡(jiǎn)單,但是還得消化一下為什么簡(jiǎn)單有效。?


先說(shuō)一下實(shí)現(xiàn)過(guò)程。訓(xùn)練圖像 A 是隨機(jī)的,從訓(xùn)練集隨機(jī)抓取圖像 B,(A 和 B 都是 ILSVRC2012 的圖像,分辨率 256x256)兩者都經(jīng)過(guò)基本的數(shù)據(jù)增強(qiáng)(隨機(jī)翻轉(zhuǎn),萃取),分辨率變?yōu)?224x224,對(duì)兩幅圖像求平均值,但是 label采用的是 A,之后送入 GoogLeNet 模型。因此,SamplePairing 隨機(jī)從圖像集中創(chuàng)建新的圖像,而且 label B 未使用。?


圖像 A 和 B 在模型中的權(quán)重是一致的,即使使用大型網(wǎng)絡(luò),訓(xùn)練誤差也不能變成 0,訓(xùn)練精度平均不能超過(guò) 50%。對(duì)于 N 分類器,最大訓(xùn)練精度是 0.5+1/(Nx2)。


盡管 SamplePairing 的訓(xùn)練精度不會(huì)很高,當(dāng)停止 SamplePairing 作為最終微調(diào)時(shí)的訓(xùn)練,訓(xùn)練精度和驗(yàn)證精度很快改善。


經(jīng)過(guò)微調(diào)模型,使用 SamplePairing 訓(xùn)練的網(wǎng)絡(luò)比未使用 SamplePairing 訓(xùn)練的模型都高很多。論文認(rèn)為使用 SamplePairing 是一種正則化。?


在 mix 之前有其他數(shù)據(jù)增強(qiáng)方式,在 CPU 執(zhí)行,而反向傳播的訓(xùn)練過(guò)程在 GPU 執(zhí)行,這樣 CPU 和 GPU 并行計(jì)算,沒(méi)有限制增加總的訓(xùn)練時(shí)間。?


論文的訓(xùn)練過(guò)程如下:?


1. 先不使用 SamplePairing 數(shù)據(jù)增強(qiáng)訓(xùn)練,而是先使用傳統(tǒng)的數(shù)據(jù)增強(qiáng)訓(xùn)練網(wǎng)絡(luò)。


2. 完成一個(gè) epoch(ILSVRC)或者 100 個(gè) epoch(其他數(shù)據(jù)集),加入 SamplePairing 數(shù)據(jù)增強(qiáng)。


3. 間歇性禁止 SamplePairing。對(duì)于 ILSVRC 數(shù)據(jù)集,為 300,000 個(gè)圖像啟用 SamplePairing,然后為下一個(gè) 100,000 個(gè)圖像禁用它。對(duì)于其他數(shù)據(jù)集,啟用 8 個(gè) epoch,在接下來(lái)的 2 個(gè) epoch 禁止 SamplePairing。?


4. 在訓(xùn)練損失函數(shù)和精度穩(wěn)定后,禁止 SamplePairing 作為微調(diào)。


實(shí)驗(yàn)


論文的模型在多個(gè)數(shù)據(jù)集進(jìn)行驗(yàn)證:ILSVRC 2012,CIFAR-10,CIFAR-100,以及 Street View House Numbers (SVHN) datasets。


以 CIFAR-10 為例,validation 誤差一致在波浪形震蕩,800epoch 之后才趨于穩(wěn)定,此時(shí)誤差才小于不使用 SamplePairing 的模型。?


論文表 1 所示 training error 會(huì)增加,而 validation error 會(huì)減小,說(shuō)明正則化效果明顯。在 CIFAR 訓(xùn)練集減少樣本個(gè)數(shù),訓(xùn)練和驗(yàn)證誤差相差不大。


文章評(píng)價(jià)


目前作者論文僅僅在 ILSVRC 2012 驗(yàn)證分類的錯(cuò)誤率,其他數(shù)據(jù)集比如目標(biāo)檢測(cè),語(yǔ)義分割是否有效?有研究能力的同志們趕緊往前沖,這又是一個(gè)坑。?


論文給出一種數(shù)據(jù)增強(qiáng)方式,也用實(shí)驗(yàn)驗(yàn)證確實(shí)有效,但是為什么有效?


個(gè)人認(rèn)為相當(dāng)于隨機(jī)引入噪聲,在訓(xùn)練樣本中人為引入誤導(dǎo)性的訓(xùn)練樣本。 如果不是 IBM 的論文,我估計(jì)也不會(huì)認(rèn)真研究一番的。在論文滿天飛的年代,名企名校名人還是占優(yōu)勢(shì)的。

本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!


△ 戳我領(lǐng)取新年禮物


投票參與 & 讀者福利


?參與方式??


1. 長(zhǎng)按識(shí)別下方二維碼參與投票

2. 文末留言你喜歡某篇論文的原因

3. 分享本文到朋友圈并截圖發(fā)至后臺(tái)


?截止時(shí)間??


2018年1月24日0點(diǎn)0分


?福利清單??


PaperWeekly定制手機(jī)殼 x 3份

PaperWeekly定制筆記本 x 5份

PaperWeekly定制行李牌 x 10份


△ 我們長(zhǎng)這樣哦~


長(zhǎng)按掃描二維碼,參與投票!


#?高 能 提 醒?#


1. 為了方便大家在投票過(guò)程中查看論文詳情,請(qǐng)勿使用微信內(nèi)置瀏覽器。點(diǎn)擊頁(yè)面右上角的“…”按鈕,在手機(jī)瀏覽器中打開(kāi)表單。


2. 本次評(píng)選包含自然語(yǔ)言處理計(jì)算機(jī)視覺(jué)兩大方向,請(qǐng)?jiān)谀闼x擇的參與方向下勾選3-10篇論文


3. 獲獎(jiǎng)名單將于1月25日公布,其中5位由小編根據(jù)文末留言選取,其他13位采用隨機(jī)抽取,禮物隨機(jī)發(fā)放。



長(zhǎng)按掃描二維碼,馬上投票!

? ? ? ? ???


關(guān)于PaperWeekly


PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點(diǎn)擊 |?閱讀原文?| 查看原論文

總結(jié)

以上是生活随笔為你收集整理的SamplePairing:针对图像处理领域的高效数据增强方式 | PaperDaily #34的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。