日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Re-parameterizing Your Optimizers rather than Architectures

發(fā)布時(shí)間:2023/12/18 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Re-parameterizing Your Optimizers rather than Architectures 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Re-parameterizing Your Optimizers rather than Architectures

paper:https://arxiv.org/abs/2205.15242

摘要

神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)良好反應(yīng)了納入模型的先驗(yàn)知識(shí),盡管不同的模型考慮了不同的先驗(yàn),但是仍舊習(xí)慣于使用模型無(wú)關(guān)優(yōu)化器SGD對(duì)其訓(xùn)練。在本文中提出了一種新的范式,將特定于模型的先驗(yàn)知識(shí)合并到優(yōu)化器中訓(xùn)練模型。提出了一種新的方法,通過(guò)一組特定于模型的超參數(shù)修改梯度來(lái)添加先驗(yàn)知識(shí),稱為梯度重參數(shù)化,優(yōu)化器稱為重優(yōu)化器。

介紹

神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)是將先驗(yàn)知識(shí)整合到模型中,如ResNet的殘差加法。高質(zhì)量的結(jié)構(gòu)先驗(yàn)對(duì)神經(jīng)網(wǎng)絡(luò)至關(guān)重要。另一方面優(yōu)化方法也發(fā)揮著重要作用,可分為三類:

  • 一階方法,例如SGD及其變體
  • 高階方法,利用曲率信息,但面臨計(jì)算的挑戰(zhàn)
  • 對(duì)于目標(biāo)函數(shù)的導(dǎo)數(shù)可能不存在的情況使用無(wú)導(dǎo)數(shù)方法
  • 我們注意到:

  • 雖然高階優(yōu)化器以不同的方式改進(jìn)了訓(xùn)練過(guò)程,但他們沒(méi)有特定于模型的先驗(yàn)知識(shí)
  • 雖然我們通過(guò)設(shè)計(jì)結(jié)構(gòu)不斷將我們的理解加入模型,但我們使用SGD等模型無(wú)關(guān)優(yōu)化器對(duì)其進(jìn)行訓(xùn)練
  • **一種新的范式。**我們提出了通用結(jié)構(gòu)+特定優(yōu)化器。通用模型意味著模型應(yīng)該盡可能少地具有結(jié)構(gòu)先驗(yàn)知識(shí),特定優(yōu)化器指優(yōu)化器通過(guò)以特定于模型的方式更改訓(xùn)練動(dòng)態(tài)來(lái)實(shí)現(xiàn)更好的性能。
    **基于SGD的優(yōu)化器方法。**本文主要研究深度神經(jīng)網(wǎng)絡(luò),因此我們只考慮基于SGD的優(yōu)化器,但思想可推廣到高階或無(wú)導(dǎo)數(shù)方法,由于SGD核心使用梯度更新參數(shù),建議在更新可訓(xùn)練參數(shù)前通過(guò)根據(jù)一組特定于模型的超參數(shù)修改梯度,使優(yōu)化器模型特定,為了獲得這些超參數(shù),提出了一種超搜索方法。
    我們希望通過(guò)與RepVGG及其關(guān)鍵方法結(jié)構(gòu)重參數(shù)化的比較,突出本文工作的新穎性,因此采用RepVGG作為基線,但方法不同

    差異總結(jié)如下

  • RepVGG向具有精心設(shè)計(jì)結(jié)構(gòu)的模型中添加了優(yōu)先級(jí),并使用通用優(yōu)化器,但RepOptVGG向優(yōu)化器中添加了優(yōu)先級(jí)
  • 與RepOptVGG相比,雖然轉(zhuǎn)換后的RepVGG具有相同的推理時(shí)間,但訓(xùn)練時(shí)間RepVGG要復(fù)雜得多,需要花費(fèi)更多的時(shí)間和內(nèi)存進(jìn)行訓(xùn)練
  • 可以使用自定義優(yōu)化器實(shí)現(xiàn)等效的訓(xùn)練效果,在訓(xùn)練過(guò)程中產(chǎn)生一樣的輸出
  • 該范式可以推廣到其他模型和優(yōu)化方法。

    RepOptVGG也是一種良好的基礎(chǔ)模型,具有高效推理和訓(xùn)練時(shí)間的特點(diǎn)

  • 內(nèi)存消耗低,并行度高
  • 訓(xùn)練時(shí)對(duì)計(jì)算資源有限、希望快速交付或快速迭代模型的應(yīng)用場(chǎng)景
  • 除了訓(xùn)練效率外,重優(yōu)化器還克服了結(jié)構(gòu)重參數(shù)化的量化難題
  • 相關(guān)工作

    RepVGG采用了一種名為結(jié)構(gòu)重參數(shù)化的方法,將訓(xùn)練時(shí)的卷積操作進(jìn)行重新組合提高推理時(shí)的速度,顯著缺點(diǎn)是額外的訓(xùn)練成本無(wú)法避免。
    RepOptVGG梯度重參數(shù)化擴(kuò)展和深化了結(jié)構(gòu)重參數(shù)化,沒(méi)有改變可訓(xùn)練參數(shù)的形式,也沒(méi)有引入額外的正向、反向計(jì)算。

    RepOptimizers

    重優(yōu)化器通過(guò)改變?cè)嫉挠?xùn)練動(dòng)態(tài)來(lái)工作,采用了三個(gè)步驟:

  • 定義一個(gè)先驗(yàn)知識(shí)和想象一個(gè)復(fù)雜結(jié)構(gòu)來(lái)反應(yīng)知識(shí)
  • 研究了如何用一個(gè)簡(jiǎn)單的目標(biāo)結(jié)構(gòu)來(lái)實(shí)現(xiàn)等價(jià)的訓(xùn)練動(dòng)量,該目標(biāo)結(jié)構(gòu)的梯度根據(jù)一些超參數(shù)進(jìn)行修改
  • 獲得超參數(shù)來(lái)構(gòu)建重優(yōu)化器
  • 重優(yōu)化器的設(shè)計(jì)取決于給定的模型和先驗(yàn)知識(shí)。

    將知識(shí)融入結(jié)構(gòu)

    重優(yōu)化的核心是我們希望使用優(yōu)化器的先驗(yàn)知識(shí)。一般使用多個(gè)分支的輸入和輸出相加,以不同尺度進(jìn)行加權(quán),從而提高模型的性能。我們希望改進(jìn)VGG系列的模型,選擇RepVGG的結(jié)構(gòu)設(shè)計(jì)。

    將結(jié)構(gòu)先驗(yàn)轉(zhuǎn)化為等效的重優(yōu)化

    之前的先驗(yàn)知識(shí)每個(gè)分支僅包含一個(gè)具有可選常數(shù)尺度的線性可訓(xùn)練算子,只要適當(dāng)設(shè)置尺度特征來(lái)進(jìn)行融合,模型的性能仍會(huì)提高,我們將這種線性模塊稱為常數(shù)尺度線性假加法(CSLA)。
    可以使用一個(gè)操作來(lái)替換CSLA模塊,并通過(guò)將梯度乘以常數(shù)尺度當(dāng)初的掩碼來(lái)實(shí)現(xiàn)等效的訓(xùn)練動(dòng)量,意味著如果使用相同的訓(xùn)練數(shù)據(jù),在訓(xùn)練迭代之后產(chǎn)生的輸出是相等的。我們將此類掩碼稱為梯度掩碼。

    展示兩個(gè)卷積和兩個(gè)常數(shù)尺度作為尺度因子的結(jié)論:
    設(shè)αA,αB為兩個(gè)常數(shù)標(biāo)量,W(A),W(B)為兩個(gè)形狀相同的conv核,X和Y為輸入和輸出,? 表示卷積,CSLA塊的計(jì)算流程表示為YCSLA=αA(X? W(A))+αB(X? W(B))。
    對(duì)于GR,我們直接訓(xùn)練W0參數(shù)化的目標(biāo)結(jié)構(gòu),以便YGR=X? W’,設(shè)i為訓(xùn)練迭代次數(shù),我們可以確保Y(i)CSLA=Y(i)GR,同時(shí)需要根據(jù)兩條規(guī)則:

  • 初始化規(guī)則:W0應(yīng)初始化為W0(0)← αAW(A)(0)+αBW(B)(0)。換句話說(shuō),GR對(duì)應(yīng)物應(yīng)與CSLA對(duì)應(yīng)物一樣使用等效參數(shù)(可通過(guò)線性輕松獲得)初始化,以使其初始輸出相同。
  • 迭代規(guī)則:當(dāng)使用常規(guī)SGD更新規(guī)則更新CSLA對(duì)應(yīng)項(xiàng)時(shí),GR對(duì)應(yīng)項(xiàng)的梯度應(yīng)乘以(α2A+α2B)。形式上,讓L為目標(biāo)函數(shù),λ為學(xué)習(xí)率,我們應(yīng)該更新W0。

    當(dāng)CSLA=GR時(shí),我們可以通過(guò)首先設(shè)計(jì)CSLA結(jié)構(gòu)來(lái)設(shè)計(jì)和描述再優(yōu)化器的行為。在RepOptVGG的情況下,CSLA結(jié)構(gòu)是通過(guò)簡(jiǎn)單地將RepVGG塊中3×3和1×1層之后的BN層替換為恒定的按信道縮放,將標(biāo)識(shí)分支中的BN替換為可訓(xùn)練的按信道縮放(因?yàn)镃SLA分支沒(méi)有超過(guò)一個(gè)線性可訓(xùn)練運(yùn)算符),如圖2所示。

    在這種稍微復(fù)雜一些的情況下,卷積具有不同的核大小,然后是通道方向的常數(shù)尺度,梯度掩碼將是張量,條目應(yīng)分別使用相應(yīng)位置上的尺度進(jìn)行計(jì)算。我們給出了與這種CSLA塊相對(duì)應(yīng)的梯度掩模的公式,該公式將用于訓(xùn)練單個(gè)3×3轉(zhuǎn)換。設(shè)C為通道數(shù),s,t∈ RC是3×3和1×1層之后的恒定通道尺度,梯度掩模MC×C×3×3由:

    直觀地說(shuō),p=2和q=2意味著3×3內(nèi)核的中心點(diǎn)與1×1分支相關(guān)(就像RepVGG塊將1×1 conv合并到3×3內(nèi)核的中心點(diǎn)一樣)。由于可訓(xùn)練的通道方向縮放可以被視為“深度”1×1 conv,然后是一個(gè)恒定的縮放因子1,因此我們?cè)凇皩?duì)角線”位置向漸變遮罩添加1(如果輸出形狀與輸入形狀不匹配,CSLA塊將沒(méi)有這樣的快捷方式,因此我們只需忽略此項(xiàng))。
    備注:與RepVGG結(jié)構(gòu)重參數(shù)化形式相比,CSLA無(wú)需等待過(guò)長(zhǎng)的訓(xùn)練時(shí)間,也可以通過(guò)常見的結(jié)構(gòu)重參數(shù)技術(shù)產(chǎn)生相同推理結(jié)果。
  • 通過(guò)超搜索獲取重優(yōu)化器的超參數(shù)

    作為重優(yōu)化器的超參數(shù),梯度掩模會(huì)影響性能。所以提出了一種將優(yōu)化器的超參數(shù)與輔助模型和搜索可訓(xùn)練參數(shù)相關(guān)聯(lián)的新方法,即超搜索(HS)。
    具體來(lái)說(shuō)就是通過(guò)可訓(xùn)練的尺度替換重優(yōu)化器對(duì)應(yīng)的CSLA模型的中的常數(shù)來(lái)構(gòu)建輔助超搜索模型,并在一個(gè)小的搜索數(shù)據(jù)集上進(jìn)行訓(xùn)練。在搜索數(shù)據(jù)集上進(jìn)行訓(xùn)練后,可訓(xùn)練尺度的最終值被當(dāng)做CSLA模型中的預(yù)期常數(shù),正是我們構(gòu)建重優(yōu)化器梯度掩碼所需的。

    帶重優(yōu)化器訓(xùn)練

    在超搜索之后,使用到的常量尺度存儲(chǔ)在每個(gè)操作符構(gòu)建重優(yōu)化器的梯度掩模。在訓(xùn)練在每次訓(xùn)練計(jì)算之后將梯度掩碼元素乘以相應(yīng)操作符的梯度。
    為了使用RepOptimizer開始訓(xùn)練,我們根據(jù)搜索到的超參數(shù)重新初始化模型參數(shù)。

    實(shí)驗(yàn)

    ImagenNet分類的RepOptimers

    實(shí)驗(yàn)各階段層數(shù)和通道數(shù)如表1所示

    有如下觀察結(jié)果:

  • RepOptVGG消耗的內(nèi)存更少,訓(xùn)練更快;RepOptVGG-B1使用各自的maxBS訓(xùn)練速度為RepVGG-B1的1.7倍
  • 隨著批量增大,每個(gè)模型的性能都有明顯提高(有提高嘛?)
  • RepOptVGG的準(zhǔn)確性與RepVGG非常接近,表明在訓(xùn)練效率和準(zhǔn)確性之間有一個(gè)明顯更好的權(quán)衡
  • 消融實(shí)驗(yàn)


    消融實(shí)驗(yàn)比較重優(yōu)化器不改變初始化或不改變梯度,都會(huì)使性能降低,因?yàn)橛?xùn)練動(dòng)量不再等同于訓(xùn)練CSLA模型,同時(shí)我們將常量比例更改為1)所有為1;2)與HS模型中初始值相同;3)通過(guò)每個(gè)層所有通道的比例值獲取的值。表明重優(yōu)化器每個(gè)通道的不同訓(xùn)練動(dòng)態(tài)不同尺度決定了重要的模型特定知識(shí)。

    遷移實(shí)驗(yàn):重優(yōu)化器是特定于模型的但是數(shù)據(jù)集是不可知的


    1)在目標(biāo)數(shù)據(jù)集上搜索的重優(yōu)化器超參數(shù)不會(huì)比在不同數(shù)據(jù)集上獲得結(jié)果更好
    2)對(duì)不同的超參數(shù),重優(yōu)化器在目標(biāo)數(shù)據(jù)集上提供類似的結(jié)果,表明優(yōu)化器是數(shù)據(jù)集不可知的
    3)RepOptVGG表現(xiàn)優(yōu)于VGG結(jié)束為數(shù)據(jù)集的挑戰(zhàn)性

    搜索數(shù)據(jù)集上的性能不能反映目標(biāo)數(shù)據(jù)集的性能,證明搜索的常數(shù)是特定于模型的,因此重優(yōu)化是特定與模型的。

    在COCO數(shù)據(jù)目標(biāo)檢測(cè)任務(wù)和Cityscapes分割任務(wù)中RepOptVGG的性能仍與RepVGG相當(dāng)。

    易于量化的重優(yōu)化器


    結(jié)論和局限性

    本文提出了一種將模型的先驗(yàn)轉(zhuǎn)換為優(yōu)化器的新范式,并提出了一種通過(guò)梯度重參數(shù)化實(shí)現(xiàn)的方法。雖然結(jié)構(gòu)重參數(shù)化和重優(yōu)化是數(shù)學(xué)等效的,但是更復(fù)雜和一般的情況,例如分支中存在BN層或多個(gè)順序線性可訓(xùn)練算子,不能用梯度重參數(shù)化代替。

    總結(jié)

    以上是生活随笔為你收集整理的Re-parameterizing Your Optimizers rather than Architectures的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 欧美成人aaaaⅴ片在线看 | 日韩毛片在线视频 | 天天操天天爱天天干 | 懂色av色吟av夜夜嗨 | 亚洲综合视频在线 | 欧美乱做爰xxxⅹ久久久 | 国产伦精品一区二区三区千人斩 | 99久久国| 亚洲在线一区二区三区 | 大香蕉精品一区 | 四虎黄网 | 久久亚州| 日韩黄大片 | 日本不卡视频 | 在线观看国产成人 | 我色综合 | 男人天堂a| 亚洲综合久久婷婷 | 激情综合五月天 | 极品粉嫩小仙女高潮喷水久久 | 欧美黄色一级片视频 | 天堂av2014 | 亚洲社区在线观看 | 99mav| 黄色一级片黄色一级片 | 国产日韩中文字幕 | 日韩综合一区二区三区 | 亚洲熟女乱色一区二区三区 | 福利小视频 | 欧美激情二区三区 | 99精品网 | 日韩中文网 | 色站综合| 亚洲一区二区三区高清在线 | 国产精品老牛影院99av | 综合五月天 | 色哟哟网站在线观看 | 奇米第四色在线 | 亚洲国产无码精品 | 深夜网站在线观看 | 欧美天天性影院 | 日韩中文字 | 夫妻啪啪呻吟x一88av | 亚洲一二三区视频 | 丰满少妇一级片 | 丁香激情网 | 免费在线黄色网址 | 深夜福利国产 | 久久av一区二区三区漫画 | 玖玖精品在线视频 | 久久久久成人精品无码 | xzjzjzjzjzj欧美大片 | 在哪里可以看毛片 | 内地级a艳片高清免费播放 91在线精品一区二区 | 成人视品| 午夜亚洲aⅴ无码高潮片苍井空 | 超碰公开在线观看 | 免费在线毛片 | 哪个网站可以看毛片 | 少妇太紧太爽又黄又硬又爽 | 免费a v网站 | 欧美一区二区三区四区五区六区 | 欧美巨大另类极品videosbest | 日韩国产精品久久 | 在线日韩精品视频 | 白浆av| av天堂永久资源网 | 一区二区三区久久精品 | 青春草在线视频免费观看 | 第一区免费在线观看 | 亚洲av成人精品一区二区三区 | 大波大乳videos巨大 | 九九热免费在线 | 女儿的朋友在线播放 | 免费视频国产 | 在线观看亚洲av每日更新 | 免费看色| 国产视频一区二区视频 | 欧美夫妇交换xxx | 国产日韩二区 | 精品人妻一区二区三区蜜桃 | 国产乱轮视频 | 国产18av | 国产精品波多野结衣 | 色人阁五月 | 日韩成人精品视频 | 久久久性色精品国产免费观看 | 熟女性饥渴一区二区三区 | 四十路av | 福利社区一区二区 | 在线爱情大片免费观看大全 | 美国一级特黄 | 日日射射 | 欧美日韩亚洲在线观看 | 日本一区二区三区免费电影 | 婷婷综合六月 | 欧美又大又硬又粗bbbbb | 3d动漫精品啪啪一区二区竹菊 | 天天草av|