當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Re-parameterizing Your Optimizers rather than Architectures

發(fā)布時(shí)間：2023/12/18 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 Re-parameterizing Your Optimizers rather than Architectures 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Re-parameterizing Your Optimizers rather than Architectures

paper:https://arxiv.org/abs/2205.15242

摘要

神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)良好反應(yīng)了納入模型的先驗(yàn)知識(shí)，盡管不同的模型考慮了不同的先驗(yàn)，但是仍舊習(xí)慣于使用模型無(wú)關(guān)優(yōu)化器SGD對(duì)其訓(xùn)練。在本文中提出了一種新的范式，將特定于模型的先驗(yàn)知識(shí)合并到優(yōu)化器中訓(xùn)練模型。提出了一種新的方法，通過(guò)一組特定于模型的超參數(shù)修改梯度來(lái)添加先驗(yàn)知識(shí)，稱為梯度重參數(shù)化，優(yōu)化器稱為重優(yōu)化器。

介紹

神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)是將先驗(yàn)知識(shí)整合到模型中，如ResNet的殘差加法。高質(zhì)量的結(jié)構(gòu)先驗(yàn)對(duì)神經(jīng)網(wǎng)絡(luò)至關(guān)重要。另一方面優(yōu)化方法也發(fā)揮著重要作用，可分為三類：

一階方法，例如SGD及其變體

高階方法，利用曲率信息，但面臨計(jì)算的挑戰(zhàn)

對(duì)于目標(biāo)函數(shù)的導(dǎo)數(shù)可能不存在的情況使用無(wú)導(dǎo)數(shù)方法

我們注意到：

雖然高階優(yōu)化器以不同的方式改進(jìn)了訓(xùn)練過(guò)程，但他們沒(méi)有特定于模型的先驗(yàn)知識(shí)

雖然我們通過(guò)設(shè)計(jì)結(jié)構(gòu)不斷將我們的理解加入模型，但我們使用SGD等模型無(wú)關(guān)優(yōu)化器對(duì)其進(jìn)行訓(xùn)練

**一種新的范式。**我們提出了通用結(jié)構(gòu)+特定優(yōu)化器。通用模型意味著模型應(yīng)該盡可能少地具有結(jié)構(gòu)先驗(yàn)知識(shí)，特定優(yōu)化器指優(yōu)化器通過(guò)以特定于模型的方式更改訓(xùn)練動(dòng)態(tài)來(lái)實(shí)現(xiàn)更好的性能。
**基于SGD的優(yōu)化器方法。**本文主要研究深度神經(jīng)網(wǎng)絡(luò)，因此我們只考慮基于SGD的優(yōu)化器，但思想可推廣到高階或無(wú)導(dǎo)數(shù)方法，由于SGD核心使用梯度更新參數(shù)，建議在更新可訓(xùn)練參數(shù)前通過(guò)根據(jù)一組特定于模型的超參數(shù)修改梯度，使優(yōu)化器模型特定，為了獲得這些超參數(shù)，提出了一種超搜索方法。
我們希望通過(guò)與RepVGG及其關(guān)鍵方法結(jié)構(gòu)重參數(shù)化的比較，突出本文工作的新穎性，因此采用RepVGG作為基線，但方法不同

差異總結(jié)如下

RepVGG向具有精心設(shè)計(jì)結(jié)構(gòu)的模型中添加了優(yōu)先級(jí)，并使用通用優(yōu)化器，但RepOptVGG向優(yōu)化器中添加了優(yōu)先級(jí)

與RepOptVGG相比，雖然轉(zhuǎn)換后的RepVGG具有相同的推理時(shí)間，但訓(xùn)練時(shí)間RepVGG要復(fù)雜得多，需要花費(fèi)更多的時(shí)間和內(nèi)存進(jìn)行訓(xùn)練

可以使用自定義優(yōu)化器實(shí)現(xiàn)等效的訓(xùn)練效果，在訓(xùn)練過(guò)程中產(chǎn)生一樣的輸出

該范式可以推廣到其他模型和優(yōu)化方法。

RepOptVGG也是一種良好的基礎(chǔ)模型，具有高效推理和訓(xùn)練時(shí)間的特點(diǎn)

內(nèi)存消耗低，并行度高

訓(xùn)練時(shí)對(duì)計(jì)算資源有限、希望快速交付或快速迭代模型的應(yīng)用場(chǎng)景

除了訓(xùn)練效率外，重優(yōu)化器還克服了結(jié)構(gòu)重參數(shù)化的量化難題

RepOptimizers

重優(yōu)化器通過(guò)改變?cè)嫉挠?xùn)練動(dòng)態(tài)來(lái)工作，采用了三個(gè)步驟：

定義一個(gè)先驗(yàn)知識(shí)和想象一個(gè)復(fù)雜結(jié)構(gòu)來(lái)反應(yīng)知識(shí)

研究了如何用一個(gè)簡(jiǎn)單的目標(biāo)結(jié)構(gòu)來(lái)實(shí)現(xiàn)等價(jià)的訓(xùn)練動(dòng)量，該目標(biāo)結(jié)構(gòu)的梯度根據(jù)一些超參數(shù)進(jìn)行修改

獲得超參數(shù)來(lái)構(gòu)建重優(yōu)化器

重優(yōu)化器的設(shè)計(jì)取決于給定的模型和先驗(yàn)知識(shí)。

將知識(shí)融入結(jié)構(gòu)

重優(yōu)化的核心是我們希望使用優(yōu)化器的先驗(yàn)知識(shí)。一般使用多個(gè)分支的輸入和輸出相加，以不同尺度進(jìn)行加權(quán)，從而提高模型的性能。我們希望改進(jìn)VGG系列的模型，選擇RepVGG的結(jié)構(gòu)設(shè)計(jì)。

將結(jié)構(gòu)先驗(yàn)轉(zhuǎn)化為等效的重優(yōu)化

之前的先驗(yàn)知識(shí)每個(gè)分支僅包含一個(gè)具有可選常數(shù)尺度的線性可訓(xùn)練算子，只要適當(dāng)設(shè)置尺度特征來(lái)進(jìn)行融合，模型的性能仍會(huì)提高，我們將這種線性模塊稱為常數(shù)尺度線性假加法(CSLA)。
可以使用一個(gè)操作來(lái)替換CSLA模塊，并通過(guò)將梯度乘以常數(shù)尺度當(dāng)初的掩碼來(lái)實(shí)現(xiàn)等效的訓(xùn)練動(dòng)量，意味著如果使用相同的訓(xùn)練數(shù)據(jù)，在訓(xùn)練迭代之后產(chǎn)生的輸出是相等的。我們將此類掩碼稱為梯度掩碼。

展示兩個(gè)卷積和兩個(gè)常數(shù)尺度作為尺度因子的結(jié)論：
設(shè)αA，αB為兩個(gè)常數(shù)標(biāo)量，W(A)，W(B)為兩個(gè)形狀相同的conv核，X和Y為輸入和輸出，? 表示卷積，CSLA塊的計(jì)算流程表示為YCSLA=αA(X? W(A))+αB(X? W(B))。
對(duì)于GR，我們直接訓(xùn)練W0參數(shù)化的目標(biāo)結(jié)構(gòu)，以便YGR=X? W’，設(shè)i為訓(xùn)練迭代次數(shù)，我們可以確保Y(i)CSLA=Y(i)GR，同時(shí)需要根據(jù)兩條規(guī)則：

初始化規(guī)則：W0應(yīng)初始化為W0（0）← αAW（A）（0）+αBW（B）（0）。換句話說(shuō)，GR對(duì)應(yīng)物應(yīng)與CSLA對(duì)應(yīng)物一樣使用等效參數(shù)（可通過(guò)線性輕松獲得）初始化，以使其初始輸出相同。

迭代規(guī)則：當(dāng)使用常規(guī)SGD更新規(guī)則更新CSLA對(duì)應(yīng)項(xiàng)時(shí)，GR對(duì)應(yīng)項(xiàng)的梯度應(yīng)乘以（α2A+α2B）。形式上，讓L為目標(biāo)函數(shù)，λ為學(xué)習(xí)率，我們應(yīng)該更新W0。

當(dāng)CSLA=GR時(shí)，我們可以通過(guò)首先設(shè)計(jì)CSLA結(jié)構(gòu)來(lái)設(shè)計(jì)和描述再優(yōu)化器的行為。在RepOptVGG的情況下，CSLA結(jié)構(gòu)是通過(guò)簡(jiǎn)單地將RepVGG塊中3×3和1×1層之后的BN層替換為恒定的按信道縮放，將標(biāo)識(shí)分支中的BN替換為可訓(xùn)練的按信道縮放（因?yàn)镃SLA分支沒(méi)有超過(guò)一個(gè)線性可訓(xùn)練運(yùn)算符），如圖2所示。

在這種稍微復(fù)雜一些的情況下，卷積具有不同的核大小，然后是通道方向的常數(shù)尺度，梯度掩碼將是張量，條目應(yīng)分別使用相應(yīng)位置上的尺度進(jìn)行計(jì)算。我們給出了與這種CSLA塊相對(duì)應(yīng)的梯度掩模的公式，該公式將用于訓(xùn)練單個(gè)3×3轉(zhuǎn)換。設(shè)C為通道數(shù)，s，t∈ RC是3×3和1×1層之后的恒定通道尺度，梯度掩模MC×C×3×3由:

直觀地說(shuō)，p=2和q=2意味著3×3內(nèi)核的中心點(diǎn)與1×1分支相關(guān)（就像RepVGG塊將1×1 conv合并到3×3內(nèi)核的中心點(diǎn)一樣）。由于可訓(xùn)練的通道方向縮放可以被視為“深度”1×1 conv，然后是一個(gè)恒定的縮放因子1，因此我們?cè)凇皩?duì)角線”位置向漸變遮罩添加1（如果輸出形狀與輸入形狀不匹配，CSLA塊將沒(méi)有這樣的快捷方式，因此我們只需忽略此項(xiàng)）。
備注：與RepVGG結(jié)構(gòu)重參數(shù)化形式相比，CSLA無(wú)需等待過(guò)長(zhǎng)的訓(xùn)練時(shí)間，也可以通過(guò)常見的結(jié)構(gòu)重參數(shù)技術(shù)產(chǎn)生相同推理結(jié)果。

通過(guò)超搜索獲取重優(yōu)化器的超參數(shù)

作為重優(yōu)化器的超參數(shù)，梯度掩模會(huì)影響性能。所以提出了一種將優(yōu)化器的超參數(shù)與輔助模型和搜索可訓(xùn)練參數(shù)相關(guān)聯(lián)的新方法，即超搜索(HS)。
具體來(lái)說(shuō)就是通過(guò)可訓(xùn)練的尺度替換重優(yōu)化器對(duì)應(yīng)的CSLA模型的中的常數(shù)來(lái)構(gòu)建輔助超搜索模型，并在一個(gè)小的搜索數(shù)據(jù)集上進(jìn)行訓(xùn)練。在搜索數(shù)據(jù)集上進(jìn)行訓(xùn)練后，可訓(xùn)練尺度的最終值被當(dāng)做CSLA模型中的預(yù)期常數(shù)，正是我們構(gòu)建重優(yōu)化器梯度掩碼所需的。

帶重優(yōu)化器訓(xùn)練

在超搜索之后，使用到的常量尺度存儲(chǔ)在每個(gè)操作符構(gòu)建重優(yōu)化器的梯度掩模。在訓(xùn)練在每次訓(xùn)練計(jì)算之后將梯度掩碼元素乘以相應(yīng)操作符的梯度。
為了使用RepOptimizer開始訓(xùn)練，我們根據(jù)搜索到的超參數(shù)重新初始化模型參數(shù)。

實(shí)驗(yàn)

ImagenNet分類的RepOptimers

實(shí)驗(yàn)各階段層數(shù)和通道數(shù)如表1所示

有如下觀察結(jié)果：

RepOptVGG消耗的內(nèi)存更少，訓(xùn)練更快；RepOptVGG-B1使用各自的maxBS訓(xùn)練速度為RepVGG-B1的1.7倍

隨著批量增大，每個(gè)模型的性能都有明顯提高(有提高嘛？)

RepOptVGG的準(zhǔn)確性與RepVGG非常接近，表明在訓(xùn)練效率和準(zhǔn)確性之間有一個(gè)明顯更好的權(quán)衡

消融實(shí)驗(yàn)

消融實(shí)驗(yàn)比較重優(yōu)化器不改變初始化或不改變梯度，都會(huì)使性能降低，因?yàn)橛?xùn)練動(dòng)量不再等同于訓(xùn)練CSLA模型，同時(shí)我們將常量比例更改為1）所有為1；2）與HS模型中初始值相同；3）通過(guò)每個(gè)層所有通道的比例值獲取的值。表明重優(yōu)化器每個(gè)通道的不同訓(xùn)練動(dòng)態(tài)不同尺度決定了重要的模型特定知識(shí)。

遷移實(shí)驗(yàn)：重優(yōu)化器是特定于模型的但是數(shù)據(jù)集是不可知的

1）在目標(biāo)數(shù)據(jù)集上搜索的重優(yōu)化器超參數(shù)不會(huì)比在不同數(shù)據(jù)集上獲得結(jié)果更好
2）對(duì)不同的超參數(shù)，重優(yōu)化器在目標(biāo)數(shù)據(jù)集上提供類似的結(jié)果，表明優(yōu)化器是數(shù)據(jù)集不可知的
3）RepOptVGG表現(xiàn)優(yōu)于VGG結(jié)束為數(shù)據(jù)集的挑戰(zhàn)性

搜索數(shù)據(jù)集上的性能不能反映目標(biāo)數(shù)據(jù)集的性能，證明搜索的常數(shù)是特定于模型的，因此重優(yōu)化是特定與模型的。

在COCO數(shù)據(jù)目標(biāo)檢測(cè)任務(wù)和Cityscapes分割任務(wù)中RepOptVGG的性能仍與RepVGG相當(dāng)。

易于量化的重優(yōu)化器

結(jié)論和局限性

本文提出了一種將模型的先驗(yàn)轉(zhuǎn)換為優(yōu)化器的新范式，并提出了一種通過(guò)梯度重參數(shù)化實(shí)現(xiàn)的方法。雖然結(jié)構(gòu)重參數(shù)化和重優(yōu)化是數(shù)學(xué)等效的，但是更復(fù)雜和一般的情況，例如分支中存在BN層或多個(gè)順序線性可訓(xùn)練算子，不能用梯度重參數(shù)化代替。

總結(jié)

以上是生活随笔為你收集整理的Re-parameterizing Your Optimizers rather than Architectures的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：经典算法：计算两个日期之间的天数
下一篇：用matlab做胶片滤镜,photosh

编程问答

Re-parameterizing Your Optimizers rather than Architectures

Re-parameterizing Your Optimizers rather than Architectures

摘要

介紹

相關(guān)工作

RepOptimizers

將知識(shí)融入結(jié)構(gòu)

將結(jié)構(gòu)先驗(yàn)轉(zhuǎn)化為等效的重優(yōu)化

通過(guò)超搜索獲取重優(yōu)化器的超參數(shù)

帶重優(yōu)化器訓(xùn)練

實(shí)驗(yàn)

ImagenNet分類的RepOptimers

消融實(shí)驗(yàn)

遷移實(shí)驗(yàn)：重優(yōu)化器是特定于模型的但是數(shù)據(jù)集是不可知的

易于量化的重優(yōu)化器

結(jié)論和局限性

總結(jié)