日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【PyTorch】Tricks 集锦

發布時間:2025/4/16 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【PyTorch】Tricks 集锦 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明:本文大部分內容是從知乎、博客等知識分享站點摘錄而來,以方便查閱學習。具體摘錄地址已在文章底部引用部分給出。


?

1. 查看模型每層輸出詳情

from torchsummary import summary summary(your_model, input_size=(channels, H, W))

2. 梯度裁減

import torch.nn as nnoutputs = model(inputs) loss= criterion(outputs, target) optimizer.zero_grad() loss.backward() nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2) # max_norm:梯度的最大范數;norm_type:規定范數的類型,默認為L2 optimizer.step()

3. 擴展圖片維度

??? 因為訓練時數據維度一般為(batch_size, c, h,, w),而測試時如果只輸入一張圖片,則需要進行維度擴展。

??? 方法一:(h, w, c) -> (1, h, w, c)

import cv2 import torchimage = cv2.imread(img_path) image = torch.tensor(image)img = image.view(1, *image.size())

??? 方法二:(h, w, c) -> (1, h, w, c)

import cv2 import numpy as npimage = cv2.imread(img_path) img = image[np.newaxis, :, :, :]

??? 方法三:

import cv2 import torchimage = cv2.imread(img_path) image = torch.tensor(image)img = image.unsqueeze(dim=0) # 擴展維度,dim指定擴展哪個維度;torch.Size([(h, w, c)]) -> torch.Size([(1, h, w, c)]) img = img.squeeze(dim=0) # 去除dim指定的且size為1的維度,維度大于1時,squeeze()不起作用,不指定dim時,去除所有size為1的維度; torch.Size([(1, h, w, c)]) -> torch.Size([(h, w, c)])

4. 獨熱編碼

??? 在PyTorch中使用交叉熵損失函數的時候會自動把label轉化成onehot,所以不用手動轉化,而使用MSE需要手動轉化成onehot編碼。

import torch class_num = 8 batch_size = 4def one_hot(label):"""將一維列表轉換為獨熱編碼"""label = label.resize_(batch_size, 1)m_zeros = torch.zeros(batch_size, class_num)# 從 value 中取值,然后根據 dim 和 index 給相應位置賦值onehot = m_zeros.scatter_(1, label, 1) # (dim,index,value)return onehot.numpy() # Tensor -> Numpy label = torch.LongTensor(batch_size).random_() % class_num # 對隨機數取余 print(one_hot(label))

# output:
# label = tensor([3, 7, 0, 6])
# [[0. 0. 0. 1. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 0. 1.]
# [1. 0. 0. 0. 0. 0. 0. 0.]
# [0. 0. 0. 0. 0. 0. 1. 0.]]

5. 防止驗證模型時爆顯存

??? 驗證模型時不需要求導,即不需要梯度計算,關閉autograd,可以提高速度,節約內存。如果不關閉可能會爆顯存。

with torch.no_grad():# 使用model進行預測的代碼pass

6. torch.cuda.empty_cache()的用處

??? 由于 PyTorch 的緩存分配器會事先分配一些固定的顯存,即使實際上 tensors 并沒有使用完這些顯存,這些顯存也不能被其他應用使用。因此 torch.cuda.empty_cache() 的作用就是釋放緩存分配器當前持有的且未占用的緩存顯存,以便這些顯存可以被其他GPU應用程序中使用,并且通過 nvidia-smi命令可見。注意使用此命令不會釋放 tensors 占用的顯存。對于不用的數據變量,Pytorch 可以自動進行回收從而釋放相應的顯存。

7. 學習率衰減

import torch.optim as optim from torch.optim import lr_scheduler# 訓練前的初始化 optimizer = optim.Adam(net.parameters(), lr=0.001) scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1) # # 每過10個epoch,學習率乘以0.1# 訓練過程中 for n in n_epoch:scheduler.step()

8. 凍結某些層的參數

??? 在加載預訓練模型的時候,我們有時想凍結前面幾層,使其參數在訓練過程中不發生變化。

??? 1) 我們首先需要知道每一層的名字,通過如下代碼打印:

model = Network() # 獲取自定義網絡結構 for name, value in model.named_parameters():print('name: {0},\t grad: {1}'.format(name, value.requires_grad))

??????? 假設前幾層信息如下:

name: cnn.VGG_16.convolution1_1.weight, grad: True name: cnn.VGG_16.convolution1_1.bias, grad: True name: cnn.VGG_16.convolution1_2.weight, grad: True name: cnn.VGG_16.convolution1_2.bias, grad: True name: cnn.VGG_16.convolution2_1.weight, grad: True name: cnn.VGG_16.convolution2_1.bias, grad: True name: cnn.VGG_16.convolution2_2.weight, grad: True name: cnn.VGG_16.convolution2_2.bias, grad: True

???? 2) 定義一個要凍結的層的列表

no_grad = ['cnn.VGG_16.convolution1_1.weight','cnn.VGG_16.convolution1_1.bias','cnn.VGG_16.convolution1_2.weight','cnn.VGG_16.convolution1_2.bias' ]

???? 3) 凍結方法如下

net = Net.CTPN() # 獲取網絡結構 for name, value in net.named_parameters():if name in no_grad:value.requires_grad = Falseelse:value.requires_grad = True

????? 再打印每層信息:

name: cnn.VGG_16.convolution1_1.weight, grad: False name: cnn.VGG_16.convolution1_1.bias, grad: False name: cnn.VGG_16.convolution1_2.weight, grad: False name: cnn.VGG_16.convolution1_2.bias, grad: False name: cnn.VGG_16.convolution2_1.weight, grad: True name: cnn.VGG_16.convolution2_1.bias, grad: True name: cnn.VGG_16.convolution2_2.weight, grad: True name: cnn.VGG_16.convolution2_2.bias, grad: True

???? 4) 最后在定義優化器時,只對requires_grad為True的層的參數進行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9. 對不同層使用不同的學習率

??? 1)首先獲取網絡結構每一層的名字

net = Network() # 獲取自定義網絡結構 for name, value in net.named_parameters():print('name: {}'.format(name))

# 輸出: # name: cnn.VGG_16.convolution1_1.weight # name: cnn.VGG_16.convolution1_1.bias # name: cnn.VGG_16.convolution1_2.weight # name: cnn.VGG_16.convolution1_2.bias # name: cnn.VGG_16.convolution2_1.weight # name: cnn.VGG_16.convolution2_1.bias # name: cnn.VGG_16.convolution2_2.weight # name: cnn.VGG_16.convolution2_2.bias

?? 2)對 convolution1 和 convolution2 設置不同的學習率,首先將它們分開,即放到不同的列表里:

conv1_params = [] conv2_params = []for name, parms in net.named_parameters():if "convolution1" in name:conv1_params += [parms]else:conv2_params += [parms]# 然后在優化器中進行如下操作: optimizer = optim.Adam([{"params": conv1_params, 'lr': 0.01},{"params": conv2_params, 'lr': 0.001},],weight_decay=1e-3, )

我們將模型劃分為兩部分,存放到一個列表里,每部分就對應上面的一個字典,在字典里設置不同的學習率。當這兩部分有相同的其他參數時,就將該參數放到列表外面作為全局參數,如上面的 weight_decay。

我們也可以在列表外設置一個全局學習率,當各部分字典里設置了局部學習率時,就使用該學習率,否則就使用列表外的全局學習率。

?

References:

?? [1] PyTorch trick 集錦

?

轉載于:https://www.cnblogs.com/xxxxxxxxx/p/11582657.html

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的【PyTorch】Tricks 集锦的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。