随机数种子的作用域问题
生活随笔
收集整理的這篇文章主要介紹了
随机数种子的作用域问题
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
項目場景:
機器學習和深度學習中,為了程序的可復現性,需要設置隨機數種子。在跑多個模型時,由于數據的預處理不同,數據集進行劃分時重復使用torch.utils.data.random_split,需要注意的問題
問題描述:
由于我這里使用的torch是1.5.0版本,torch.utils.data.random_split函數沒有generator的參數設置種子,因此需要在代碼前加入
# Fix Seed torch.manual_seed(0) # 為CPU設置種子用于生成隨機數,以使得結果是確定的但是單獨跑各個模型和循環跑所有模型的時候,得到的結果不一樣
原因分析:
經過一步步調試發現,循環跑所有模型的時候,每次運行到torch.utils.data.random_split函數時,得到的訓練集和測試集的indice列表和單獨跑模型的時候不同
解決方案:
循環跑模型時,是將設置隨機數種子這句話放在了循環外,而設置隨機數種子只影響第一個torch.utils.data.random_split函數,因此后面再進入循環,設置隨機數種子沒有作用了。
numpy設置隨機數種子也是同樣的道理,下面舉兩個例子:
只設置一個隨機數種子
每次random前都設置隨機數種子
import numpy as npnp.random.seed(0) m = np.random.randint(10) print(m) # 5np.random.seed(0) m = np.random.randint(10) print(m) # 5np.random.seed(0) m = np.random.randint(10) print(m) # 5總結:
在有numpy.random和torch random的地方,設置隨機數種子要注意對后續程序的作用域問題。
- 隨機數種子設置在循環外,每次循環的結果不一樣,但可以保證每次程序運行得到的結果一樣(對應上面只設置一個循環種子的示例),對運行得到的所有結果取平均,這樣使用更合理,同時也保證了結果的可復現性。
- 隨機數種子設置在循環內,每次循環的結果都一致(不過從結果的可信性來說這樣是不推薦的,應該采取上面的方法取所有循環結果的平均值,這樣更能反應模型的平均水平);
而隨機劃分數據集時,如果要保證每次運行程序劃分的結果一致,torch.utils.data.random_split前需要單獨設置torch.manual_seed(*)。
總結
以上是生活随笔為你收集整理的随机数种子的作用域问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在线素材工具
- 下一篇: VL53L0X 驱动移植