日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

WeightedRandomSampler 理解了吧

發(fā)布時間:2025/4/16 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 WeightedRandomSampler 理解了吧 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

WeightedRandomSampler

?

sampler = WeightedRandomSampler(samples_weight, samples_num)

train_loader = DataLoader( train_dataset, batch_size=bs, num_workers=1, sampler=sampler)

?

我的數(shù)據(jù)不平衡,使用pytorch,發(fā)現(xiàn)WeightedRandomSampler這個東西,網(wǎng)上找了一圈,有點會用了,就是上面這個用法,但是理解了很久才知道為什么這么用。

最大的問題就是不能理解WeightedRandomSampler是怎么運作的。除了官方解釋,其他也沒有找到更有用的信息了。

現(xiàn)在我覺得是有點理解了。

?

官方解釋是:

?

還給了例子:

?

然后不是很懂,還是不知道怎么用。感覺這個例子卻是不是很好說明問題,也是我理解能力太差,多試幾次才懂了。

?

我換一個例子如下:

list(WeightedRandomSampler([1, 9], 5, replacement=True))

上面這句話反復(fù)運行,你猜怎么著?

我每次運行的結(jié)果如下:(你的結(jié)果肯定不一樣)

[1, 0, 1, 1, 1][1, 1, 1, 1, 1][1, 1, 1, 0, 1][1, 1, 1, 1, 1][1, 1, 1, 1, 1][1, 1, 0, 1, 1]

有點理解了吧?

這個5代表要生成5個數(shù),這5個數(shù)是誰呢? 取決于前面【】內(nèi)的數(shù)的數(shù)量,上面【】內(nèi)有2個數(shù),根據(jù)上面[0,..,len(weights)-1]即生成的數(shù)是0-1之間的任意數(shù)。

那這5個數(shù)到底是幾,有10%的概率是0,有90%的概率是1。

理解了吧?其他參數(shù)不解釋了。

?

使用

有一種通常的用法是:(不限于此)

假設(shè)分類問題,分為3類。

sampler = WeightedRandomSampler(samples_weight,samples_num)

samples_weight的數(shù)量等于我們訓(xùn)練集總樣本的數(shù)量,假設(shè)為1000。

samples_weight的每一項代表該樣本種類占總樣本的比例的倒數(shù)。

samples_num 為我們想采集多少個樣本,可以重復(fù)采集。假設(shè)為2000。

?

假設(shè)3類樣本分布比例為 貓,狗,豬 = ?0.1,0.2,0.7

Count = [0.1,0.2,0.7]

Weight = 1/Count = [10,5,1.43] 約等于[0.7,0.2,0.1]

?

samples_weight內(nèi)全是 10或5或1.43,是10代表該樣本是貓...

假設(shè)samples_weight內(nèi)樣子是:

[10,5,5,1.43,1.43,1.43,1.43.......,10]

10的數(shù)量最少,但是權(quán)重最大,所以達到了樣本平衡的效果。

?

所以結(jié)合上面的WeightedRandomSampler的使用:

會生成樣本總數(shù)個數(shù)即2000個數(shù),

每個數(shù)可能是0-999之間的某個數(shù),

每個數(shù):(和samples_weight內(nèi)數(shù)值對應(yīng))

是0的概率為 10/sum(samples_weight)

是1的概率為5/sum(samples_weight)

是2的概率為1.43/sum(samples_weight)

是3的概率為1.43/sum(samples_weight)

是4的概率為1.43/sum(samples_weight)

......

是999的概率為 10/sum(samples_weight)

?

把取出來的數(shù)字作為index,DataLoader就取用了。

?

?

end

目前的理解,難免有疏漏錯誤,還望大佬們多多指正。

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的WeightedRandomSampler 理解了吧的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。