當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Pytorch数据读取(Dataset, DataLoader, DataLoaderIter)

發布時間：2024/7/5 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 Pytorch数据读取(Dataset, DataLoader, DataLoaderIter) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Pytorch的數據讀取主要包含三個類:

Dataset

DataLoader

DataLoaderIter

這三者是一個依次封裝的關系: 1.被裝進2., 2.被裝進3.

Dataset類

Pytorch 讀取數據，主要通過Dataset類，Dataset類是所有dataset類的基類，自定義的dataset類要繼承它，并且實現它的兩個最重要的方法 __getitem__() 和 __len__()

具體的使用：

from torch.utils.data import Datasetclass MyDataset(Dataset):def __init__(self, path): # 可以寫一些文件的讀取self.trainUserList = self.load_train_rating_as_list(path + ".train.rating")def __getitem__(self, index): # 根據index返回一條數據user= self.trainUserList[index]return userdef __len__(self): # 樣本數據的長度return len(self.trainUserList)

注意：dataset中應盡量只包含只讀對象，避免修改任何可變對象。因為如果使用多進程，可變對象要加鎖，但后面講到的dataloader的設計使其難以加鎖。

DataLoader類

Dataset 負責數據集，每次可以用 __getitem__() 返回一個樣本，而 DataLoader 提供了對數據的批量處理。
Dataloader 的構造函數：

class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,batch_sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None)

參數解釋：

num_workers：使用的子進程數，0為不使用多進程。
worker_init_fn：默認為None，如果不是None，這個函數將被每個子進程以子進程id([0, num_workers - 1]之間的數)調用
sample：采樣策略，若這個參數有定義，則shuffle必須為False
pin_memory：是否將tensor數據復制到CUDA pinned memory中，pin memory中的數據轉到GPU中會快一些
drop_last：當dataset中的數據數量不能整除batch size時，是否把最后不夠batch size數據丟掉
collate_fn：把一組samples打包成一個mini-batch的函數。可以自定義這個函數以處理損壞數據的情況（先在__getitem__函數中將這樣的數據返回None，然后再在collate_fn中處理，如丟掉損壞數據or再從數據集里隨機挑一張），但最好還是確保dataset里所有數據都能用。

具體的使用：

dataset = MyDataset('EPINION2/epinion2') # 初始化自定義類 dataloader = DataLoader(dataset, batch_size=256, shuffle=True, num_workers=20) # 使用DataLoader對自定義類進行包裝，使其能夠批量獲取數據for epoch in range(20):for data in dataloader: # data 是獲取到的 batch_size 個 user# training...

DataLoaderIter

Dataset、Dataloader 和 DataLoaderIter 是層層封裝的關系，最終在內部使用 DataLoaderIter 進行迭代。

總結

以上是生活随笔為你收集整理的Pytorch数据读取(Dataset, DataLoader, DataLoaderIter)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如何实现一个循环显示超长图片的控件
下一篇：蚁群优化算法 ACO