當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何自定义数据集

發(fā)布時間：2024/7/5 编程问答 83 豆豆

生活随笔收集整理的這篇文章主要介紹了如何自定义数据集小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

pytorch讀取圖片，主要是通過Dataset類。

Dataset類源代碼如下:

class Dataset(object):"""An abstract class representing a Dataset.All other datasets should subclass it. All subclasses should override``__len__``, that provides the size of the dataset, and ``__getitem__``,supporting integer indexing in range from 0 to len(self) exclusive."""def __getitem__(self, index):raise NotImplementedErrordef __len__(self):raise NotImplementedErrordef __add__(self, other):return ConcatDataset([self, other])

這個類中最核心的就是getitem函數(shù)，上面介紹中寫的是這個函數(shù)提供一個合理范圍內(nèi)的index。我們在自己定義數(shù)據(jù)集的時候，在這個類中，我們一般是定義這個函數(shù)的功能是接受一個index,然后返回圖片數(shù)據(jù)和標簽。所以在這個函數(shù)中，需要包含打開圖片的函數(shù)和獲取圖片lable的語句

getitem函數(shù)接受的是一個index，這個index通常指的是一個list中index，這個list中的每個元素就是對應(yīng)的每個圖片的文件路徑和標簽。

所以在讀取自己數(shù)據(jù)的時候基本流程就是這樣的:
首先制作圖片存儲路徑和標簽信息的txt
然后將這個信息轉(zhuǎn)化為list
通過這個list中的index，使用getitem函數(shù)，我們獲取對應(yīng)的圖片數(shù)據(jù)和標簽信息

現(xiàn)在問題是如何制作這個一個list。這個東西我們一般是外部制作就好，保存為一個txt格式就好

然后我們制作一個Dataset子類

class MyDataset(Dataset):def __init__(self, txt_path, transform = None, target_transform = None):fh = open(txt_path, 'r')imgs = []for line in fh:line = line.strip()words = line.split()imgs.append((words[0], int(words[1]))) # words[0]是路徑 words[1]是類別數(shù)self.imgs = imgs # 最主要就是要生成這個list，然后DataLoader中給index，通過getitem讀取圖片數(shù)據(jù)self.transform = transformself.target_transform = target_transformdef __getitem__(self, index):fn, label = self.imgs[index]img = Image.open(fn).convert('RGB') # 像素值 0~255，在transfrom.totensor會除以255，使像素值變成 0~1if self.transform is not None:img = self.transform(img) # 在這里做transform，轉(zhuǎn)為tensor等等return img, labeldef __len__(self):return len(self.imgs)

注意看我自己定義的類，在初始化函數(shù)中，我通過對txt文件的讀取，得到了一個list，也就是self.imgs

然后在__getitem__ 函數(shù)中，通過index，我們得到文件路徑和lable，然后使用open函數(shù)，將圖像文件打開并轉(zhuǎn)化為RGB數(shù)據(jù)，同時進行一些相應(yīng)的轉(zhuǎn)化

這個部分建立好了，其實自定義數(shù)據(jù)集基本就好了，因為接下來的操作就交給了DataLoder，代碼基本不需要變化。

我現(xiàn)在有一個思考，就是說上面我說的圖像數(shù)據(jù)，如果是文本數(shù)據(jù)呢？我如何進行自定義數(shù)據(jù)呢？

轉(zhuǎn)載于:https://www.cnblogs.com/lzida9223/p/10536165.html

總結(jié)

以上是生活随笔為你收集整理的如何自定义数据集的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【广搜】Keyboarding
下一篇：创建新DB和新用户DBeaver连接

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

如何自定义数据集

總結(jié)