深度学习数据预处理
深度學習數據預處理
訓練過程中有時會遇到過擬合的問題,其中一個解決方法就是對訓練數據做增強,對數據進行處理得到不同的圖像,從而泛化數據集。數據增強API是定義在領域目錄的transofrms下,這里介紹兩種使用方式,一種是基于框架內置數據集,一種是基于自定義的數據集。
一、飛槳框架內置數據集
針對飛槳框架內置圖像數據集的預處理,飛槳框架將這部分API整合到paddle.vision.transforms下,你可以通過以下方式查看:
import paddle
print(‘數據處理方法:’, paddle.vision.transforms.all)
數據處理方法: [‘BaseTransform’, ‘Compose’, ‘Resize’, ‘RandomResizedCrop’, ‘CenterCrop’, ‘RandomHorizontalFlip’, ‘RandomVerticalFlip’, ‘Transpose’, ‘Normalize’, ‘BrightnessTransform’, ‘SaturationTransform’, ‘ContrastTransform’, ‘HueTransform’, ‘ColorJitter’, ‘RandomCrop’, ‘Pad’, ‘RandomRotation’, ‘Grayscale’, ‘ToTensor’, ‘to_tensor’, ‘hflip’, ‘vflip’, ‘resize’, ‘pad’, ‘rotate’, ‘to_grayscale’, ‘crop’, ‘center_crop’, ‘adjust_brightness’, ‘adjust_contrast’, ‘adjust_hue’, ‘normalize’]
可以同構以下方式隨機調整圖像的亮度、對比度、飽和度,并調整圖像的大小,對圖像的其他調整,可以參考相關的API文檔。
from paddle.vision.transforms import Compose, Resize, ColorJitter
定義想要使用的數據增強方式,這里包括隨機調整亮度、對比度和飽和度,改變圖片大小
transform = Compose([ColorJitter(), Resize(size=32)])
通過transform參數傳遞定義好的數據增強方法即可完成對自帶數據集的增強
train_dataset = paddle.vision.datasets.MNIST(mode=‘train’, transform=transform)
二、自定義數據集
對于自定義的數據集,可以在數據集的構造函數中進行數據增強方法的定義,之后對 getitem 中返回的數據進行應用,就可以完成自定義數據增強。
import paddle
from paddle.io import Dataset
from paddle.vision.transforms import Compose, Resize
BATCH_SIZE = 64
BATCH_NUM = 20
IMAGE_SIZE = (28, 28)
CLASS_NUM = 10
class MyDataset(Dataset):
def init(self, num_samples):
super(MyDataset, self).init()
self.num_samples = num_samples
# 在 __init__ 中定義數據增強方法,此處為調整圖像大小
self.transform = Compose([Resize(size=32)])
def __getitem__(self, index):data = paddle.uniform(IMAGE_SIZE, dtype='float32')# 在 `__getitem__` 中對數據集使用數據增強方法data = self.transform(data.numpy())label = paddle.randint(0, CLASS_NUM-1, dtype='int64')return data, labeldef __len__(self):return self.num_samples
測試定義的數據集
custom_dataset = MyDataset(BATCH_SIZE * BATCH_NUM)
print(’=custom dataset=’)
for data, label in custom_dataset:
print(data.shape, label.shape)
break
=custom dataset=
[32, 32] [1]
可以看出,輸出的形狀從 [28, 28, 1] 變為了 [32, 32, 1],證明完成了圖像的大小調整。
總結
- 上一篇: 深度学习数据集定义与加载
- 下一篇: 深度学习模型组网