當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python数据处理常用函数_pytorch中的自定义数据处理详解

發(fā)布時間：2023/12/3 python 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 python数据处理常用函数_pytorch中的自定义数据处理详解小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

pytorch在數(shù)據(jù)中采用Dataset的數(shù)據(jù)保存方式，需要繼承data.Dataset類，如果需要自己處理數(shù)據(jù)的話，需要實(shí)現(xiàn)兩個基本方法。

：.getitem:返回一條數(shù)據(jù)或者一個樣本，obj[index] = obj.getitem(index). :.len:返回樣本的數(shù)量。 len(obj) = obj.len()。

Dataset 在data里，調(diào)用的時候使用

from torch.utilsimport data

import os

from PILimport Image

數(shù)據(jù)在調(diào)用getitem的時候才會讀取圖片數(shù)據(jù)，如果需要可以修改成自己的getitem函數(shù)，根據(jù)自己的數(shù)據(jù)集來設(shè)定，比如

def _getitem_(self,index):

img_path=self.imgs[index];##這里理解是加載了所有圖像的路徑，封裝成自身的格式

labels=[]##根據(jù)自己的格式進(jìn)行處理

pil_img=Image.open(img_path);##根據(jù)上面封裝好的格式進(jìn)行讀取

array=np.array(pil_img);##將讀取的圖像轉(zhuǎn)成array數(shù)據(jù)表示的格式

data=t.from_numpy(array)#轉(zhuǎn)成Tensor格式，方便后面網(wǎng)絡(luò)操作

return data,label;

def _len_(self):

return len(self.imgs);###imgs是一個絕對路徑

在主函數(shù)里調(diào)用的時候，只需使用

dataset=Dataset('')##或者調(diào)用自定義的數(shù)據(jù)處理類

data,label=dataset[0];##相當(dāng)于調(diào)用了dataset.__getitem__(0)

for img,labelin dataset:##里面也是以字典形式存放

print(img.size(),imf.float().mean(),label);

采用Dataset的缺點(diǎn)在于實(shí)際中圖像的大小不一，對數(shù)據(jù)處理中很不友好，其次數(shù)據(jù)太大，容易造成溢出，需要進(jìn)行歸一化，因此torchvision提供了transforms模塊對Image進(jìn)行和Tensor進(jìn)行操作。

對PIL_Image的常見操作：

Scale,調(diào)整圖像尺寸。centerCrop：randomcrop:randomsizecrop:裁剪圖片

pad:填充

ToTensor:將Image圖像轉(zhuǎn)化成tensor，并自動歸一化到[0,1]

對Tensor的常見操作：

Normalize:標(biāo)準(zhǔn)化，減去均值，除以標(biāo)準(zhǔn)差。 ToPILImage:將Tensor轉(zhuǎn)變成PILImage格式，可以方便后續(xù)的可視化。

—————————我是分割線—————————

上面介紹了需要自定義的數(shù)據(jù)處理方法，pytorch早封裝好了比較常用方便的方法.

transforms中的ImageFolder, 該類的好處是，所有文件按照類別進(jìn)行保存，文件名就是類別名，不需要另外再生成label.txt了，也不需要像上面預(yù)處理下Label，該類會自動生成標(biāo)簽，構(gòu)造函數(shù)如下：

ImageFolder(root,transform= None,target_transforms=None,loader=default_loader) ##其中root指定路徑，transform:對PIL_Image進(jìn)行轉(zhuǎn)換操作，輸入?yún)?shù)是loader的返回對象。target_transform：是label的轉(zhuǎn)換，loader:是指定加載圖片的函數(shù)，默認(rèn)操作是讀取為PIL_Image對象。

通過該函數(shù)得到的Lable按照文件夾名順序排序后形成字典的，比如{類名：序號從0開始}

,一般最好把文件夾命名為從0開始的數(shù)字，和Imageloader的實(shí)際的Lable一致，如果不是，可以通過self.class_to_ids來查看你得到的數(shù)據(jù)的映射關(guān)系，比如你的文件夾是cat和dog，那么loader就是自動從0開始標(biāo)簽，self.class_to_ids得到的就是{‘cat':0,'dog':1}。

dataset=ImageLoader('root');

dataset.imgs##返回圖片路徑和對應(yīng)的標(biāo)簽

dataset[5][1] ;##返回第5張圖的標(biāo)簽

dataset[5][0];##返回第5張圖的圖像數(shù)據(jù)，顯示出來的就是一副圖像，這時候并沒有轉(zhuǎn)成Tensor格式,所以需要手動轉(zhuǎn)換

dataset[0][0].size();##輸出第一個圖像的大小

##得到的結(jié)果如下，表示該圖像是3通道，大小為224*224

[3,224,224];

###定義一個transform，對數(shù)據(jù)進(jìn)行各種預(yù)處理。

mytransform=T.Compose([

randomSize;

T.ToTensor()，##重點(diǎn)是要記得轉(zhuǎn)成Tensor格式

normlize；

])；

dataset=ImageLoader('root',transform=mytransform);

調(diào)用ImageLoader把讀取的圖像轉(zhuǎn)成dataset存儲后，再使用DataLoader對上面得到的圖像tensor數(shù)據(jù)進(jìn)行抽樣，打亂和分批次操作，操作格式如下：

DataLoader(dataset,batch_size,shuffle=False,sampler=None,num_workers=0,collate_fn=default,pin_memory=False,drop_last=False);

其中：

dataset：加載得到的dataset對象，就是上面得到的DataSet和ImageLoader得到的對象(ImageLoader需要進(jìn)行tensor轉(zhuǎn)換后才行）。

batch_size:批處理的大小

shuffle:是否要把數(shù)據(jù)進(jìn)行打亂。（這樣可以防止連續(xù)多個樣本都是同一類別）

sampler:樣本抽樣.會改變本身dataset的大小（可以在不是batch倍數(shù)的時候使用）

num_workers:多進(jìn)程數(shù)量，0表示不使用多進(jìn)程。

collate_fn:一般采用默認(rèn)的batch拼接方式。

pin_memory;是否將數(shù)據(jù)保存在pin_memory里，將這的數(shù)據(jù)轉(zhuǎn)到GPU會快一些。

drop_last:有可能不是batch的整數(shù)倍，將不足一個batch的數(shù)據(jù)丟棄。

dataloader是一個迭代對象，使用方法與一個迭代器相似，例如：

for batch_data, batch_labelin dataloader:

##是按照一batch的數(shù)量進(jìn)行拼接的，以每batch進(jìn)行迭代。

--------torchvision數(shù)據(jù)處理和可視化常用工具--------------

models:保存了訓(xùn)練好的模型

datasets:保存了數(shù)據(jù)集,主要包括minist，imagenet等

transforms:提供常用的數(shù)據(jù)預(yù)處理操作。

make_grid: make_grid(dataloader[0],4)：將第一個batch的圖像拼接成4*4網(wǎng)格

save_image:直接將tensor格式的數(shù)據(jù)保存成圖像

tensorboard是tensorflow框架使用的，但是也有針對pytorch的Tensorboardx，能讀取數(shù)據(jù)并進(jìn)行可視化，使用比tensorflow的更加方便，本文主要介紹另外一種工具visdom，pytorch的專屬可視化工具，支持?jǐn)?shù)據(jù)，圖像，文本，視頻的顯示。visdom有以下兩種概念：

env:環(huán)境，默認(rèn)使用Main環(huán)境，不同用戶的環(huán)境可能不同，需要專門指定。

pane:窗格，用于進(jìn)行可視化，可以拖放，縮放和保存關(guān)閉，可以多個顯示。

可以使用pip install visdom直接進(jìn)行安裝，在使用visdom的時候需要注意，保存時候需要手動指定保存的env，其次客戶端和服務(wù)端之間交互采用tornado框架，不會受其他程序的影響。visdom需要使用nohup python -m visdom.server命令啟動,放在后臺運(yùn)行。

import visdom

vis=visdom.Visdom(env=u'test')；指定一個環(huán)境，新建一個客戶端，還可以指定host和端口

x=;

y=;

vis.line(X=x,Y=y,win='sinx',opts={'title':'y=sinx'};#畫圖

-line,-image,-text,-histgram,-scatter,-bar,-pie.

同時支持pytorch的tensor和Numpy結(jié)構(gòu)，但不支持int float類型，vis.updateTrace更新之前的圖。

visdom的畫圖工具可以接受兩種，一種是image，接受二維或者三維的，前者是黑白的，后者是彩色圖像，Images接受一個4維向量的nch*w,c可以是1或者3，代表黑白或者彩色的，n表示圖片的數(shù)量。

--------臨時記錄下已有的Loss函數(shù)-------

nn.CrossEntropyLoss(); ##交叉熵函數(shù)

nn.MSELoss()； ##均方差函數(shù)

nn.NLLLoss()

nn.NLL2dLoss()；

loss函數(shù)后面再學(xué)習(xí)。

以上這篇pytorch中的自定義數(shù)據(jù)處理詳解就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持服務(wù)器之家。

原文鏈接：https://www.jianshu.com/p/6c8c14707d01

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的python数据处理常用函数_pytorch中的自定义数据处理详解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：光子安卓变版app（光子安卓）
下一篇： win10的linux子系统（win10