pytorch中文網(wǎng):https://www.pytorchtutorial.com/
pytorch官方文檔:https://pytorch.org/docs/stable/index.html
Pytorch的數(shù)據(jù)加載一般是用torch.utils.data.Dataset與torch.utils.data.Dataloader兩個(gè)類聯(lián)合進(jìn)行。我們需要繼承Dataset來(lái)定義自己的數(shù)據(jù)集類,然后在訓(xùn)練時(shí)用Dataloader加載自定義的數(shù)據(jù)集類。
pytorch的dataset類有兩種:Map-style datasets和Iterable-style datasets。前者是我們常用的結(jié)構(gòu),而后者是當(dāng)數(shù)據(jù)集難以(或不可能)進(jìn)行隨機(jī)讀取時(shí)使用。在這里我們實(shí)現(xiàn)Map-style dataset。
繼承torch.utils.data.Dataset后,需要重寫的方法有:__len__與__getitem__方法,其中__len__方法需要返回所有數(shù)據(jù)的數(shù)量,而__getitem__則是要依照給出的數(shù)據(jù)索引獲取對(duì)應(yīng)的tensor類型的Sample,除了這兩個(gè)方法以外,一般還需要實(shí)現(xiàn)__init__方法來(lái)初始化一些變量。話不多說(shuō),直接上代碼。
''' 包括了各種數(shù)據(jù)集的讀取處理,以及圖像相關(guān)處理方法 ''' from torch.utils.data import Dataset import torch import os import cv2 from Config import mycfg import random import numpy as np class ImageClassifyDataset(Dataset): def __init__(self, imagedir, labelfile, classify_num, train=True): ''' 這里進(jìn)行一些初始化操作。 ''' self.imagedir = imagedir self.labelfile = labelfile self.classify_num = classify_num self.img_list = [] # 讀取標(biāo)簽 with open(self.labelfile, 'r') as fp: lines = fp.readlines() for line in lines: filepath = os.path.join(self.imagedir, line.split(";")[0].replace('\\', '/')) label = line.split(";")[1].strip('\n') self.img_list.append((filepath, label)) if not train: self.img_list = random.sample(self.img_list, 50) def __len__(self): return len(self.img_list) def __getitem__(self, item): ''' 這個(gè)函數(shù)是關(guān)鍵,通過item(索引)來(lái)取數(shù)據(jù)集中的數(shù)據(jù), 一般來(lái)說(shuō)在這里才將圖像數(shù)據(jù)加載入內(nèi)存,之前存的是圖像的保存路徑 ''' _int_label = int(self.img_list[item][1]) # label直接用0,1,2,3,4...表示不同類別 label = torch.tensor(_int_label,dtype=torch.long) img = self.ProcessImgResize(self.img_list[item][0]) return img, label def ProcessImgResize(self, filename): ''' 對(duì)圖像進(jìn)行一些預(yù)處理 ''' _img = cv2.imread(filename) _img = cv2.resize(_img, (mycfg.IMG_WIDTH, mycfg.IMG_HEIGHT), interpolation=cv2.INTER_CUBIC) _img = _img.transpose((2, 0, 1)) _img = _img / 255 _img = torch.from_numpy(_img) _img = _img.to(torch.float32) return _img
有一些的數(shù)據(jù)集類一般還會(huì)傳入一個(gè)transforms函數(shù)來(lái)構(gòu)造一個(gè)圖像預(yù)處理序列,傳入transforms函數(shù)的一個(gè)好處是作為參數(shù)傳入的話可以對(duì)一些非本地?cái)?shù)據(jù)集中的數(shù)據(jù)進(jìn)行操作(比如直接通過torchvision獲取的一些預(yù)存數(shù)據(jù)集CIFAR10等等),除此之外就是torchvision.transforms里面有一些預(yù)定義的圖像操作函數(shù),可以直接像拼積木一樣拼成一個(gè)圖像處理序列,很方便。我這里因?yàn)槭怯梦易约合螺d到本地的數(shù)據(jù)集,而且比較簡(jiǎn)單就直接用自己的函數(shù)來(lái)操作了。
實(shí)例化自定義的數(shù)據(jù)集類ImageClassifyDataset后,將其傳給DataLoader作為參數(shù),得到一個(gè)可遍歷的數(shù)據(jù)加載器??梢酝ㄟ^參數(shù)batch_size控制批處理大小,shuffle控制是否亂序讀取,num_workers控制用于讀取數(shù)據(jù)的線程數(shù)量。
from torch.utils.data import DataLoader from MyDataset import ImageClassifyDataset dataset = ImageClassifyDataset(imagedir, labelfile, 10) dataloader = DataLoader(dataset, batch_size=5, shuffle=True,num_workers=5) for index, data in enumerate(dataloader): print(index) # batch索引 print(data) # 一個(gè)batch的{img,label}
在這里只討論深度學(xué)習(xí)模型的設(shè)計(jì),pytorch中的網(wǎng)絡(luò)結(jié)構(gòu)是一層一層疊出來(lái)的,pytorch中預(yù)定義了許多可以通過參數(shù)控制的網(wǎng)絡(luò)層結(jié)構(gòu),比如Linear、CNN、RNN、Transformer等等具體可以查閱官方文檔中的torch.nn部分。
設(shè)計(jì)自己的模型結(jié)構(gòu)需要繼承torch.nn.Module這個(gè)類,然后實(shí)現(xiàn)其中的forward方法,一般在__init__中設(shè)定好網(wǎng)絡(luò)模型的一些組件,然后在forward方法中依據(jù)輸入輸出順序拼裝組件。
''' 包括了各種模型、自定義的loss計(jì)算方法、optimizer ''' import torch.nn as nn class Simple_CNN(nn.Module): def __init__(self, class_num): super(Simple_CNN, self).__init__() self.class_num = class_num self.conv1 = nn.Sequential( nn.Conv2d( # input: 3,400,600 in_channels=3, out_channels=8, kernel_size=5, stride=1, padding=2 ), nn.Conv2d( in_channels=8, out_channels=16, kernel_size=5, stride=1, padding=2 ), nn.AvgPool2d(2), # 16,400,600 --> 16,200,300 nn.BatchNorm2d(16), nn.LeakyReLU(), nn.Conv2d( in_channels=16, out_channels=16, kernel_size=5, stride=1, padding=2 ), nn.Conv2d( in_channels=16, out_channels=8, kernel_size=5, stride=1, padding=2 ), nn.AvgPool2d(2), # 8,200,300 --> 8,100,150 nn.BatchNorm2d(8), nn.LeakyReLU(), nn.Conv2d( in_channels=8, out_channels=8, kernel_size=3, stride=1, padding=1 ), nn.Conv2d( in_channels=8, out_channels=1, kernel_size=3, stride=1, padding=1 ), nn.AvgPool2d(2), # 1,100,150 --> 1,50,75 nn.BatchNorm2d(1), nn.LeakyReLU() ) self.line = nn.Sequential( nn.Linear( in_features=50 * 75, out_features=self.class_num ), nn.Softmax() ) def forward(self, x): x = self.conv1(x) x = x.view(-1, 50 * 75) y = self.line(x) return y
上面我定義的模型中包括卷積組件conv1和全連接組件line,卷積組件中包括了一些卷積層,一般是按照{(diào)卷積層、池化層、激活函數(shù)}的順序拼接,其中我還在激活函數(shù)之前添加了一個(gè)BatchNorm2d層對(duì)上層的輸出進(jìn)行正則化以免傳入激活函數(shù)的值過?。ㄌ荻认В┗蜻^大(梯度爆炸)。
在拼接組件時(shí),由于我全連接層的輸入是一個(gè)一維向量,所以需要將卷積組件中最后的50 × 75 50\times 7550×75大小的矩陣展平成一維的再傳入全連接層(x.view(-1,50*75))
實(shí)例化模型后,網(wǎng)絡(luò)模型的訓(xùn)練需要定義損失函數(shù)與優(yōu)化器,損失函數(shù)定義了網(wǎng)絡(luò)輸出與標(biāo)簽的差距,依據(jù)不同的任務(wù)需要定義不同的合適的損失函數(shù),而優(yōu)化器則定義了神經(jīng)網(wǎng)絡(luò)中的參數(shù)如何基于損失來(lái)更新,目前神經(jīng)網(wǎng)絡(luò)最常用的優(yōu)化器就是SGD(隨機(jī)梯度下降算法) 及其變種。
在我這個(gè)簡(jiǎn)單的分類器模型中,直接用的多分類任務(wù)最常用的損失函數(shù)CrossEntropyLoss()以及優(yōu)化器SGD。
self.cnnmodel = Simple_CNN(mycfg.CLASS_NUM) self.criterion = nn.CrossEntropyLoss() # 交叉熵,標(biāo)簽應(yīng)該是0,1,2,3...的形式而不是獨(dú)熱的 self.optimizer = optim.SGD(self.cnnmodel.parameters(), lr=mycfg.LEARNING_RATE, momentum=0.9)
訓(xùn)練過程其實(shí)很簡(jiǎn)單,使用dataloader依照batch讀出數(shù)據(jù)后,將input放入網(wǎng)絡(luò)模型中計(jì)算得到網(wǎng)絡(luò)的輸出,然后基于標(biāo)簽通過損失函數(shù)計(jì)算Loss,并將Loss反向傳播回神經(jīng)網(wǎng)絡(luò)(在此之前需要清理上一次循環(huán)時(shí)的梯度),最后通過優(yōu)化器更新權(quán)重。訓(xùn)練部分代碼如下:
for each_epoch in range(mycfg.MAX_EPOCH): running_loss = 0.0 self.cnnmodel.train() for index, data in enumerate(self.dataloader): inputs, labels = data outputs = self.cnnmodel(inputs) loss = self.criterion(outputs, labels) self.optimizer.zero_grad() # 清理上一次循環(huán)的梯度 loss.backward() # 反向傳播 self.optimizer.step() # 更新參數(shù) running_loss += loss.item() if index % 200 == 199: print("[{}] loss: {:.4f}".format(each_epoch, running_loss/200)) running_loss = 0.0 # 保存每一輪的模型 model_name = 'classify-{}-{}.pth'.format(each_epoch,round(all_loss/all_index,3)) torch.save(self.cnnmodel,model_name) # 保存全部模型
測(cè)試和訓(xùn)練的步驟差不多,也就是讀取模型后通過dataloader獲取數(shù)據(jù)然后將其輸入網(wǎng)絡(luò)獲得輸出,但是不需要進(jìn)行反向傳播的等操作了。比較值得注意的可能就是準(zhǔn)確率計(jì)算方面有一些小技巧。
acc = 0.0 count = 0 self.cnnmodel = torch.load('mymodel.pth') self.cnnmodel.eval() for index, data in enumerate(dataloader_eval): inputs, labels = data # 5,3,400,600 5,10 count += len(labels) outputs = cnnmodel(inputs) _,predict = torch.max(outputs, 1) acc += (labels == predict).sum().item() print("[{}] accurancy: {:.4f}".format(each_epoch, acc / count))
我這里采用的是保存全部模型并加載全部模型的方法,這種方法的好處是在使用模型時(shí)可以完全將其看作一個(gè)黑盒,但是在模型比較大時(shí)這種方法會(huì)很費(fèi)事。此時(shí)可以采用只保存參數(shù)不保存網(wǎng)絡(luò)結(jié)構(gòu)的方法,在每一次使用模型時(shí)需要讀取參數(shù)賦值給已經(jīng)實(shí)例化的模型:
torch.save(cnnmodel.state_dict(), "my_resnet.pth") cnnmodel = Simple_CNN() cnnmodel.load_state_dict(torch.load("my_resnet.pth"))
至此整個(gè)流程就說(shuō)完了,是一個(gè)小白級(jí)的圖像分類任務(wù)流程,因?yàn)榍岸螘r(shí)間一直在做android方面的事,所以有點(diǎn)生疏了,就寫了這篇博客記錄一下,之后應(yīng)該還會(huì)寫一下seq2seq以及image caption任務(wù)方面的模型構(gòu)造與訓(xùn)練過程,完整代碼之后也會(huì)統(tǒng)一放到github上給大家做參考。
以上就是基于PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的CNN圖像分類器的詳細(xì)內(nèi)容,更多關(guān)于PyTorch實(shí)現(xiàn)CNN圖像分類器的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
標(biāo)簽:江蘇 金融催收 商丘 龍巖 酒泉 定西 云南 寧夏
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《基于PyTorch實(shí)現(xiàn)一個(gè)簡(jiǎn)單的CNN圖像分類器》,本文關(guān)鍵詞 基于,PyTorch,實(shí)現(xiàn),一個(gè),簡(jiǎn)單,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。