动手学CV-目标检测入门教程:基本概念
3.1 目標檢測基本概念
本文來自開源組織 DataWhale 🐳 CV小組創作的目標檢測入門教程。
對應開源項目 《動手學CV-Pytorch》 的第3章的內容,教程中涉及的代碼也可以在項目中找到,后續會持續更新更多的優質內容,歡迎??。
如果使用我們教程的內容或圖片,請在文章醒目位置注明我們的github主頁鏈接:https://github.com/datawhalechina/dive-into-cv-pytorch
3.1.1 什么是目標檢測
目標檢測是計算機視覺中的一個重要任務,近年來傳統目標檢測方法已經難以滿足人們對目標檢測效果的要求,隨著深度學習在計算機視覺任務上取得的巨大進展,目前基于深度學習的目標檢測算法已經成為主流。
相比較于基于深度學習的圖像分類任務,目標檢測任務更具難度。
具體區別如圖3-1所示。
圖像分類:只需要判斷輸入的圖像中是否包含感興趣物體。
目標檢測:需要在識別出圖片中目標類別的基礎上,還要精確定位到目標的具體位置,并用外接矩形框標出。
圖3-1 分類和目標檢測任務示意圖3.1.2 目標檢測的思路
自2012年Alex Krizhevsky憑借Alex在ImageNet圖像分類挑戰賽中拿下冠軍之后,深度學習在圖像識別尤其是圖像分類領域開始大放異彩,大眾的視野也重新回到深度神經網絡中。緊接著,不斷有更深更復雜的網絡出現,一再刷新ImageNet圖像分類比賽的記錄。
大家發現,通過合理的構造,神經網絡可以用來預測各種各樣的實際問題。于是人們開始了基于CNN的目標檢測研究, 但是隨著進一步的探索大家發現,似乎CNN并不善于直接預測坐標信息。并且一幅圖像中可能出現的物體個數也是不定的,模型如何構建也比較棘手。
因此,人們就想,如果知道了圖中某個位置存在物體,再將對應的局部區域送入到分類網絡中去進行判別,那我不就可以知道圖像中每個物體的位置和類別了嗎?
但是,怎么樣才能知道每個物體的位置呢?顯然我們是沒辦法知道的,但是我們可以去猜啊!所謂猜,其實就是通過滑窗的方式,羅列圖中各種可能的區域,一個個去試,分別送入到分類網絡進行分類得到其類別,同時我們會對當前的邊界框進行微調,這樣對于圖像中每個區域都能得到(class,x1,y1,x2,y2)五個屬性,匯總后最終就得到了圖中物體的類別和坐標信息。
總結一下我們的這種方案思路:先確立眾多候選框,再對候選框進行分類和微調。
觀察下圖2-1,更形象的理解下這種思想:
圖3-2 從分類角度去看目標檢測圖3-2展示了一個通過遍歷各個區域,然后逐個分類去完成目標檢測任務的過程示例。在待識別圖上預設一個框,然后逐像素遍歷,就能得到大量候選框(這里僅為示意圖,圖上只展示了3個框用于說明問題,具體數量由圖像大小和預設框大小決定),每個框送入到分類網絡分類都有一個得分(代表當前框中有一個船的置信度),那么得分最高的就代表識別的最準確的框,其位置就是最終要檢測的目標的位置。
以上就是最初的基于深度學習的目標檢測問題解決思路,RCNN,YOLO,SSD等眾多經典網絡模型都是沿著這個思路優化發展的。
本文會基于以上思路,帶領大家從0開始一步步搭建一個目標檢測模型,并完成模型的訓練測試及評價!
3.1.3 目標框定義方式
任何圖像任務的訓練數據都要包括兩項,圖片和真實標簽信息,通常叫做GT。
圖像分類中,標簽信息是類別。目標檢測的標簽信息除了類別label以外,需要同時包含目標的位置信息,也就是目標的外接矩形框bounding box。
用來表達bbox的格式通常有兩種,(x1, y1, x2, y2) 和 (c_x, c_y, w, h) ,如圖3-3所示:
圖3-3 目標框定義方式之所以使用兩種不同的目標框信息表達格式,是因為兩種格式會分別在后續不同場景下更加便于計算。
兩種格式互相轉換的實現在utils.py中,代碼也非常簡單:
def xy_to_cxcy(xy):"""Convert bounding boxes from boundary coordinates (x_min, y_min, x_max, y_max) to center-size coordinates (c_x, c_y, w, h).:param xy: bounding boxes in boundary coordinates, a tensor of size (n_boxes, 4):return: bounding boxes in center-size coordinates, a tensor of size (n_boxes, 4)"""return torch.cat([(xy[:, 2:] + xy[:, :2]) / 2, # c_x, c_yxy[:, 2:] - xy[:, :2]], 1) # w, hdef cxcy_to_xy(cxcy):"""Convert bounding boxes from center-size coordinates (c_x, c_y, w, h) to boundary coordinates (x_min, y_min, x_max, y_max).:param cxcy: bounding boxes in center-size coordinates, a tensor of size (n_boxes, 4):return: bounding boxes in boundary coordinates, a tensor of size (n_boxes, 4)"""return torch.cat([cxcy[:, :2] - (cxcy[:, 2:] / 2), # x_min, y_mincxcy[:, :2] + (cxcy[:, 2:] / 2)], 1) # x_max, y_max3.1.4 交并比(IoU)
在目標檢測任務中,關于IOU的計算貫穿整個模型的訓練測試和評價過程,是非常非常重要的一個概念,其目的是用來衡量兩個目標框的重疊程度。
IoU的全稱是交并比(Intersection over Union),表示兩個目標框的交集占其并集的比例。圖3-4為IOU計算示意圖:
圖3-4 IOU計算示意圖圖中可以看到,分子中黃色區域為紅bbox和綠bbox的交集,分母中黃+紅+綠區域為紅bbox和綠bbox的并集,兩者之比即為iou。
那么具體怎么去計算呢?這里給出計算流程的簡述:
1.首先獲取兩個框的坐標,紅框坐標: 左上(red_x1, red_y1), 右下(red_x2, red_y2),綠框坐標: 左上(green_x1, green_y1),右下(green_x2, green_y2) 2.計算兩個框左上點的坐標最大值:(max(red_x1, green_x1), max(red_y1, green_y1)), 和右下點坐標最小值:(min(red_x2, green_x2), min(red_y2, green_y2)) 3.利用2算出的信息計算黃框面積:yellow_area 4.計算紅綠框的面積:red_area 和 green_area 5.iou = yellow_area / (red_area + green_area - yellow_area)如果文字表述的不夠清晰,就再看下代碼:
def find_intersection(set_1, set_2):""" Find the intersection of every box combination between two sets of boxes that are in boundary coordinates.:param set_1: set 1, a tensor of dimensions (n1, 4) :param set_2: set 2, a tensor of dimensions (n2, 4):return: intersection of each of the boxes in set 1 with respect to each of the boxes in set 2, a tensor of dimensions (n1, n2)"""# PyTorch auto-broadcasts singleton dimensionslower_bounds = torch.max(set_1[:, :2].unsqueeze(1), set_2[:, :2].unsqueeze(0)) # (n1, n2, 2)upper_bounds = torch.min(set_1[:, 2:].unsqueeze(1), set_2[:, 2:].unsqueeze(0)) # (n1, n2, 2)intersection_dims = torch.clamp(upper_bounds - lower_bounds, min=0) # (n1, n2, 2)return intersection_dims[:, :, 0] * intersection_dims[:, :, 1] # (n1, n2)def find_jaccard_overlap(set_1, set_2):""" Find the Jaccard Overlap (IoU) of every box combination between two sets of boxes that are in boundary coordinates.:param set_1: set 1, a tensor of dimensions (n1, 4):param set_2: set 2, a tensor of dimensions (n2, 4):return: Jaccard Overlap of each of the boxes in set 1 with respect to each of the boxes in set 2, a tensor of dimensions (n1, n2)"""# Find intersectionsintersection = find_intersection(set_1, set_2) # (n1, n2)# Find areas of each box in both setsareas_set_1 = (set_1[:, 2] - set_1[:, 0]) * (set_1[:, 3] - set_1[:, 1]) # (n1)areas_set_2 = (set_2[:, 2] - set_2[:, 0]) * (set_2[:, 3] - set_2[:, 1]) # (n2)# Find the union# PyTorch auto-broadcasts singleton dimensionsunion = areas_set_1.unsqueeze(1) + areas_set_2.unsqueeze(0) - intersection # (n1, n2)return intersection / union # (n1, n2)以上代碼位于utils.py腳本的find_intersection和find_jaccard_overlap
3.1.5 小結
以上便是本小節的全部內容了。
本小節我們首先介紹了目標檢測的問題背景,隨后分析了一個實現目標檢測的解決思路,這也是眾多經典檢測網絡和本章要介紹的模型所采用的思路(即先確立眾多候選框,再對候選框進行分類和微調)。最后介紹了bbox和IoU這兩個目標檢測相關的基本概念。
下一小節,我們將會從數據入手,介紹下目標檢測領域最常見的一個數據集VOC,以及數據讀取相關的代碼。
總結
以上是生活随笔為你收集整理的动手学CV-目标检测入门教程:基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: controller属于哪一层_孺教网分
- 下一篇: 动手学CV-目标检测入门教程3:锚框(a