當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算机视觉大作业抓取手势类型集_CS231n第一周[任务1]计算机视觉发展历史以及一些计算机视觉任务概念...

發布時間：2024/9/19 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了计算机视觉大作业抓取手势类型集_CS231n第一周[任务1]计算机视觉发展历史以及一些计算机视觉任务概念... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、任務簡介

1、2、3課時視頻

課程學習鏈接：

2017CS231n 斯坦福李飛飛計算機視覺識別_嗶哩嗶哩 (゜-゜)つロ干杯~-bilibili?www.bilibili.com

2、任務詳解：

計算機視覺概述

對課程和計算機視覺的簡單介紹，介紹一些斯坦福的課程

計算機視覺歷史背景

動物視覺歷史，貓視覺的試驗，貓的初級視覺細胞對邊緣產生回應

計算機視覺發展歷史（直接分類-->手動提取特征-->神經網絡）

目標檢測的數據集合 pascal voc Imagenet數據集合

2012年之后cnn獲得iamgent的比賽冠軍

課程后勤

圖像的一些任務：圖像分類，目標檢測，圖像描述

Imagenet比賽中的一些代表模型：Alexnet、Goognet、VGG、Resnet等

Cnn在1998年被嚴樂春初次使用

3、任務作業

圖像的數據主要來源有哪些（列舉幾個即可）

ImageNet、PASCAL VOC、COCO

sift feature 是什么，可以用來干什么？

尺度不變特征轉換(Scale-invariant feature transform，SIFT)是用來描述圖像的局部特征，它在空間尺度中尋找極值點，并提取出其位置、尺度、旋轉不變量。

其應用范圍包含物體辨識、機器人地圖感知與導航、影像縫合、3D模型建立、手勢辨識、影像追蹤和動作比對。

金字塔匹配思想是什么，可以用來干什么？

1）設置金字塔層數nLevels，創建源圖像和模板圖像對應的nLevels層金字塔圖像；

2）創建每層金字塔圖像時，涉及到降采樣(除以2)，降采樣后會出現鋸齒，需要采用平滑濾波器進行處理；高斯平滑濾波器效果好但耗時，可以直接采用小模板的均值濾波器；

3）計算模板與ROI圖像的相似性值時，需要選擇相似性度量準則；相似性度量準則有SAD(絕對值總和),SSD(平方差總和)和NCC(歸一化相關系數)，NCC的計算最耗時但效果最好，能很好的適應光照變化。

可以應用在目標檢測中。

hog特征是什么，可以用來干什么？

方向梯度直方圖（Histogram of Oriented Gradient, HOG）特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子。

HOG特征提取方法就是將一個image（你要檢測的目標或者掃描窗口）：

1）灰度化（將圖像看做一個x,y,z（灰度）的三維圖像）；

2）采用Gamma校正法對輸入圖像進行顏色空間的標準化（歸一化）；目的是調節圖像的對比度，降低圖像局部的陰影和光照變化所造成的影響，同時可以抑制噪音的干擾；

3）計算圖像每個像素的梯度（包括大小和方向）；主要是為了捕獲輪廓信息，同時進一步弱化光照的干擾。

4）將圖像劃分成小cells（例如6*6像素/cell）；

5）統計每個cell的梯度直方圖（不同梯度的個數），即可形成每個cell的descriptor；

6）將每幾個cell組成一個block（例如3*3個cell/block），一個block內所有cell的特征descriptor串聯起來便得到該block的HOG特征descriptor。

7）將圖像image內的所有block的HOG特征descriptor串聯起來就可以得到該image（你要檢測的目標）的HOG特征descriptor了。這個就是最終的可供分類使用的特征向量了。

了解一下PASCAL VOC數據集合及imagenet數據集合

PASCAL VOC（Visual Object Challenge）：由20個類別，火車、飛機、人類等等。每種類別有成千上萬張圖片。

ImageNet：22000類，4000萬張圖片。匯集所有能找到的圖片，組成一個盡可能大的數據集。

在imagenet比賽中成績突破是哪一個網絡？

Alexnet

神經網絡早就存再為什么神經網絡最近才興起(提示：從數據和硬件方面考慮)

神經網絡需要大量帶標簽的數據，在90年代時收集這樣的數據是很困難的。

90年代計算機的計算能力不能滿足卷積神經網絡這種高強度的計算。

圖像任務有哪些，解決什么樣的圖像問題（eg:圖像分類就是看圖片中的物體具體是什么）。

圖像分類：圖片中的物體具體是什么

目標檢測：說明物體在哪里，標注出在圖像中的位置

語義分割：理解途中的每個像素，它在干什么，又代表了什么

動作識別：識別人物活動

4、圖像金字塔（與課程無關，自己總結）

圖像金字塔就是把原圖分解成不同分辨率的子圖像，底部是待處理圖像的高分辨率的表示，頂部是低分辨率的表示，從而構成一個金字塔，常見的金字塔有高斯金字塔和拉普拉斯金字塔。

高斯金字塔：原圖像作為最底層的圖像

,然后利用高斯核（5*5）對其進行卷積，對卷積后的圖像進行下采樣（去除偶數行和列），得到上一層圖像，將作為新一輪圖像的輸入，重復卷積和下采樣操作，迭代多次，產生一個金字塔結構，即高斯金字塔。

拉普拉斯金字塔：用高斯金字塔的每一層圖像減去其上一層圖像上采樣并高斯卷積之后的預測圖像，得到一系列的差值圖像即為 LP 分解圖像。也就是說拉普拉斯金字塔是通過原圖像減去先縮小再放大的一系列圖像構成的。

5、參考資料

圖像數據集匯總：

https://blog.csdn.net/u012966194/article/details/79676516?blog.csdn.net

SIFT：

https://blog.csdn.net/lyl771857509/article/details/79675137?blog.csdn.net

金字塔匹配：

基于金字塔的模板匹配算法 - Happy_he - 博客園?www.cnblogs.com

HOG特征：

https://www.cnblogs.com/jyxbk/p/8985253.html?www.cnblogs.com

總結

以上是生活随笔為你收集整理的计算机视觉大作业抓取手势类型集_CS231n第一周[任务1]计算机视觉发展历史以及一些计算机视觉任务概念...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。