ImageNet图像数据集介绍
ImageNet圖像數(shù)據(jù)集始于2009年,當時李飛飛教授等在CVPR2009上發(fā)表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文,之后就是基于ImageNet數(shù)據(jù)集的7屆ImageNet挑戰(zhàn)賽(2010年開始),2017年后,ImageNet由Kaggle(Kaggle公司是由聯(lián)合創(chuàng)始人兼首席執(zhí)行官Anthony Goldbloom 2010年在墨爾本創(chuàng)立的,主要是為開發(fā)商和數(shù)據(jù)科學家提供舉辦機器學習競賽、托管數(shù)據(jù)庫、編寫和分享代碼的平臺)繼續(xù)維護。
WordNet是一個由普林斯頓大學認識科學實驗室在心理學教授喬治·A·米勒的指導下建立和維護的英語字典。開發(fā)工作從1985年開始。由于它包含了語義信息,所以有別于通常意義上的字典。WordNet根據(jù)詞條的意義將它們分組,每一個具有相同意義的字條組稱為一個synset(同義詞集合)。WordNet為每一個synset提供了簡短,概要的定義,并記錄不同synset之間的語義關(guān)系。WordNet中的每個有意義的概念(concept)(可能由多個單詞或單詞短語描述)被稱為"同義詞集(synonym set)"或"synset"。
ImageNet是根據(jù)WordNet層次結(jié)構(gòu)組織的圖像數(shù)據(jù)集。在ImageNet中,目標是為了說明每個synset提供平均1000幅圖像。 每個concept圖像都是質(zhì)量控制和人為標注的(quality-controlled and human-annotated)。 在完成之后,希望ImageNet能夠為WordNet層次結(jié)構(gòu)中的大多數(shù)concept提供數(shù)千萬個干凈整理的圖像(cleanly sorted images)。
ImageNet是一項持續(xù)的研究工作,旨在為世界各地的研究人員提供易于訪問的圖像數(shù)據(jù)庫。目前ImageNet中總共有14197122幅圖像,總共分為21841個類別(synsets),大類別包括:amphibian、animal、appliance、bird、covering、device、fabric、fish、flower、food、fruit、fungus、furniture、geological formation、invertebrate、mammal、musical instrument、plant、reptile、sport、structure、tool、tree、utensil、vegetable、vehicle、person。
ImageNet有5種下載方式,如下圖所示:
(1). 所有圖像可通過url下載:不需要賬號登錄即可免費下載,下載鏈接:http://www.image-net.org/download-imageurls ,在SEARCH框中輸入需要下載的synset,如tree,結(jié)果如下圖所示,也可按類別下載即WordNet ID,下載鏈接:http://www.image-net.org/synset?wnid=n02084071 ,其中好像個別url已失效。
(2). 直接下載原始圖像:需要自己申請注冊一個賬號,然后登錄,經(jīng)驗證普通非學校郵箱無法注冊。對于希望將圖像用于非商業(yè)研究或教育目的的研究人員,可以在特定條件下通過ImageNet網(wǎng)站提供訪問權(quán)限。
(3). 下載圖像sift features:不需要賬號登錄即可免費下載,包括原始sift descriptors、quantized codewords、spatial coordiates of each descriptor/codeword。提features前,需要縮放圖像大小到最大邊長不超過300像素。通過VLFeat開源軟件提前sift features。并沒有對所有的synsets圖像提取sift。下載鏈接:http://www.image-net.org/api/download/imagenet.sbow.synset?wnid=n02119789 ,后面的n02119789為WordNet ID,可在http://www.image-net.org/api/text/imagenet.sbow.obtain_synset_list 中查看有哪些WordNet ID包括sift features并可點擊直接下載,下載下來的是一個Matlab文件(.mat),如n02119789.sbow.mat,在每個.mat文件中,每個sift descriptor有5個字段:x, y, norm, scale, word。word字段是cluster(k-means clustering of a random subset of 10 million SIFT descriptors)中心的索引,是一個0到999之間的一個整數(shù)。
(4). 下載Object Bounding Boxes:不需要賬號登錄即可免費下載,bounding boxes是通過亞馬遜土耳其機器人(Amazon Mechanical Turk)進行標注和驗證的。目前標注過的synsets已經(jīng)超過3000種,可從http://www.image-net.org/api/text/imagenet.bbox.obtain_synset_list 中查看和下載已標注的種類。對于每種synset,平均有150張帶有邊界框(bounding boxes)的圖像。圖像標注以PASCAL VOC格式保存在XML文件中,用戶可以使用PASCAL Development Toolkit解析標注。注意:在邊界框標注中,有兩個字段(width和height)表示圖像的大小。標注文件中邊界框的位置和大小與此大小有關(guān)。但是,此大小可能與下載的包中的實際圖像大小不同。(原因是標注文件中的大小是圖像顯示給標注器的顯示大小)。因此,要在原始圖像上找到實際像素,可能需要相應(yīng)地重新縮放邊界框??梢酝ㄟ^http://www.image-net.org/Annotation/Annotation.tar.gz 下載所有的標注文件,也可以通過http://www.image-net.org/api/download/imagenet.bbox.synset?wnid=n02119789 ,下載特定的synset,后面的n02119789為WordNet ID。
(5). 下載Object Attributes:不需要賬號登錄即可免費下載,object attributes是通過亞馬遜土耳其機器人(Amazon Mechanical Turk)進行標注和驗證的。目前標注過的synsets大約有400種,可從http://www.image-net.org/api/text/imagenet.attributes.obtain_synset_list 中查看已標注的種類,通過http://www.image-net.org/api/text/imagenet.attributes.obtain_synset_wordlist 點擊下載特定的種類。對于每一個synset,包含25種屬性:A. 顏色:黑色,藍色,棕色,灰色,綠色,橙色,粉紅色,紅色,紫羅蘭色,白色,黃色; B. 圖案(pattern):斑點,條紋;C. 形狀:長,圓形,矩形,方形;D. 紋理(texture):毛茸茸,光滑,粗糙,有光澤,金屬色,植被(vegetation),木質(zhì),濕潤。標注的屬性是基于先前收集的邊界框內(nèi)的object,即感興趣區(qū)域的object而不是整幅圖像??梢酝ㄟ^http://www.image-net.org/downloads/attributes/attrann.mat 下載整個文件,這個.mat文件有一個attrann結(jié)構(gòu)體,包括:A. 圖像列表;B. bounding boxes列表:每幅圖像一個,每個bounding boxes包含x1,x2,y1,y2字段,所有字段的值都歸一化為介于0和1之間;C. 屬性列表:圖像數(shù)*屬性數(shù)的labels矩陣,label為1表示屬性存在,label為-1表示屬性不存在,label為0表示不確定。也可以通過http://www.image-net.org/api/download/imagenet.attributes.synset?wnid=n01322604 ,下載特定的synset,后面的n01322604為WordNet ID。
ImageNet中的每張圖片屬于提供圖片的個人,ImageNet不擁有圖像的版權(quán),ImageNet數(shù)據(jù)集可以免費用于學術(shù)研究和非商業(yè)用途,但不能直接使用這些數(shù)據(jù)作為產(chǎn)品的一部分。
ImageNet Large Scale Visual Recognition Challenge(ILSVRC),從2010年開始,每年舉辦的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽,到2017年后截止。比賽項目包括:圖像分類(Classification)、目標定位(Object localization)、目標檢測(Object detection)、視頻目標檢測(Object detection from video)、場景分類(Scene classification)、場景解析(Scene parsing)。ILSVRC中使用到的數(shù)據(jù)僅是ImageNet數(shù)據(jù)集中的一部分。比賽使用的所有數(shù)據(jù)集均可通過登錄后下載。
"ImageNet改變了AI領(lǐng)域人們對數(shù)據(jù)集的認識,人們真正開始意識到它在研究中的地位,就像算法一樣重要",李飛飛教授說。
GitHub:?https://github.com/fengbingchun/NN_Test?
總結(jié)
以上是生活随笔為你收集整理的ImageNet图像数据集介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 经典网络LeNet-5介绍及代码测试(C
- 下一篇: 网络文件系统(NFS)简介