一. ImageNet Large Scale Visual Recognition Competition (ILSVRC)
Imagenet資料集是目前深度學習映像領域應用得非常多的一個資料集,關於映像分類、定位、檢測等研究工作大多基於此資料集展開。Imagenet資料集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標註和映像中物體位置的標註。Imagenet資料集文檔詳細,有專門的團隊維護,使用非常方便,在電腦視覺領域研究論文中應用非常廣,幾乎成為了目前深度學習映像領域演算法效能檢驗的“標準”資料集。
與Imagenet資料集對應的有一個享譽全球的“ImageNet國際電腦視覺挑戰賽(ILSVRC)”,目前包含的比賽項目有:
1.目標定位(Object localization)
給定一幅映像,演算法需要產生5個帶有信賴度的類別標籤及其分別對應的目標物邊框資訊。演算法準確率的評估是基於與標註的類別標籤最匹配的預測標籤圖片中可能存在多個物體及其對應的標註資訊和與標註的邊框資訊重疊的預測邊框圖片中可能存在多個同類物體。為什麼這樣做呢。因為這樣就允許演算法識別映像中的多個目標物,並且當其中一個目標物確實存在於映像中但沒有被標註出來時演算法不會受到懲罰。可能說的有不清楚或不正確的地方,大家可以看下官方的評估規則。
2.目標檢測(Object detection)
給定一幅映像,演算法需要產生多組 (ci,si,bi) (c_i, s_i, b_i)形式的預測資訊,其中 ci c_i為類別標籤、 si s_i為信賴度、 bi b_i為邊框資訊。需要注意的是,演算法必須檢測出映像中出現的每一個訓練過的目標物,漏檢和重複資料偵測都會受到懲罰。
3.視頻序列的目標檢測(Object detection from video)
這一項和上一項目標檢測類似。
4.情境分類(Scene classification)
這個比賽使用了Places2 dataset,比賽規則是對於給定映像,允許演算法產生5個情境分類,並挑選匹配度最高的作為評估結果,詳看他們的評估規則吧。為什麼這麼做呢。因為同一幅圖片可以包含有多個情境類別,事實上同一幅圖片本來就是用多個類別標註的。
5.情境分析(Scene parsing)
這個比賽的目標是將映像分割成與語義類別相關聯的不同映像地區,如天空,道路,人和床。具體規則見官網吧。 二.COCO common objects Dataset
COCO資料集由微軟贊助,其對於映像的標註資訊不僅有類別、位置資訊,還有對映像的語義文本描述,COCO資料集的開源使得近兩三年來映像分割語義理解取得了巨大的進展,也幾乎成為了映像語義理解演算法效能評價的“標準”資料集。Google的開源show and tell產生模型就是在此資料集上測試的。
目前包含的比賽項目有:
1.目標檢測(COCO Detection Challenge),包含兩項比賽: 輸出目標物的邊框即可(using bounding box output),也就是我們常說的目標檢測(object detection)了 要求把目標物從映像中分割出來(object segmentation output),即我們所說的映像語義分割(Semantic image segmentation)
2.映像標註(COCO Captioning Challenge)
具體說來就是一句話準確描述圖片上的資訊(producing image captions that are informative and accurate)。那這個怎麼評分呢。目前是靠人工評分。
3.人體關鍵點檢測(COCO Keypoint Challenge)
比賽要求是找到人在哪,然後定位到人體的一些關鍵點位置(The keypoint challenge involves simultaneously detecting people and localizing their keypoints)。
三.Pascal VOC
PASCAL VOC挑戰賽是視覺物件的分類識別和檢測的一個基準測試,提供了檢測演算法和學習效能的標準映像注釋資料集和標準的評估系統。PASCAL VOC圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、單車、船、公用汽車、小轎車、>機車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年後便不再舉辦,但其資料集映像品質好,標註完備,非常適合用來測試演算法效能。
四.CIFAR
CIFAR-10包含10個類別,50,000個訓練映像,彩色映像大小:32x32,10,000個測試映像。CIFAR-100與CIFAR-10類似,包含100個類,每類有600張圖片,其中500張用於訓練,100張用於測試;這100個類分組成20個超類。映像類別均有明確標註。CIFAR對於映像分類演算法測試來說是一個非常不錯的中小規模資料集。
五.THE MNIST DATABASE of handwritten digits
深度學習領域的“Hello World!”。MNIST是一個手寫數字資料集,它有60000個訓練樣本集和10000個測試樣本集,每個樣本映像的寬高為28*28。需要注意的是,此資料集是以二進位儲存的,不能直接以映像格式查看。
最早的深度卷積網路LeNet便是針對此資料集的,當前主流深度學習架構幾乎無一例外將MNIST資料集的處理作為介紹及入門第一教程。
六.KITTI
KITTI由德國卡爾斯魯厄理工學院(Karlsruhe Institute of Technology)和豐田芝加哥技術研究院(Toyota Technological Institute at Chicago)於2012年聯合創辦,是目前國際上最大的自動駕駛情境下的電腦視覺演算法評測資料集。用於評測3D 目標(機動車、非機動車、行人等)檢測、3D 目標跟蹤、道路分割等電腦視覺技術在車載環境下的效能。KITTI包含市區、鄉村和高速公路等情境採集的真實映像資料,每張映像中多達15輛車和30個行人,還有各種程度的遮擋。
七.Cityscapes
Cityscapes也是自動駕駛相關方面的資料集,重點關注於像素級的情境分割和執行個體標註。
參考資料:
深度學習視覺領域常用資料集匯總 八.Face Service資料集LFW(Labeled Faces in the Wild)
在這個資料集上,基於深度學習的系統DeepID2可以達到99.47%的識別率。