残差学习,152层网络,微软夺冠2015 ImageNet计算机视觉识别挑战
美國東部時間2015年12月10日,微軟亞洲研究院視覺計算組在2015 ImageNet計算機識別挑戰賽中憑借深層神經網絡技術的最新突破,以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。同一時刻,他們在另一項圖像識別挑戰賽MS COCO(Microsoft Common Objects in Context challenges,常見物體圖像識別)中同樣成功登頂,在圖像檢測和圖像分割項目上擊敗了來自學界、企業和研究機構的眾多參賽者。
在此次挑戰賽中,微軟亞洲研究院的研究團隊使用了一種前所未有的深度高達百層的神經網絡,這比以往任何成功使用的神經網絡層數多5倍以上,從而在照片和視頻物體識別等技術方面實現了重大突破。
ImageNet挑戰賽去年獲勝的系統錯誤率為6.6%,而今年微軟亞洲研究院視覺計算組的系統錯誤率已經低至3.57%。事實上,該研究團隊早在今年一月就首先實現了對人類視覺能力的突破。當時,在題為“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的論文中,他們系統的錯誤率已降低至4.94%。此前同樣的實驗中,人眼辨識的錯誤率大概為5.1%。
微軟全球資深副總裁、微軟亞太研發集團主席兼微軟亞洲研究院院長洪小文博士表示:“微軟亞洲研究院視覺計算組在此次ImageNet挑戰賽中所取得的出色成績,不僅是微軟在深層神經網絡的研究和應用上所取得的科學突破,同時也代表著計算機視覺技術在目標識別方面的又一次飛躍。我對研究組多年來的技術積累、探索和成果倍感驕傲,同時也對這一突破對其它研究領域的推動以及相關產品的轉化充滿期待。”
微軟亞洲研究院視覺計算組首席研究員孫劍博士帶領的團隊在深層神經網絡方面進行了算法的更新,并稱之為“深層殘差網絡”(deep residual networks)。目前普遍使用的神經網絡層級能夠達到20到30層,在此次挑戰賽中該團隊應用的神經網絡系統實現了152層。該研究團隊還使用了一個全新的“殘差學習”原則來指導神經網絡結構的設計。“殘差學習”最重要的突破在于重構了學習的過程,并重新定向了深層神經網絡中的信息流。它很好地解決了此前深層神經網絡層級與準確度之間的矛盾。孫劍表示:“從我們極深的深層神經網絡中可以看出,‘深層殘差網絡’力量強大且極為通用,可以預見它還能極大地改善其它計算機視覺問題。”
微軟亞洲研究院多年來在計算機視覺領域的研究成果已經轉化到眾多微軟的智能產品和服務中,包括微軟牛津計劃中的人臉識別和圖像識別API、Windows 10中的Windows Hello“刷臉”開機功能、必應的圖像搜索、微軟小冰的多個圖像“技能”,OneDrive中的圖片分類功能,以及廣受好評的口袋掃描儀Office Lens等等。
ImageNet是一個計算機視覺系統識別項目,也是目前世界上圖像識別最大的數據庫。ImageNet挑戰賽每年舉辦一次,由來自全球頂尖高校、企業及研究機構的研究員組織舉辦,近年來已經成為計算機視覺領域的標桿。MS COCO數據庫由微軟資助建立,其挑戰賽目前由學術界幾所高校聯合組織,獨立運行。
相關論文下載:http://arxiv.org/abs/1512.03385
總結
以上是生活随笔為你收集整理的残差学习,152层网络,微软夺冠2015 ImageNet计算机视觉识别挑战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习 vs. 概率图模型 vs. 逻
- 下一篇: Socket通信总结(附C++实现)