目标检测的“尽头”竟是语言建模?Hinton团队提出Pix2Seq:性能优于DETR
?作者丨h(huán)appy
編輯丨極市平臺
本文原創(chuàng)首發(fā)于極市平臺公眾號,轉(zhuǎn)載請獲得授權(quán)并標(biāo)明出處。
原文鏈接:https://arXiv.org/abs/2109.10852
語言模型與目標(biāo)檢測這種八竿子打不著的領(lǐng)域之間會存在關(guān)聯(lián)性嗎 ?Hinton團隊的最新工作Pix2Seq對此進行了探索,它將目標(biāo)檢測問題轉(zhuǎn)換成了語言模型問題,并在COCO數(shù)據(jù)集上取得了與DETR相當(dāng)甚至更優(yōu)性能 。好大的腦洞!
Abstract
本文提出了一種簡單而通用框架Pix2Seq用于目標(biāo)檢測,不同于已有顯式集成先驗知識的方案,我們將目標(biāo)檢測任務(wù)轉(zhuǎn)換成了基于觀測像素輸入的語言模型任務(wù) 。關(guān)于目標(biāo)的描述(比如邊框、類別)將被描述為離散token序列,我們訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)去感知圖像并生成期望的序列。
該方法主要基于這樣的直覺:如果神經(jīng)網(wǎng)絡(luò)知道目標(biāo)在哪、目標(biāo)是什么,那么我們僅需要教它如何進行解析 。除了實用任務(wù)相關(guān)數(shù)據(jù)增廣外,該方法對任務(wù)做了最小假設(shè),相比高度優(yōu)化的檢測方案,所提方法在COCO數(shù)據(jù)集上取得了極具競爭力的結(jié)果。
原文地址:目標(biāo)檢測的 “盡頭” 竟是語言建模?Hinton 團隊提出 Pix2Seq:性能優(yōu)于 DETR
總結(jié)
以上是生活随笔為你收集整理的目标检测的“尽头”竟是语言建模?Hinton团队提出Pix2Seq:性能优于DETR的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 去除冗余token的DETR效果怎么样?
- 下一篇: 多快好省的目标检测器来了,旷视孙剑团队提