CVPR2021中的事件相机研究
本文首發于公眾號:【事件相機】,CVPR2021中的事件相機研究
本文整理了CVPR 2021年中關于事件相機的相關工作(從openaccess上關鍵詞查找得到的,可能有遺漏),并作簡要介紹。能力有限,難免理解錯誤或理解理解不到位,畢竟能發CVPR的大佬肯定比我強。重在分享,如有錯誤和不同見解,請及時提出。謝謝。
Spatiotemporal Registration for Event-based Visual Odometry [1]
主要貢獻:提出了一種新的數據關聯方式(Data Association)。所謂Data Association,縮寫DA,在事件相機中可以理解為:如果某些事件是由同一個事件源產生的,那么這些事件是關聯的。傳統的方法,多采用最大對比度的方式進行DA [A1],例如將所有event通過一個warp到某個圖像平面然后評估圖像的對比度/熵等某些指標,來優化warp參數,最終獲得DA與合理的參數。但此文作者指出,原始方法計算量極大,故提出了另一種方法:Spatiotemporal Registration
下面一張圖就能解釋什么叫“時空回歸”。左側是上面提到的最大化對比度的方法,把每個像素都warp到一起。右面是本文的時空回歸,可以看出是把前一半時刻events按照假定參數變化到后一半時刻,來判斷重合度。這種批量的方式計算量會小很多。
文中詳細推導了計算方法和復雜度,表明優于原來的方式。但需要指出,該方法是僅限于純旋轉,不存在平移。那什么情況下是純旋轉問題呢,作者指出在視頻消抖、全景重建、形體跟蹤是這些純旋轉問題。
論文提到了Odometry,利用這種方法可以同時估計相機運動(旋轉)參數,就實現了Odom,當然是純旋轉的。那這種我覺得不能算是完整的Odom。
Back to Event Basics: Self-Supervised Learning of Image Reconstruction for Event Cameras via Photometric Constancy [2]
這是一篇關于圖像重建的工作,主要亮點為:自監督訓練重建網絡。我們知道重建系列景點工作E2VID[A2]和 FireNet[A3],都是有監督的訓練。那不禁思考,如何“自監督”。自監督不是無監督,是指框架通過自身產生一些參考值來訓練所要訓練的神經網絡。那究竟是用什么自監督的?
上圖是整個訓練框架。其中FlowNet是光流預測網絡,ReconNet是重建網絡,下面的Event Accumulation是帶極性的時間積累圖。黑色箭頭是正向傳遞過程,得到重建的圖后通過,與積累圖和光流圖比較Photometric Constancy得到誤差,反向傳播優化重建網絡。簡單理解為什么這三個可以為什么可以實現自監督:如果重建的圖是對的,那么重建圖+光流方向,就可以得到理論上產生的事件,那這個應該和時間積累圖能夠對應。由此實現了自監督。
具體來說,光流預測網絡FlowNet可以采用最出名的Ev-FlowNet[A4],也可以用其他的比如本文作者提出的FireFlowNet;而重建網絡可以采用E2VID或FireNet等,不做展開。
EvDistill: Asynchronous Events to End-task Learning via Bidirectional Reconstruction-guided Cross-modal Knowledge Distillation [3]
本文關于知識蒸餾,討論如何用傳統圖像數據來訓練Event數據。我對知識蒸餾、跨模態相關知識不太了解,在這里只能簡單摘抄翻譯。
跨模態訓練時,一般假設兩個模態數據的標簽都是已知的,或兩個模態的數據是paired的。但這兩個對event數據和image數據來說都不現實。作者這里提出了一個“bidirectional modality reconstruction (BMR)”,雙向模態模塊,從事件重建圖像,從圖像重建事件,實現了數據的關聯。之后呢便通過強大的傳統圖像的神經網絡,teach事件數據這個student網絡。本文實現的是一個分割任務。
EventZoom: Learning to Denoise and Super Resolve Neuromorphic Events [4]
提出了降噪超分網絡,本文的特點是“EventZoom is trained in anoise-to-noise fashion where the two ends of the network are unfiltered noisyevents, enforcing noise-free event restoration.” 這句話我沒有特別理解,認為是訓練一個兩端都是帶噪聲的event網絡,但實現了降噪。我對降噪和超分辨率也不太了解,所以可能此文理解也有偏差。
比較有新意的一點是,雖然采用了常用的“大屏幕動圖”方式,本文錄屏時同時錄制了不同分辨率的圖像。那這樣我們同時得到了低分辨率和高分辨率的對應,再在低分辨率事件數據上加一定程度的噪聲,在訓練時左側放低分辨率+噪聲的數據,右側放最大分辨率+無人工噪聲的數據,訓練了這個EventZoom。
Time Lens: Event-based Video Frame Interpolation [5]
視頻流插幀的研究。文中指出,之前的插幀方法多采用”synthesis-based”方法,即”predicted frame residuals are directly applied to the key-frames”,但存在鬼影和低紋理區域效果差。本文提出一種”warping-based”方法,并設計了完整的framework如下。
warping-based差值我通俗的理解為,用event估計出光流后,我就可以將key-frame的每個點根據光流情況預測出在某個時刻的圖像。這個完整的framework首先經過這個模塊得到一個warping預測圖并細化,再通過synthesis-based插值法得到一個圖,最終兩個圖經過一個基于注意力機制(簡單來說就是權重)的融合得到插值結果。
(從實驗結果可以看出,能夠“腦補”水球落地前到破裂之間的圖像)
Event-based Bispectral Photometry using Temporally Modulated Illumination [6]
利用事件相機做光譜分析一類的吧,完全不懂。貼個摘要算了:
Analysis of bispectral difference plays acritical role in various applications that involve rays propagating in a lightabsorbing medium. In general, the bispectral difference is obtained bysubtracting signals at two individual wavelengths captured by ordinary digitalcameras, which tends to inherit the drawbacks of conventional cameras indynamic range, response speed and quantization precision. In this paper, wepropose a novel method to obtain a bispectral difference image using an eventcamera with temporally modulated illumination. Our method is rooted in a keyobservation on the analogy between the bispectral photometry principle of theparticipating medium and the event generating mechanism in an event camera. Bycarefully modulating the bispectral illumination, our method allows to read outthe bispectral difference directly from triggered events. Experiments using aprototype imaging system have verified the feasibility of this novel usage ofevent cameras in photometry based vision tasks, such as 3D shape reconstructionin water.
Event-based Synthetic Aperture Imaging with a Hybrid Network [7]
這篇文章場景比較有趣啦,雖然也是重建,但相機前面有一些遮擋,屬于合成孔徑成像(Syntheticaperture imaging)相關內容。先看圖:
圖片就說清楚實在干什么了,核心是網絡中的編解碼器,有趣的是編碼器采用了SNN,現在SNN用的還不是很多。感興趣的細看論文吧。
Turning Frequency to Resolution: Video Super-resolution via Event Cameras [8]
文章發現圖像超分辨率的質量和幀率有關,所以用Event去提高幀率然后超分。個人沒有太看懂文章,和上面的幾篇相比沒有眼前一亮的感覺,就不多做介紹了。
Learning to Reconstruct High Speed and High Dynamic Range Videos from Events [9]
看名字就知道是在干什么了。我Deep Learning不熟,所以文章內容并不是very impressive。
Indoor Lighting Estimation using an Event Camera [10]
這工作比較有趣,通過事件相機來估計室內環境中光源的位置。
利用事件相機對準一個球體,根據球體表面產生的event,估計房間中的光源位置。涉及到了光學模型和神經網絡,方法不做展開。
作者指出,目前有一些局限性,即必須要求室內從黑暗環境中開燈,由事件相機記錄下開燈的整個過程,而且只能有一個光源。雖然有這么多局限性,但我感覺挺有意思的,查了下估計室內光源有什么用,好像對于VR/AR場景比較有幫助。
High-speed Image Reconstruction through Short-term Plasticity for Spiking Cameras [11]
這篇文章講的其實并不是Event Camera,而是Spiking Camera。有點兒像但不一樣,我可能有機會深入研究以后再介紹吧。
總結
CVPR2021中對Event Camera的研究,主要集中視頻領域,包括重建[2][7][9]、插值[5]、降噪超分[4],其他的有數據處理[1]、光照估計[10]、知識蒸餾[3]、光譜分析[6]。其中除了[1][6]外,都是Learning-based的方法,不禁感慨DL真的是到處擴張。
參考文獻:
[1] Daqi Liu; Alvaro Parra; Tat-Jun Chin:Spatiotemporal Registration for Event-Based Visual Odometry.
[2] Federico Paredes-Valles; Guido C. H. E.de Croon: Back to Event Basics: Self-Supervised Learning of ImageReconstruction for Event Cameras via Photometric Constancy.
[3] Lin Wang; Yujeong Chae; Sung-Hoon Yoon;Tae-Kyun Kim; Kuk-Jin Yoon: EvDistill: Asynchronous Events To End-Task Learningvia Bidirectional Reconstruction-Guided Cross-Modal Knowledge Distillation.
[4] Peiqi Duan; Zihao W. Wang; Xinyu Zhou;Yi Ma; Boxin Shi: EventZoom: Learning To Denoise and Super Resolve NeuromorphicEvents.
[5] Stepan Tulyakov; Daniel Gehrig;Stamatios Georgoulis; Julius Erbach; Mathias Gehrig; Yuanyou Li; DavideScaramuzza: Time Lens: Event-Based Video Frame Interpolation.
[6] Tsuyoshi Takatani; Yuzuha Ito; AyakaEbisu; Yinqiang Zheng; Takahito Aoto: Event-Based Bispectral Photometry UsingTemporally Modulated Illumination.
[7] Xiang Zhang; Wei Liao; Lei Yu; WenYang; Gui-Song Xia: Event-Based Synthetic Aperture Imaging With a HybridNetwork.
[8] Yongcheng Jing; Yiding Yang; XinchaoWang; Mingli Song; Dacheng Tao: Turning Frequency to Resolution: VideoSuper-Resolution via Event Cameras.
[9] Yunhao Zou; Yinqiang Zheng; TsuyoshiTakatani; Ying Fu: Learning To Reconstruct High Speed and High Dynamic RangeVideos From Events.
[10] Zehao Chen; Qian Zheng; Peisong Niu;Huajin Tang; Gang Pan: Indoor Lighting Estimation Using an Event Camera.
[11] Yajing Zheng; Lingxiao Zheng; ZhaofeiYu; Boxin Shi; Yonghong Tian; Tiejun Huang: High-Speed Image ReconstructionThrough Short-Term Plasticity for Spiking Cameras.
[A1] Guillermo Gallego, Mathias Gehrig, andDavide Scaramuzza. Focus is all you need: Loss functions for event-basedvision. In Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition, pages 12280–12289, 2019.
[A2] H. Rebecq, R. Ranftl, V. Koltun, andD. Scaramuzza, “High speed and high dynamic range video with an event camera,”IEEE Trans. on Pattern Anal. and Mach. Intell., 2019.
[A3] C. Scheerlinck, H. Rebecq, D. Gehrig,N. Barnes, R. Mahony, and D. Scaramuzza, “Fast image reconstruction with anevent camera,” in IEEE Winter Conf. Appl. Comput. Vis. (WACV), 2020, pp.156–163.
[A4] A. Z. Zhu and L. Yuan, “EV-FlowNet:Self-supervised optical flow estimation for event-based cameras,” in Robot.:Science and Systems (RSS), 2018.
歡迎關注微信公眾號【事件相機】,分享和交流事件相機的相關研究與應用。
公眾號后臺回復:CVPR2021,下載本文介紹的論文。
總結
以上是生活随笔為你收集整理的CVPR2021中的事件相机研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在Deepin15.11下用独立显卡及游
- 下一篇: 2018年9月总结