CVPR 2022 在星空下起舞,伯克利联合Intel Labs提出极弱光环境下的视频降噪方案
論文鏈接:https://arxiv.org/abs/2204.04210
項目主頁:https://kristinamonakhova.com/starlight_denoising/
代碼鏈接:https://github.com/monakhova/starlight_denoising/(尚未開源)
導讀
與某些需要在夜晚進行捕獵的動物和鳥類相比,人類的夜視能力相對較弱,我們無法在極度弱光的環境中有效觀察到物體的運動,例如在沒有月亮的星空下。對于專業的攝影師來說,在這種黑暗環境下可以通過延長相機的曝光時間(幾秒中或者更長的時間)從場景中收集夠足夠的光線來提高拍攝效果,但是這種方式只適用于拍攝靜態圖片,如果在拍攝畫面中有明顯運動的視頻時,成像機制本身帶來的噪聲就足以淹沒整個畫面了。雖然已有很多的圖像或視頻降噪算法,但是這些算法往往建立在經典的噪聲模型(高斯或泊松-高斯噪聲) 基礎之上,其在極度黑暗的星空環境下會失效。如果在這種環境下使用長曝光等傳感器增益手段,這樣帶來的噪聲通常是非高斯的、非線性的并且特定于傳感器的參數,我們很難對這些噪聲進行建模和表征,如果去噪算法無法理解這些噪聲的機理,而將這些噪聲誤認為是我們希望捕捉到的運動信號,那降噪的效果肯定會大打折扣。為了解決上述問題,加州大學伯克利分校和Intel實驗室合作提出了一種物理啟發的噪聲模型,并結合GAN網絡可以對極度弱光環境下拍攝的視頻進行降噪,從而呈現出非常逼真的星空下視頻降噪效果,降噪效果如下圖所示:
圖(a)展示了在一個沒有任何外部照明的夜晚拍攝的亞毫秒級(submillilux)視頻幀,圖(b)展示了對比度調整后的結果,圖(c)為本文去噪網絡的降噪效果。經過降噪處理,我們可以觀察到畫面中有一位舞者在星空下起舞,但在原視頻中,我們很難觀察到這樣的動作。
1. 本文方法
目前有很多基于深度學習的視頻降噪方法,但是這些方法需要提前使用相機收集正常-噪聲樣本對來訓練降噪器學習像素到像素之間的映射函數,而且也缺乏對噪聲建模的考慮,這使得數據集和模型非常依賴相機硬件和一系列的拍攝參數。前面提到可以通過提高相機的曝光等增益設置來為靜態圖片捕獲正常-噪聲樣本對,但是使用這種方式對視頻樣本對進行構造則會更加復雜,可能需要架設第二臺攝像機,并考慮如何將兩臺攝像機的拍攝視角進行對齊。
為了在有限的實驗條件下完成亞毫秒視頻去噪,作者提出了一個三步走方案:(1)使用一個較為專業的攝像機,其應該針對低光環境成像進行優化并設置為長曝光。(2)針對這臺攝像機建立一個物理啟發的噪聲模型(噪聲生成器),以便于可以源源不斷的獲取靜態的噪聲圖像。(3)使用上一步得到的噪聲生成器合成正常-噪聲視頻樣本對來訓練視頻降噪器。需要注意的是,本文的噪聲生成器是在有限的靜態圖像對上訓練得到的,因此不需要考慮對兩種圖像進行視角對齊,同時也保證了噪聲生成器的泛化性。隨后作者將噪聲生成器合成的靜態圖像對和動態視頻對結合來訓練視頻降噪器,整體的訓練框架如下圖所示:
上圖左側展示了噪聲生成器的訓練框架,其主要由一個生成器和一個判別器構成,判別器的作用是區分真實噪聲和生成的偽噪聲,這是GAN訓練的經典策略。在經過一系列長曝光/低增益和短曝光/高增益的圖像對訓練之后,噪聲生成器可以生成出近乎真實的噪聲圖像。隨后使用生成器合成正常-噪聲視頻樣本對來訓練視頻降噪網絡,下面將分別介紹噪聲生成器和降噪網絡的構成細節。
1.1 物理啟發的噪聲生成器
為了更加精確地擬合極弱光環境中的噪聲模型,本文提出了一種物理啟發的噪聲生成器,它由幾個可學習的統計噪聲參數組成,此外,為了提高噪聲模型的普適性,作者在構建模型時沒有進行任何形式的手動校準,而是完全通過GAN網絡自動學習符合當前環境的最佳參數。作者使用一定數量的清晰圖像(長曝光,低增益)和噪聲圖像(短曝光,高增益)對訓練該網絡,經過網絡的對抗博弈優化,就可以在極弱光環境和高增益相機參數設置下合成逼真的噪聲,生成器框架如下圖所示。
先前的工作已經證明,相機在低光環境下的噪聲可以表示為散射噪聲(shot)、讀取噪聲(read)、帶狀噪聲(row)和量化噪聲(quantization)的組合,作者提出的生成器模型對這些噪聲均進行了建模,下面一一進行介紹。
散射噪聲(shot)和讀取噪聲(read)如上圖左下角所示,散射噪聲刻畫了光線照射到相機傳感器上的強度,通常被建模為泊松隨機變量,而讀取噪聲可以近似為零均值高斯隨機變量,在本文中,二者均使用異方差高斯隨機變量來近似,其中均值等于真實信號 xxx,方差由讀取參數 λread\lambda_{read}λread? 和 散射噪聲參數 λshot\lambda_{shot}λshot? 來設定:
Ns+Nr~N(μ=x,σ2=λread+λshotx)N_{s}+N_{r} \sim \mathcal{N}\left(\mu=x, \sigma^{2}=\lambda_{r e a d}+\lambda_{s h o t} x\right)Ns?+Nr?~N(μ=x,σ2=λread?+λshot?x)
對于帶狀噪聲(row),會在圖像中以水平或者垂直條紋的形式出現,這種噪聲是一種與相機硬件相關的噪聲,往往會在弱光環境中產生。作者通過在圖像的每一行或每一列上添加固定的偏移量來模擬帶狀噪聲,其中固定偏移量是從方差為 λrow\lambda_{row}λrow? 的零均值高斯隨機變量中得出的,如上圖中所示。此外,作者還觀察到條帶噪聲的出現與畫面中出現的物體無關,在一個視頻的很多幀中,往往會出現固定且一致的條帶噪聲,為了對此建模,作者還加入了一個具有時間一致性的帶狀噪聲 N(0,λrow?,t)\mathcal{N}\left(0, \lambda_{\text {row }, t}\right)N(0,λrow?,t?),它在每一組幀序列中都是保持靜態不變的,與普通帶狀噪聲類似,作者將這種噪聲也建模為方差為 λrow,t\lambda_{row}, tλrow?,t 的零均值高斯隨機變量。
最后,作者添加了一個統一的噪聲分量來近似傳感器帶來的量化噪聲(quantization):
Nq~U(λquant?)N_{q} \sim \mathcal{U}\left(\lambda_{\text {quant }}\right)Nq?~U(λquant??)
其中 λquant\lambda_{quant}λquant? 是量化噪聲的間隔參數。通常情況下,量化噪聲分量是根據相機傳感器使用的位數來明確定義的,但是在實驗中發現,如果對這個噪聲參數進行調整可以有效改善噪聲生成器整體效果,因此作者使用一組圖像序列數據中的平均值來作為噪聲分量 NfN_{f}Nf? 的值,并令其在整個數據中的所有圖像上保持不變,作者發現使用這種固定的調整模式來確定量化噪聲分量的參數可以改善生成噪聲和真實噪聲之間的Kullback-Leibler(KL)散度。
將上述一系列噪聲分量依次疊加在干凈清晰的圖像上之后,得到初始的物理啟發噪聲圖,再將該噪聲圖像送入到一個具有殘差結構的2D-Unet網絡中,用來學習初始疊加噪聲到真實噪聲之間的映射。
1.2 視頻降噪網絡
在訓練好噪聲生成器之后,作者構建了個由正常-噪聲樣本對組成的視頻降噪數據集,下一步就是根據該數據集訓練視頻降噪網絡,該網絡可以很好的泛化到來自真實環境中相機拍攝到的嘈雜視頻。受突變去噪方法[1]的啟發,作者也選取了多個連續的噪聲幀聯合對視頻中心幀進行去噪,并設計了一種可以一次對多個幀進行操作的網絡架構,這種方式在弱光環境下具有明顯的優勢,因為對一連串的圖像進行去噪可以比對單圖像去噪有多維度信息作為參考,因此可以有效提高圖像的降噪質量,此外,對噪聲幀序列一起去噪,可以幫助模型保持跨幀的時間一致性并減少整體降噪后視頻中的閃爍現象,本文的降噪網絡結構如下圖所示。
本文的降噪網絡結是在FastDVDNet[2]網絡的基礎上搭建而成的,FastDVDNet是目前較為先進的視頻去噪器,它可以隱式處理視頻中的運動估計,作者將原始FastDVDNet中的基礎單元U-Net替換成了HRNet,發現與原始U-Net架構相比,HRNet可以使最終去噪視頻的時間一致性更好。本文的降噪網絡可以直接運行在RAW格式的原始視頻序列上,經過一定的后處理操作就可以得到最終的降噪視頻。
2. 實驗分析
在實驗部分,作者在極弱光環境下從攝像頭中收集了三組數據集:(1)靜態場景中清晰圖像(長曝光,低增益)和噪聲圖像(短曝光,高增益)圖像對,(2)運動場景中的清晰圖像,(3)運動場景中的極弱光環境圖像(submillilux)。所有的圖像和視頻均以RAW格式進行存儲,其中靜態場景中的配對數據集主要用來訓練噪聲生成器,然后配對數據集和運動場景中的清晰圖像組合起來用于訓練降噪網絡,而在運動場景中采集的極弱光環境圖像(submillilux dataset)用于代表真實環境的測試數據集來評估所提方法的性能。
本文實驗主要分為兩部分,分別對噪聲生成器和視頻降噪網絡進行評估,在噪聲生成器的評估實驗中,作者重點對每個物理噪聲分量進行了消融分析,還與其他噪聲模型進行了對比,例如ELD、NoiseFlow和CA-GAN,其中,ELD是一種傳統方法,后兩者是深度學習方法,實驗效果如下表所示,可以看到本文方法的性能最好,同時對于組成噪聲各個分量之間的消融實驗也表明了各個分量對最終噪聲擬合效果的貢獻。
此外作者也在下圖中進行了可視化對比,可以看到,NoiseFlow和CA-GAN方法都直接忽略了在數據集中加入的帶狀噪聲(row),ELD雖然可以捕獲帶狀噪聲,但是它也忽略了其他噪聲分量。
在對視頻降噪網絡的評估中,對本文提出的視頻整體降噪方案進行了評價,主要分為兩部分:對單圖像去噪和對視頻片段去噪,作者分別計算了本文方法與其他對比方法的三個圖像質量評價指標:PSNR、SSIM和LPIPS,結果如下表所示,本文的方法在這三個指標上均達到了最好的效果。
作者還在預留出來的極弱光環境圖像(submillilux dataset)上進行了效果對比,如下圖所示,可以看到本文方法與其他兩個視頻降噪方法相比,有效的減少了條紋偽影,保留了更多的圖像細節,例如夜空中的繁星。
3. 總結
本文針對極弱光環境下的圖像和視頻降噪問題發起了挑戰,通過結合相機硬件本身涵蓋的物理參數和基于深度學習的圖像噪聲建模手段提出了一種物理啟發的噪聲生成器,并根據該生成器構建了一系列具有特殊用途的數據集,有力的推動了后續視頻降噪網絡的訓練。整體一套流程展現了基于深度學習的去噪方法在這種極端光照條件下的強大能力。作者團隊還希望通過這項工作能夠在未來幫助其他領域在極弱光環境下開展科學研究(例如研究在無月條件下或森林中的夜間動物行為)。
參考
[1] Ben Mildenhall, Jonathan T Barron, Jiawen Chen, Dillon Sharlet, Ren Ng, and Robert Carroll. Burst denoising with kernel prediction networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2502–2510, 2018.
[2] Matias Tassano, Julie Delon, and Thomas Veit. Fastdvdnet: Towards real-time deep video denoising without flow estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1354–1363, 2020.
-The End-
關于我“門”
▼
將門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門-TechBeat技術社區(TechBeat)以及將門創投基金。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
總結
以上是生活随笔為你收集整理的CVPR 2022 在星空下起舞,伯克利联合Intel Labs提出极弱光环境下的视频降噪方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: calico的日志
- 下一篇: chrome 移动Web H5 调试