日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

图像对齐深度学习算法调研

發(fā)布時間:2024/3/26 pytorch 63 豆豆
生活随笔 收集整理的這篇文章主要介紹了 图像对齐深度学习算法调研 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

參考博客:
曠視 R TALK:圖像對齊及其應(yīng)用
單應(yīng)性Homograph估計:從傳統(tǒng)算法到深度學習

1. 傳統(tǒng)算法

大致流程:

  • 提取特征點
  • 特征匹配
  • RANSAC 排除錯誤匹配
  • 求解單應(yīng)性(Homograph)矩陣
  • 難點:

  • 弱紋理、無紋理(特征少,難以提取)
  • 低光圖像、噪聲干擾(特征集中在局部,對齊效果差)
  • 重復紋理(特征匹配容易出錯)
  • 大前景干擾
  • 大視差
  • 深度視差(單應(yīng)性變換本身的局限性)
  • 2. 深度學習算法

    2.1 Deep Image Homography Estimation(2016)

    論文地址

    創(chuàng)新:

    • 數(shù)據(jù)集
  • 原始圖像取一個矩形區(qū)域 A(藍色框)
  • 對 A 的四個頂點做一定范圍(黃色框)的隨機位移(紅色箭頭)得到一個不規(guī)則區(qū)域(不規(guī)則綠色框)
  • 根據(jù)位移向量可以求得 HAB\mathrm{H^{AB}}HABHBA\mathrm{H^{BA}}HBA
  • 對原圖做 HBA\mathrm{H^{BA}}HBA 變換,得到矩形區(qū)域 B(矩形綠色框)
  • 將 A 和 B 輸入給網(wǎng)絡(luò)求得 HAB\mathrm{H^{AB}}HAB
    • 網(wǎng)絡(luò)結(jié)構(gòu)


      ??直接預測出單應(yīng)性矩陣參數(shù)比較困難,因此網(wǎng)絡(luò)預測的是4個頂點的位移量(右邊回歸網(wǎng)絡(luò)),然后再計算單應(yīng)性矩陣。
      ??文中說沒有置信度會限制一些應(yīng)用,就搞了左邊的分類網(wǎng)絡(luò),將4個頂點的位移范圍劃分為21個區(qū)間,輸出落在每個區(qū)間的概率值。

    優(yōu)點:

  • 對弱紋理和無紋理圖像優(yōu)于傳統(tǒng)算法;
  • 缺點:

  • 訓練數(shù)據(jù)是人工變形得到的,真實世界圖像存在內(nèi)容上差異,導致對真實世界圖像的對齊效果較差;
  • 2.2 Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model(2017)

    論文地址
    代碼地址

    創(chuàng)新:

    • 網(wǎng)絡(luò)結(jié)構(gòu)

      ??圖(a)為2.1的監(jiān)督算法,圖(b)為傳統(tǒng)算法,圖(c)為此文無監(jiān)督算法。
      ??H~4pt\mathrm{\tilde{H}_{4pt}}H~4pt? 為預測的4個頂點位移向量,結(jié)合4個頂點的位置坐標 C4ptA\mathrm{C^A_{4pt}}C4ptA?,通過 Tensor DLT(Direct Linear Transform)得到單應(yīng)性矩陣 H~\mathrm{\tilde{H}}H~;之后通過空間變換層得到圖像 P~B\mathrm{\tilde{P}^B}P~B,并與實際圖像 PB\mathrm{P^B}PB 計算光度損失(像素點間的 L1 損失)。
      ??其中,Tensor DLT(代替 SVD 奇異值分解)和空間變換層都是為了便于梯度計算,使網(wǎng)絡(luò)得以訓練。

    優(yōu)點:

  • 相比監(jiān)督算法,對真實世界圖像的對齊效果較好;
  • 對圖像特征的表達比較魯棒,不像傳統(tǒng)方法很依賴特征點;
  • 缺點:

  • 數(shù)據(jù)集主要用的航拍圖像,適合單個單應(yīng)性矩陣做對齊;
  • 深度視差、RANSAC
  • 2.3 Content-Aware Unsupervised Deep Homography Estimation(2019)

    論文地址
    代碼地址

    創(chuàng)新:

    • 數(shù)據(jù)集

      制作了一套數(shù)據(jù)集分為5大類,并為了量化評估,手工標注了5000張圖像作為ground truth;

    • Regular(RE):紋理豐富,單平面遠景適合用單個單應(yīng)性矩陣對齊
    • Low texture(LT):紋理少
    • Low light(LL):低光圖像
    • Small Foregrounds(SF):小前景
    • Large Foreground(LF):大前景
    • 網(wǎng)絡(luò)結(jié)構(gòu)


      β∈{a,b}\beta \in \{a,b\}β{a,b}
      ??此文認為直接用像素值當特征不太好,通過 f(?)f(\cdot)f(?) 獲取深層特征 FβF_{\beta}Fβ?,并通過 m(?)m(\cdot)m(?) 生成 mask MβM_{\beta}Mβ?。這里的特征和 mask 都和原圖 IβI_{\beta}Iβ? 分辨率相同,其中 m(?)m(\cdot)m(?) 的作用與 RANSAC 相似,生成的 mask 可以看作是特征的權(quán)重,來衡量特征的重要性,從而可以忽略一些干擾的特征(如干擾前景)。Gβ=FβMβG_{\beta}=F_{\beta}M_{\beta}Gβ?=Fβ?Mβ? 輸入給后續(xù)的單應(yīng)性估計網(wǎng)絡(luò),同樣預測4個位移向量,并通過一個線性系統(tǒng)得到單應(yīng)性矩陣 Hab\mathcal{H}_{a b}Hab?。

      損失計算:
      min?m,f,hLn(Ia′,Ib)+Ln(Ib′,Ia)?λL(Ia,Ib)+μ∥HabHba?I∥22\min _{m, f, h} \mathbf{L}_{\mathbf{n}}\left(I_{a}^{\prime}, I_\right)+\mathbf{L}_{\mathbf{n}}\left(I_^{\prime}, I_{a}\right)-\lambda \mathbf{L}\left(I_{a}, I_\right)+\mu\left\|\mathcal{H}_{a b} \mathcal{H}_{b a}-\mathcal{I}\right\|_{2}^{2} m,f,hmin?Ln?(Ia?,Ib?)+Ln?(Ib?,Ia?)?λL(Ia?,Ib?)+μHab?Hba??I22?
      其中,
      Ln(Ia′,Ib)=∑iMa′Mb?∥Fa′?Fb∥1∑iMa′Mb\mathbf{L}_{\mathbf{n}}\left(I_{a}^{\prime}, I_\right)=\frac{\sum_{i} M_{a}^{\prime} M_ \cdot\left\|F_{a}^{\prime}-F_\right\|_{1}}{\sum_{i} M_{a}^{\prime} M_}Ln?(Ia?,Ib?)=i?Ma?Mb?i?Ma?Mb??Fa??Fb?1??iii 表示特征圖和mask中的像素索引

      L(Ia,Ib)=∥Fa?Fb∥1\mathbf{L}\left(I_{a}, I_\right)=\left\|F_{a}-F_\right\|_{1}L(Ia?,Ib?)=Fa??Fb?1?

      Hba\mathcal{H}_{b a}Hba? 通過將 IaI_aIa?IbI_bIb? 的特征位置互換得到

      ??損失函數(shù)前兩項最小化變換后圖像特征的差異,第三項是為了避免全零解最大化原始圖像特征差異,第四項則是讓兩個單應(yīng)性變換盡可能可逆。
      ??(2021.10.25)后續(xù)發(fā)現(xiàn)提供的代碼用 torch.nn.TripletMarginLoss() 替代了論文描述的損失函數(shù)(TripletMarginLoss解析),基本就是只保留上面損失的1、3項,第4項在 utils.py 里留了個口 getBatchHLoss();主要問題在于 mask 的訓練,從 loss 分析如果 mask 是全為0那么 loss 會最低,這顯然不對;mask 加入訓練時,github 上說用一個小學習率微調(diào)網(wǎng)絡(luò),結(jié)合反向傳播和數(shù)據(jù)來看,前景差異大,背景差異小,則 mask 的前景部分會更快地趨向于0,那么 mask 是有效的,但是關(guān)鍵在于這個數(shù)據(jù)集是分割視頻生成的,背景部分差異很小,后面發(fā)現(xiàn)很多對齊用的公開數(shù)據(jù)集即使是背景差異也非常大,這個 mask 的策略基本就是無效的了。

    優(yōu)點:

  • 解決 RANSAC 問題,主要避免前景干擾
  • 缺點:

  • 深度視差
  • 2.4 DeepMeshFlow: Content Adaptive Mesh Deformation for Robust Image Registration(2019)

    論文地址

    Mesh Flow 大致就是把圖像劃分為網(wǎng)格,每個網(wǎng)格對應(yīng)一個單應(yīng)性矩陣,從而適應(yīng)圖像中的不同深度平面來對齊。

    創(chuàng)新:

    • 網(wǎng)絡(luò)結(jié)構(gòu)

      ??ResNet-34 后面連接 KKK 個分支(K=3K=3K=3),每個分支從一個自適應(yīng)池化層開始,并通過卷積層生成一個特定大小的 mesh flow:

      M1′→(Hg16+1)×(Wg16+1)×2=2×2×2\mathcal{M}_{1}^{\prime} \to \left(\frac{H_{g}}{16}+1\right) \times\left(\frac{W_{g}}{16}+1\right) \times 2=2 \times 2 \times 2M1?(16Hg??+1)×(16Wg??+1)×2=2×2×2

      M2′→(Hg4+1)×(Wg4+1)×2=5×5×2\mathcal{M}_{2}^{\prime} \to \left(\frac{H_{g}}{4}+1\right) \times\left(\frac{W_{g}}{4}+1\right) \times 2=5 \times 5 \times 2M2?(4Hg??+1)×(4Wg??+1)×2=5×5×2

      M3→(Hg+1)×(Wg+1)×2=17×17×2\mathcal{M}_{3} \to \left(H_{g}+1\right) \times\left(W_{g}+1\right) \times 2=17 \times 17 \times 2M3?(Hg?+1)×(Wg?+1)×2=17×17×2

      然后將粗尺度 M1′\mathcal{M}_{1}^{\prime}M1?M2′\mathcal{M}_{2}^{\prime}M2? 上采樣至 M3\mathcal{M}_{3}M3? 分辨率,并融合 M1\mathcal{M}_{1}M1?、M2\mathcal{M}_{2}M2?M3\mathcal{M}_{3}M3?。

      ??mesh flow 的融合通過一個場景分割網(wǎng)絡(luò)將圖像 III 分割為 KKK 個類別,輸出大小為 (Hg+1)×(Wg+1)×K\left(H_{g}+1\right) \times\left(W_{g}+1\right) \times K(Hg?+1)×(Wg?+1)×K,融合方式是直接按分類結(jié)果選擇每個點的位移向量用哪個 mesh flow 的對應(yīng)值,最終得到 M?\mathcal{M}^{*}M?。之后的 loss 計算與 2.3 相同。

    優(yōu)點:

  • 解決深度視差問題
  • 2.5 RANSAC-Flow: generic two-stage image alignment(2020 ECCV)

    論文地址
    代碼地址

    論文代碼詳細分析

    創(chuàng)新:

    • 單應(yīng)性(粗對齊)與光流法(細對齊)結(jié)合
    • 迭代方式做對齊

    優(yōu)點:

    ??按論文中的說法,單應(yīng)性對圖像細節(jié)對齊的不好,而光流法對差異較大的圖像無法對齊,而此方法可以對差異大的圖像細節(jié)也對齊好,揚長避短地結(jié)合兩種對齊方法。

  • 細節(jié)對齊效果好
  • 對各種差異很大圖像也能對齊
  • 網(wǎng)絡(luò)基本沒做什么優(yōu)化就有很好的效果(論文只是訓練了細對齊網(wǎng)絡(luò),粗對齊網(wǎng)絡(luò)直接是遷移過來都不微調(diào);直接用提供的模型在自己雙目相機采集的小差異數(shù)據(jù)上就有很好的對齊效果)
  • 缺點:

    ??論文中展示的為相對效果較好(較容易對齊)的結(jié)果,下圖為挑選的幾種不同角度的缺點,由于最終的對齊參數(shù)為一個像素級對齊矩陣,所以主要缺陷還是與光流法類似。

  • 無法判斷需要對齊的部分
    ??此例,原始圖像為目標圖像右上一小塊區(qū)域,但是算法會盡可能將全圖都對上。

  • 光流法的圖像局部扭曲現(xiàn)象
    ??像素級對齊通常在低分率的特征圖上做對齊然后插值到原圖的高分辨率,目前判斷扭曲現(xiàn)象是插值造成的。

  • 前景遮擋
    ??前景遮擋情況下的肉眼觀感很差,存在大面積扭曲,不如 2.3 的效果(無視前景做對齊)。


  • ??1660Ti的筆記本上約10s一對圖像。

  • 2.6 GLU-Net: Global-Local Universal Network for Dense Flow and Correspondences(2020 CVPR)

    論文地址
    代碼地址

    總結(jié)

    以上是生活随笔為你收集整理的图像对齐深度学习算法调研的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。