【今日CV 计算机视觉论文速览 第144期】Wed, 17 Jul 2019
今日CS.CV 計算機視覺論文速覽
Wed, 17 Jul 2019
Totally 45 papers
?上期速覽?更多精彩請移步主頁
Interesting:
?基于殘差金字塔的單目深度估計方法, 場景的結構和目標的細節決定了深度圖重建的效果,對于室內深度估計來說,全局結果針對布局而局域結構則反映了物體表面的細節。這篇文章從多尺度地角度來分析深度估計的問題,采用了殘差金字塔解碼器,在頂層表達全局布局在底層表達表面細節。每一層及的殘差模塊都預測對應的尺度,并從前一級粗糙的尺度上預測后一級更為精細的尺度。為了充分探索多尺度圖像特征,自適應稠密特征融合被用于對多尺度的特征進行融合,并在NYU-Depth-v2上取得了良好的效果。(from 中科大)
研究人員提出的架構,主要包括了估計各尺度深度圖的殘差金字塔解碼器、用于特征融合的自適應稠密特征融合模塊。殘差金字塔有效預測了結構的細節,在較為粗糙的層級上天劍了細節信息實現了更為精細的表示。
解碼器中殘差精煉模塊的細節:
結果與比較:
code:https://github.com/Xt-Chen/SARPN
?S&CNet基于通道和空間注意力的實時單目深度提升算法, 研究人員提出了一種基于空間和通道的單目深度估計提升方法,其中空間方面的注意力來自于研究人員觀察到比較小的編碼器輸出步長將保留更多的細節但同時限制了感受野,所以研究人員逐空間的注意力機制來捕捉長程信息;對于通道方面,研究人員發現不同的通道特征對于不同距離的響應不同,于是利用通道注意力機制使得特定的距離對特定的通道賦予更多的權重,為了更進一步的提高模型表現,研究人員還是用了精煉模塊來提升深度估計的精度。(from 北航)
模型的架構:
空間和通道提升模塊3.2details,上面紅色虛線框為通道注意力模塊,下面綠色虛線框為空間注意力模塊(選擇每個位置的特征進行融合,value,key和query map):
下圖可以看到不同通道對于不同距離的響應:
?基于感知方法的圖像修復評價指標, 研究人員對9種圖像修復法進行主觀比較,隨后提出了一種客觀的評價指標。(from 羅蒙索夫技術大學)
ref主觀評價平臺:http://www.subjectify.us/
?700類人體動作數據集Kinetics-700, (from 谷歌)
competition:http://activity-net.org/challenges/2019/evaluation.html
dataset:https://deepmind.com/research/open-source/open-source-datasets/kinetics/
slilde:https://drive.google.com/file/d/164kU_MFTKzmefbgOLntuiiTmADutl_x0/view
?FoodX-251細粒度食物分類數據集, 包含了251個細粒度的食物分類供158k張圖像,118kTrain40kValidate,提供了baseline(from SRI:斯坦福國際研究所 谷歌 CornellTech康奈爾科技校區)
一些相關的數據集:
competition:https://www.kaggle.com/c/ifood-2019-fgvc6
code:https://github.com/karansikka1/iFood_2019
ref2018:https://github.com/karansikka1/Foodx
CVDF:https://github.com/karansikka1/Foodx
?Quick, Draw! 數據集分析, 谷歌的草圖畫畫數據集,包括了50m圖像345類的數據。(from Universidad Carlos III de Madrid)
model:https://github.com/tensorflow/models/blob/080347bc9056fdb8f0a2236ccdb5bfef1cdf0cca/tutorials/rnn/quickdraw/train_model.py
https://github.com/googlecreativelab/quickdraw-dataset
https://quickdraw.withgoogle.com/
?***SynthText3D,為三維的虛擬場景合成包含文字圖像 (from 華中科技 北大 )
目前的三維渲染包括,在靜止背景上渲染不同物體的數據、隨機擺放物體和利用商業游戲引擎,包括GTA V UrealCV[24–30,3,7,32,34]
主要關注場景圖像的渲染與合成2.2, part.3 數據合成借鑒
code:https://github.com/MhLiao/SynthText3D
膝關節損失預測
Daily Computer Vision Papers
| On the ''steerability" of generative adversarial networks Authors Ali Jahanian, Lucy Chai, Phillip Isola 當代機器學習的一個公開秘密是,許多模型在標準基準測試中運行良好,但未能在實驗室外進行推廣。這歸因于對有偏見數據的培訓,這些數據對現實世界事件的覆蓋率較低。生成模型也不例外,但生成對抗網絡GAN的最新進展表明,否則這些模型現在可以合成出驚人的逼真和多樣化的圖像。照片的生成建模是一個解決的問題我們表明,盡管當前的GAN可以很好地適應標準數據集,但它們仍然不能成為視覺流形的綜合模型。特別是,我們研究了它們適應簡單變換的能力,例如相機移動和顏色變化。我們發現模型反映了它們被訓練的數據集的偏差,例如,居中的物體,但它們也表現出一些通過在潛在空間中轉向來推廣的能力,我們可以在仍然創建逼真圖像的同時改變分布。我們假設分布變化的程度與訓練數據分布的廣度有關,并進行證明這一點的實驗。代碼在我們的項目頁面上發布 |
| Predicting Next-Season Designs on High Fashion Runway Authors Yusan Lin, Hao Yang 時尚是一個龐大而快速變化的行業。預見即將到來的流行趨勢對時裝設計師,消費者和零售商都有好處。然而,由于設計師主觀性所涉及的大量因素,時尚趨勢通常被認為是不可預測的。在本文中,我們提出了一個時尚趨勢預測框架和設計神經網絡模型,以利用結構化的時裝秀跑道展示數據,學習時裝系列嵌入,并進一步訓練RNN LSTM模型,以捕捉設計師風格的演變。我們提出的框架包括1個跑道嵌入學習模型,該模型使用時裝跑道圖像來學習每個季節的集合嵌入,2個下一季時裝設計預測模型利用設計師風格和趨勢的概念來預測下一季設計給予設計師。通過對32年時裝秀的收集數據集進行實驗,我們的框架在預測下一季的設計時,平均可以達到78.42 AUC的最佳性能,而單個設計師可以達到95。 |
| EnforceNet: Monocular Camera Localization in Large Scale Indoor Sparse LiDAR Point Cloud Authors Yu Chen, Guan Wang 姿態估計是機器人應用的基本構建塊,例如自動駕駛車輛,無人機和大規模增強現實。對于那些應用進行大規模生產而言,這也是一個禁止因素,因為現有技術的厘米級姿態估計通常需要長的映射程序和昂貴的定位傳感器,例如, LiDAR和高精度GPS IMU等。為了克服成本障礙,我們提出了一種基于神經網絡的解決方案,用于在具有可比厘米級精度的先前稀疏LiDAR圖中定位消費者級RGB相機。我們通過引入一種新穎的網絡模塊(我們稱之為電阻模塊)來實現它,以便更好地推廣網絡,更準確地預測并更快地收斂。這些結果以我們在大型室內停車場場景中收集的幾個數據集為基準。我們計劃打開社區的數據和代碼,以加入推進這一領域的努力。 |
| 學習高效的降采樣方法Efficient Segmentation: Learning Downsampling Near Semantic Boundaries Authors Dmitrii Marin, Zijian He, Peter Vajda, Priyam Chatterjee, Sam Tsai, Fei Yang, Yuri Boykov 諸如自動駕駛之類的許多自動化過程依賴于良好的語義分段作為關鍵組件。為了加快性能,通常對輸入幀進行下采樣。然而,這是以丟失小對象和降低語義邊界精度為代價的。為了解決這個問題,我們提出了一種新的內容自適應下采樣技術,該技術學習了有利于在目標類的語義邊界附近的采樣位置。成本績效分析表明,我們的方法始終優于統一抽樣,提高了準確性和計算效率之間的平衡。我們的自適應采樣為分割提供了更好的邊界質量,并為更小尺寸的物體提供了更可靠 |
| ++目標檢測數據的需求How much real data do we actually need: Analyzing object detection performance using synthetic and real data Authors Farzan Erlik Nowruzi, Prince Kapoor, Dhanvin Kolhatkar, Fahed Al Hassanat, Robert Laganiere, Julien Rebut 近年來,深度學習模型已經在包括計算機視覺在內的各個領域取得了巨大的進步。從本質上講,深度模型的監督培訓需要大量數據。這種理想情況通常不易處理,因為數據注釋是一項非常耗費精力且成本高昂的任務。另一種方法是使用合成數據。在本文中,我們將全面研究用合成數據替換實際數據的效果。我們進一步分析了擁有有限數量的實際數據的影響。我們使用多個合成和真實數據集以及模擬工具來創建大量廉價注釋的合成數據。我們分析每個數據集的域相似性。我們提供了有關設計使用這些數據集訓練深度網絡的方法程序的見解。 |
| Pedestrian Tracking by Probabilistic Data Association and Correspondence Embeddings Authors Borna Bi ani , Marin Or i , Ivan Markovi , Sini a egvi , Ivan Petrovi 本文研究了在多目標行人跟蹤中建立對應關系的運動學位置與速度和外觀線索之間的相互作用。我們通過基于深度學習檢測器,聯合集成概率數據關聯JIPDA和基于外觀的深度對應嵌入跟蹤的檢測方法來研究跟蹤。我們首先通過微調卷積檢測器來進行固定攝像機設置,以便進行精確的行人檢測,并將其與僅運動JIPDA相結合。由此產生的提交在3DMOT2015基準測試中排名第一。然而,在具有移動攝像機和未知自我運動的序列中,我們通過用深度對應嵌入的全局最近鄰跟蹤替換運動線索來實現最佳結果。我們通過使用由邊際項延長的角度損失從ResNet 18的第二個塊中微調特征來訓練嵌入。我們注意到,直接在JIPDA中集成深度通信嵌入并沒有帶來顯著的改進。看來,用于軟數據關聯的深度對應嵌入的幾何形狀需要進一步研究,以便從兩個世界中獲得最佳效果。 |
| Uncertainty-aware Self-ensembling Model for Semi-supervised 3D Left Atrium Segmentation Authors Lequan Yu, Shujun Wang, Xiaomeng Li, Chi Wing Fu, Pheng Ann Heng 訓練深度卷積神經網絡通常需要大量標記數據。然而,為醫學圖像分割任務注釋數據是昂貴且耗時的。在本文中,我們提出了一種新的不確定性感知半監督框架,用于從三維MR圖像左心房分割。我們的框架可以通過鼓勵在不同擾動下對相同輸入的一致預測來有效地利用未標記的數據。具體地,該框架由學生模型和教師模型組成,并且學生模型通過最小化關于教師模型的目標的分段丟失和一致性損失來從教師模型學習。我們設計了一種新穎的不確定性感知方案,使學生模型能夠通過利用不確定性信息逐步從有意義和可靠的目標中學習。實驗表明,我們的方法通過合并未標記的數據實現了高性能增益。我們的方法優于現有技術的半監督方法,展示了我們的框架對具有挑戰性的半監督問題的潛力。 |
| Data Selection for training Semantic Segmentation CNNs with cross-dataset weak supervision Authors Panagiotis Meletis, Rob Romijnders, Gijs Dubbelman 訓練卷積網絡用于具有強像素和弱邊界框監督的語義分割需要大量弱標記數據。我們提出了兩種在弱監督下選擇最相關數據的方法。第一種方法設計用于在不需要標簽的情況下查找視覺上相似的圖像,并且基于使用高斯混合模型GMM建模圖像表示。作為GMM建模的副產品,我們提供了有關表征數據生成分布的有用見解。第二種方法旨在尋找具有高對象多樣性的圖像,并且僅需要邊界框標簽。這兩種方法都是在自動駕駛的背景下開發的,并且在Cityscapes和Open Images數據集上進行實驗。我們通過將開放圖像使用的弱標簽圖像數量減少100倍,使城市景觀最多減少20倍來證明性能提升。 |
| Improving Semantic Segmentation via Dilated Affinity Authors Boxi Wu, Shuai Zhao, Wenqing Chu, Zheng Yang, Deng Cai 引入結構預測的顯式約束是提高語義分割模型性能的有效方法。現有方法主要基于僅僅部分捕獲圖像結構的手工制作規則不足,并且一些方法也可能遭受效率問題。結果,大多數現有技術的完全卷積網絡都沒有采用這些技術。在這項工作中,我們提出了一種簡單,快速而有效的方法,通過直接監督和較小的額外費用來利用結構信息。具體而言,我們的方法明確要求網絡預測語義分割以及擴展的親和力,這是成對像素親和力的稀疏版本。描述像素之間關系的能力直接建立在模型中,并分兩個階段提高分割質量。 1具有擴張親和力的聯合訓練可以提供強大的特征表示,從而產生更精細的分割結果。 2可以進一步利用親和度信息的額外輸出來利用快速傳播過程來細化原始分割。在將我們的框架應用于現有技術模型時,在各種基準數據集上觀察到一致的改進。代碼將很快發布。 |
| Perception of visual numerosity in humans and machines Authors Alberto Testolin, Serena Dolfi, Mathijs Rochus, Marco Zorzi 數字學習是數學學習的基礎,但其計算基礎受到激烈爭論。一些研究者認為,人類被賦予了支持數值表示的專門系統,其他人則認為視覺數值是使用連續的大小來估算的,例如密度或面積,這通常隨著數量而變化。在這里,我們通過測試與人類相同的數字量比較任務的深度網絡來協調這些對比的觀點,使用允許測量非數字特征的貢獻的刺激空間。我們的模型準確地模擬了數字感知的心理物理學,并且相關的發育變化歧視是由數字信息驅動的,但非數字特征具有顯著影響,尤其是在開發早期。代表性相似性分析進一步強調,即使不需要執行任務,數字性和連續數量也是自發編碼的,這表明數量是我們視覺環境的主要特征。 |
| Speed estimation evaluation on the KITTI benchmark based on motion and monocular depth information Authors R bert Adrian Rill 在本技術報告中,我們使用基于現有技術的基于深度神經網絡的光流和單視深度預測方法來研究KITTI基準上的自我車輛的速度估計。使用簡單直觀的方法并逼近單個比例因子,我們評估深度網絡的幾種應用方案,并制定有意義的結論,例如將深度信息與光流相結合,提高速度估算精度,而不是單獨使用光流,深度神經質量網絡方法影響速度估計性能使用深度和光流量較小的寬幅圖像結果會降低性能。考慮到這些觀察結果,我們使用單眼圖像作為KITTI基準記錄的輸入,實現車速估計小于1 m s的RMSE。還討論了限制和可能的未來方向。 |
| A Short Note on the Kinetics-700 Human Action Dataset Authors Joao Carreira, Eric Noland, Chloe Hillier, Andrew Zisserman 我們將DeepMind Kinetics人類行為數據集的擴展從600個類擴展到700個類,其中每個類至少有600個來自不同YouTube視頻的視頻剪輯。本文詳細介紹了此新版本數據集引入的更改,并包含一組全面的統計信息以及使用I3D神經網絡體系結構的基線結果。 |
| A Unified Deep Framework for Joint 3D Pose Estimation and Action Recognition from a Single RGB Camera Authors Huy Hieu Pham, Houssam Salmane, Louahdi Khoudour, Alain Crouzil, Pablo Zegers, Sergio A Velastin 我們提出了一種基于深度學習的多任務框架,用于從RGB視頻序列進行聯合3D人體姿態估計和動作識別。我們的方法分兩個階段進行。在第一個中,我們運行實時2D姿勢檢測器來確定身體重要關鍵點的精確像素位置。然后設計并訓練雙流神經網絡以將檢測到的2D關鍵點映射成3D姿勢。在第二步中,我們部署了高效神經架構搜索ENAS算法,以找到最佳網絡架構,該架構用于通過基于圖像的中間表示和執行動作識別來對估計的3D姿勢的時空演變進行建模。人類3.6M,MSR Action3D和SBU Kinect交互數據集的實驗驗證了所提方法對目標任務的有效性。此外,我們表明我們的方法需要較低的計算預算用于訓練和推理。 |
| +光學斷層掃描Fused Detection of Retinal Biomarkers in OCT Volumes Authors Thomas Kurmann, Pablo M rquez Neila, Siqing Yu, Marion Munk, Sebastian Wolf, Raphael Sznitman 光學相干斷層掃描OCT是用于檢測與視網膜疾病相關的病理生物標志物的主要成像模式,例如年齡相關性黃斑變性。在實踐中,臨床診斷和治療策略與OCT體積中可見的生物標志物密切相關,并且識別這些的生物標志物在眼科藥物產品的開發中起重要作用。在這種情況下,我們提出了一種方法,通過整合來自整個體積的信息,自動預測OCT橫截面中生物標志物的存在。我們通過添加雙向LSTM來融合卷積神經網絡的輸出來預測各個生物標記物。因此,我們避免使用像素明確注釋來訓練我們的方法,而是提供細粒度的生物標記信息。在416卷的數據集上,我們表明我們的方法強調了體積切片中生物標記預測之間的一致性,并且我們的預測優于幾種現有方法。 |
| Semi-supervised Breast Lesion Detection in Ultrasound Video Based on Temporal Coherence Authors Sihong Chen, Weiping Yu, Kai Ma, Xinlong Sun, Xiaona Lin, Desheng Sun, Yefeng Zheng 超聲視頻中的乳房病變檢測對于計算機輔助診斷至關重要。然而,由于病變邊界模糊,與軟組織的高度相似性以及缺乏視頻注釋,檢測視頻中的病變是非常具有挑戰性的。在本文中,我們提出了一種基于時間相干性的半監督乳腺病變檢測方法,可以更準確地檢測病變。我們利用自適應關鍵幀調度策略來聚合從歷史關鍵幀中提取的特征。我們提出的方法通過利用來自不同標記圖像集的監督信息來完成未標記的視頻檢測任務。此外,新的WarpNet旨在取代傳統的空間扭曲和特征聚合操作,從而大大提高速度。對1,060個2D超聲序列的實驗表明,與基于RetinaNet的86.6和32ms的檢測方法相比,我們提出的方法在GPU上實現了最先進的視頻檢測結果,平均精度為91.3,每幀19ms。 |
| Human Pose Estimation for Real-World Crowded Scenarios Authors Thomas Golda, Tobias Kalb, Arne Schumann, J rgen Beyerer 最近,人體姿態估計在采用深度卷積神經網絡方面取得了重大進展。它的許多應用近年來引起了極大的興趣。然而,許多實際應用需要對人群進行姿態估計,這仍然是一個很少解決的問題。在這項工作中,我們探索了優化人群姿態估計的方法,重點關注密集人群引入的挑戰,例如遮擋,彼此接近的人以及人的部分可見度。為了應對這些挑戰,我們評估姿勢檢測方法的三個方面,即數據增強方法,以引入遮擋的魯棒性,ii顯著檢測遮擋的身體部位,以及iii使用合成的生成數據集。提高擁擠情景準確性的第一種方法是使用來自對象識別數據集COCO上下文中的公共對象的人和對象剪切在訓練時生成遮擋。此外,合成生成的數據集JTA Joint Track Auto被評估用于現實世界的人群應用。為了克服源于低姿態變化和較低密度群體的JTA的傳輸差距,創建擴展數據集以便于用于現實世界的應用。另外,利用JTA提供的遮擋標記來訓練模型,該模型明確地區分兩個不同分支中的被遮擋和可見的身體部分。所提出的基線方法的添加的組合有助于將總體準確度提高4.7AP,從而提供與相應數據集上的當前現有技術方法相當的結果。 |
| ++檢測芒果樹Mango Tree Net -- A fully convolutional network for semantic segmentation and individual crown detection of mango trees Authors Vikas Agaradahalli Gurumurthy, Ramesh Kestur, Omkar Narasipura 本文提出了一種高分辨率航空影像中芒果樹語義分割的方法,以及一種利用分割輸出對芒果樹進行個體冠檢測的新方法。 Mango Tree Net是一個完全卷積神經網絡FCN,使用監督學習訓練,以使用無人駕駛飛行器UAV獲取的圖像中的芒果樹進行語義分割。所提出的網絡被重新訓練以在分割輸出中分離觸摸重疊樹冠。基于輪廓的連通對象檢測在重新訓練的網絡的分段輸出上執行。使用連接對象的坐標在原始圖像上繪制邊界框以實現單獨的冠部檢測。訓練數據集由8,824個大小為240 x 240的圖像塊組成。使用分別包含36和4個圖像的測試數據集測試該方法的分割和單個冠檢測任務的性能。使用標準度量精度,召回率,f1分數和準確度來分析性能。獲得的結果證明了所提出的方法的穩健性,盡管諸如尺度,遮擋,光照條件和周圍植被等因素的變化。 |
| A General Framework for Uncertainty Estimation in Deep Learning Authors Mattia Seg , Antonio Loquercio, Davide Scaramuzza 端到端學習最近成為解決自動駕駛問題的有前途的技術。現有的工作表明,從原始傳感器數據學習導航策略可以減少系統對外部傳感系統的依賴,例如,基于狀態估計和規劃的GPS,或優于傳統方法。然而,現有的端到端方法通常為了安全而犧牲性能,阻礙了它們向現實生活應用的擴散。例如,當面對與訓練數據完全不同的輸入時,端到端自動駕駛系統可能會失效,從而損害車輛的安全性。為了檢測這種失敗案例,這項工作提出了一個不確定性估計的一般框架,它使得政策訓練的端到端能夠不僅預測行動命令,而且預測其自身預測的信心。與以前的工作相比,我們的框架可以應用于任何現有的神經網絡和任務,無需更改網絡架構或丟失,或培訓網絡。為此,我們通過使用貝葉斯推斷的輸入和模型不確定性的前向傳播來生成置信水平。我們在自動駕駛汽車的轉向角回歸任務上測試我們的框架,并將我們對現有方法的方法與真實數據集上的定性和定量結果進行比較。最后,我們展示了我們的框架對抗對抗性攻擊的有趣產品。 |
| Learning Depth from Monocular Videos Using Synthetic Data: A Temporally-Consistent Domain Adaptation Approach Authors Yipeng Mou, Mingming Gong, Huan Fu, Kayhan Batmanghelich, Kun Zhang, Dacheng Tao 大多數現有技術的單眼深度估計方法都是監督學習方法。這種方法的成功在很大程度上取決于獲得昂貴的高質量深度標簽。最近的方法試圖通過探索單眼視頻的無監督線索來學習深度網絡,這些線索更容易獲得但不太可靠。在本文中,我們建議通過從易于獲得的地面實況深度標簽轉移合成視頻的知識來解決這一難題。由于合成圖像和真實圖像之間的時尚差異,我們提出了一種時間上一致的域自適應TCDA方法,該方法同時探索合成域中的標簽和視頻中的時間約束,以改進樣式轉移和深度預測。此外,我們利用合成數據中的地面實況光流和姿勢信息來學習移動掩模和姿態預測網絡。學習的移動掩模可以濾除產生錯誤時間約束的移動區域,并且估計的姿勢提供用于估計時間約束的更好的初始化。實驗結果證明了我們的方法的有效性和與現有技術相當的性能。 |
| Cascade RetinaNet: Maintaining Consistency for Single-Stage Object Detection Authors Hongkai Zhang, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen 最近的研究試圖采用級聯單級探測器的思想來提高探測性能。在本文中,我們分析并發現不一致性是限制性能的主要因素。精確的錨與從先前位置提取的特征相關聯,并且分類器由于未對準的分類和定位而混淆。此外,我們指出了級聯方式的兩個主要設計規則,提高了分類置信度和本地化性能之間的一致性,并保持了不同階段之間的特征一致性。然后提出了一種名為Cas RetinaNet的多級物體探測器,用于減少未對準。它包括用增加的IoU閾值訓練的連續階段以改善相關性,以及用于減輕特征不一致性的新穎特征一致性模塊。實驗表明,我們提出的Cas RetinaNet可以在不同的模型和輸入范圍內實現穩定的性能提升。具體來說,我們的方法在具有挑戰性的MS COCO數據集上將RetinaNet從39.1 AP改進到41.1 AP,沒有任何鈴聲或口哨聲。 |
| Separable Convolutional LSTMs for Faster Video Segmentation Authors Andreas Pfeuffer, Klaus Dietmayer 語義分割是自動駕駛汽車等自動機器人的重要模塊。與單個圖像分割相比,視頻分割方法的優點在于考慮了時間圖像信息,并且由于這個原因,它們的性能增加。因此,單個圖像分割方法由諸如卷積LSTM convLSTM單元的循環單元擴展,其被放置在基本網絡架構中的適當位置。然而,基于遞歸神經網絡的視頻分割方法的主要批評是它們的大參數計數和它們的計算復雜性,因此,它們的一個視頻幀的推理時間比它們的基本版本長達66%。受空間和深度可分離卷積神經網絡成功的啟發,我們在這項工作中為convLSTM推廣了這些技術,從而顯著減少了參數的數量和所需的FLOP。在不同數據集上的實驗表明,使用所提出的修改的convLSTM細胞的分割方法實現了相似或稍差的準確度,但在GPU上比使用標準convLSTM細胞的分割方法快15%。此外,引入了新的評估度量,其測量分割的視頻序列中的閃爍像素的量。 |
| Deep inspection: an electrical distribution pole parts study via deep neural networks Authors Liangchen Liu, Teng Zhang, Kun Zhao, Arnold Wiliem, Kieren Astin Walmsley, Brian Lovell 配電桿是電力供應的重要資產。這些電線桿需要保持良好狀態,以確保它們保護社區安全,保持供電可靠性并履行立法義務。但是,維護如此大量的資產是一項昂貴且具有挑戰性的任務。為了解決這個問題,最近的方法利用從直升機和/或無人機檢查中捕獲的圖像數據。在降低手動檢查成本的同時,仍然需要對每個圖像進行手動分析。因此,已經提出了幾種基于圖像的自動檢查系統。在本文中,我們針對微小物體檢測和極不平衡數據集這兩個主要挑戰,目前阻礙了自動檢測的廣泛部署。我們提出了一種新穎的兩階段放大檢測方法,以逐漸關注感興趣的對象。為了解決不平衡數據集問題,我們提出重新采樣以及重新加權方案,以迭代地使模型適應大類的大類內變化,并平衡每個類的損失的貢獻。最后,我們將這些組件集成在一起,并設計出一種新穎的自動檢測框架。大量實驗表明,與基線方法相比,我們提出的方法是有效的并且可以提高性能。 |
| Stereo-based terrain traversability analysis using normal-based segmentation and superpixel surface analysis Authors Aras R. Dargazany 在本文中,基于立體的可穿越性分析方法適用于越野移動機器人中的所有地形,例如,提出了無人地面車輛UGV。這種方法將地形可穿越性分析的問題重新分解為兩個主要問題:1 3D地形重建和2個地形全部表面檢測和分析。所提出的方法是使用立體相機進行地形的感知和3D重建。為了將3D重建地形中的所有現有表面檢測為超像素表面即片段,使用基于幾何的特征基于像素的表面法線來應用圖像分割技術。檢測到所有表面后,超像素表面可穿越性分析方法SSTA應用于所有檢測到的表面超像素段,以便根據它們的可穿越性指數對它們進行分類。提出的SSTA方法基于1個超像素表面法線和平面估計,2使用超像素表面平面的可穿越性分析。在根據它們的可穿越性分析了所有超像素表面之后,這些表面最終被分為五個主要類別,如以下可穿越,半可穿越,不可穿越,未知和未定。 |
| Instant Motion Tracking and Its Applications to Augmented Reality Authors Jianing Wei, Genzhi Ye, Tyler Mullen, Matthias Grundmann, Adel Ahmadyan, Tingbo Hou 增強現實AR為用戶帶來身臨其境的體驗。隨著計算機視覺和移動計算領域的最新進展,AR已經跨平臺擴展,并且已經在主要產品中得到了更多的采用。啟用AR功能的關鍵挑戰之一是將虛擬內容正確錨定到現實世界,這一過程稱為跟蹤。在本文中,我們提出了一種運動跟蹤系統,它能夠穩健地跟蹤平面目標并執行相對比例6DoF跟蹤而無需校準。我們的系統在手機上實時運行,并已部署在數億臺設備上的多個主要產品中。 |
| 2nd Place Solution to the GQA Challenge 2019 Authors Shijie Geng, Ji Zhang, Hang Zhang, Ahmed Elgammal, Dimitris N. Metaxas 我們提出了一種簡單的方法,可以實現復雜推理所涉及的視覺問題回答的意外優越性能。我們的解決方案從所有關于圖像的問題的高頻詞匯中收集統計特征,并將其用作準確的知識,以回答同一圖像的進一步問題。我們充分意識到這種設置并不是普遍適用的,并且在一個更常見的環境中,人們應該假設問題是單獨提出的,并且無法收集這些問題以獲得知識庫。盡管如此,我們使用這種方法作為證據來證明我們觀察到特征提取部分的瓶頸效應比知識推理部分更嚴重。當使用具有1個基本事實特征的相同推理模型時,我們顯示出顯著的差距2統計特征3從完全學習的檢測器中檢測到的特征,并分析這些間隙對于視覺推理主題的研究意味著什么。我們的統計特征模型在GQA Challenge 2019中獲得第二名。 |
| Rethinking RGB-D Salient Object Detection: Models, Datasets, and Large-Scale Benchmarks Authors Deng Ping Fan, Zheng Lin, Jia Xing Zhao, Yun Liu, Zhao Zhang, Qibin Hou, Menglong Zhu, Ming Ming Cheng 近年來已經探索了使用RGB D信息進行顯著物體檢測。然而,在使用RGB D對現實世界人類活動場景進行顯著物體檢測建模方面花費的努力相對較少。在這項工作中,我們通過對RGB D顯著物體檢測做出以下貢獻來填補空白。首先,我們仔細收集一個新的顯著人物SIP數據集,其中包含1K高分辨率圖像,涵蓋各種視點,姿勢,遮擋,光照和背景的各種真實世界場景。其次,我們進行了大規模,迄今為止最全面的基準比較現代方法,該方法長期以來在該領域缺失,可作為未來研究的基準。我們系統地總結了31個流行的模型,在7個數據集上評估了17種最先進的方法,總共約91K圖像。第三,我們提出了一種簡單的基線架構,稱為Deep Depth Depurator Network D3Net。它由深度凈化器單元和特征學習模塊組成,分別執行初始低質量深度圖過濾和交叉模態特征學習。這些組件形成嵌套結構,并且經過精心設計以便共同學習。 D3Net超過了所考慮的五個指標中任何先前競爭者的表現,因此成為推進研究前沿的強大基線。我們還演示了D3Net可用于從真實場景中有效地提取顯著人物面具,從而在單個GPU上實現20 fps的有效背景改變書籍封面應用。所有顯著性圖,我們的新SIP數據集,基線模型和評估工具都可在以下網站公布 |
| Improving 3D Object Detection for Pedestrians with Virtual Multi-View Synthesis Orientation Estimation Authors Jason Ku, Alex D. Pon, Sean Walsh, Steven L. Waslander 準確估計行人的方向是自動駕駛的一項重要且具有挑戰性的任務,因為這些信息對于跟蹤和預測行人行為至關重要。本文提出了一種靈活的虛擬多視圖合成模塊,可以用于三維物體檢測方法,以改善方向估計。該模塊使用多步驟過程來獲取精確定向估計所需的細粒度語義信息。首先,使用保持深度完成算法的結構來對場景s點云進行致密化,并且使用其對應的RGB像素對每個點進行著色。接下來,虛擬相機被放置在致密點云中的每個對象周圍以生成新穎的視點,這保持了對象的外觀。我們表明,該模塊極大地改善了KITTI基準測試中具有挑戰性的行人等級的方向估計。當與開源3D探測器AVOD FPN一起使用時,我們在行人方向,3D和鳥瞰視圖基準測試中優于所有其他已發布的方法。 |
| Efficient Pipeline for Camera Trap Image Review Authors Sara Beery, Dan Morris, Siyu Yang 世界各地的生物學家使用相機陷阱來監測生物多樣性和野生動物種群密度。計算機視覺社區已經朝著自動化相機陷阱中的物種分類挑戰邁進了一步,但事實證明難以將在一個區域中訓練的模型應用于在不同地理區域中收集的圖像。在某些情況下,由于背景的變化和以前看不見的物種的存在,新區域的準確性會出現災難性的后果。我們提出了一種管道,該管道利用預先訓練的一般動物檢測器和一組較小的標記圖像來訓練分類模型,該分類模型可以在新區域中有效地獲得準確結果。 |
| AugLabel: Exploiting Word Representations to Augment Labels for Face Attribute Classification Authors Binod Bhattarai, Rumeysa Bodur, Tae Kyun Kim 增加圖像空間中的數據,例如。翻轉,裁剪等和激活空間,例如。輟學被廣泛用于規范深度神經網絡,并已成功應用于若干計算機視覺任務。與以前的工作不同,我們建議在標簽空間中進行擴充,這些工作主要集中在上述領域進行擴充。在本文中,我們提出了一種新方法,通過利用現有分類標簽的word2vec表示,生成具有連續圖像值的固定尺寸標簽。然后,我們將這些表示附加到現有的分類標簽并訓練模型。我們在兩個具有挑戰性的人臉屬性分類數據集上驗證了我們的想法。 CelebA和LFWA。我們的廣泛實驗表明,增強標簽可以提高競爭性深度學習基線的性能,并減少對帶注釋的實際數據的需求,最多可達到50,同時獲得與現有技術方法類似的性能。 |
| Real-time Hair Segmentation and Recoloring on Mobile GPUs Authors Andrei Tkachenka, Gregory Karpiak, Andrey Vakunov, Yury Kartynnik, Artsiom Ablavatski, Valentin Bazarevsky, Siargey Pisarchyk 我們提出了一種基于神經網絡的頭發分割的新方法,該方法來自專為實時移動應用而設計的單個相機輸入。我們相對較小的神經網絡產生高質量的毛發分割掩模,非常適合AR效果,例如,虛擬頭發重新著色。所提出的模型在移動GPU 30 100 FPS上實現實時推斷速度,這取決于具有高精度的設備。我們還提出了一種非常逼真的頭發重新著色方案。我們的方法已經部署在主要的AR應用程序中,并被數百萬用戶使用。 |
| Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs Authors Yury Kartynnik, Artsiom Ablavatski, Ivan Grishchenko, Matthias Grundmann 我們提出了一種基于端到端神經網絡的模型,用于從AR應用的單個攝像機輸入推斷人臉的近似3D網格表示。 468個頂點的相對密集的網格模型非常適合基于面部的AR效果。所提出的模型展示了移動GPU 100 1000 FPS上的超實時推斷速度,這取決于設備和模型變體以及與同一圖像的手動注釋中的方差相當的高預測質量。 |
| MaskPlus: Improving Mask Generation for Instance Segmentation Authors Shichao Xu, Shuyue Lan, Qi Zhu 實例分割是計算機視覺中有前途但具有挑戰性的主題。諸如Mask R CNN的最近方法通常將該問題分為檢測組件和掩模生成分支兩部分,并且主要集中于檢測部分的改進。在本文中,我們提出了一種擴展Mask R CNN的方法,該方法采用五種新穎的優化技術來改進掩模生成分支并減少訓練中掩模分支與檢測組件之間的沖突。這五種技術彼此獨立,并且可以靈活地用于構建各種實例分割體系結構以提高整體準確性。我們通過對COCO數據集的測試證明了我們的方法的有效性。 |
| Slow Feature Analysis for Human Action Recognition Authors Zhang Zhang, Dacheng Tao 慢特征分析SFA從快速變化的輸入信號中提取緩慢變化的特征。它已成功應用于建模皮層神經元的視覺感受野。神經科學的充分實驗結果表明,時間慢度原理是視覺感知中的一般學習原則。在本文中,我們通過將判別信息與SFA學習相結合并考慮身體部位的空間關系,將SFA框架引入到人類行為識別問題中。特別地,我們考慮四種SFA學習策略,包括原始的無監督SFA U SFA,監督的SFA S SFA,判別SFA D SFA和空間判別SFA SD SFA,以從大量的SFA SD SFA中提取慢特征函數。通過在運動邊界中隨機采樣獲得的訓練長方體。然后,為了表示動作序列,將平方的一階時間導數在所有變換的長方體上累積成一個特征向量,其被稱為累積平方導數ASD特征。 ASD功能對動作序列中慢速特征的統計分布進行編碼。最后,訓練線性支持向量機SVM以對由ASD特征表示的動作進行分類。我們進行了廣泛的實驗,包括兩組對照實驗,兩組關于KTH和Weizmann數據庫的大規模實驗,以及兩組關于CASIA和UT相互作用數據庫的實驗,以證明SFA對人類行為識別的有??效性。 |
| Natural Adversarial Examples Authors Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Steinhardt, Dawn Song 我們介紹了真實世界,未修改和自然發生的自然對抗性示例,這些示例會導致分類器精度顯著降低。我們策劃了7,500個自然對抗示例,并將它們發布到我們稱之為ImageNet A的ImageNet分類器測試集中。此數據集用作測量分類器穩健性的新方法。與l p對抗性示例一樣,ImageNet A示例成功轉移到看不見或黑盒分類器。例如,在ImageNet A上,DenseNet 121獲得大約2精度,大約90的精度下降。恢復這種準確性并不簡單,因為ImageNet A示例利用了當前分類器中的深層缺陷,包括過度依賴顏色,紋理和背景線索。我們觀察到用于提高魯棒性的流行訓練技術幾乎沒有效果,但我們表明一些架構變化可以增強對自然對抗性示例的魯棒性。未來的研究需要對這個嚴格的ImageNet測試集進行強大的推廣。 |
| Explaining Classifiers with Causal Concept Effect (CaCE) Authors Yash Goyal, Uri Shalit, Been Kim 我們如何理解深度神經網絡所做出的分類決策我們建議使用因果推理的思想來回答這個問題。我們將因果概念效應CaCE定義為概念的存在與否對給定深度神經網絡的預測的因果效應。然后,我們使用此度量作為平均值,以了解推動網絡預測的因素和不預測的因素。然而,許多現有的可解釋性方法僅依賴于相關性,從而導致可能具有誤導性的解釋。我們展示了CaCE如何避免這種錯誤。在醫學等高風險領域,了解預測的根本原因至關重要。如果我們知道網絡的預測是由任意概念引起的,例如X射線室中的照明條件而不是醫學上有意義的概念,這將阻止我們對此類模型進行災難性部署。 |
| Boosting Resolution and Recovering Texture of micro-CT Images with Deep Learning Authors Ying Da Wang, Ryan T. Armstrong, Peyman Mostaghimi 數字搖滾成像受到探測器硬件的限制,并且必須在視場FOV和圖像分辨率之間進行權衡。這可以通過采用寬視場,低分辨率LR圖像和超分辨率高分辨率HR,高FOV圖像的超分辨率SR技術來補償。增強型深度超分辨率生成對抗網絡EDSRGAN在深度學習數字巖石超分辨率數據集上進行了培訓,該數據集是12000個原始和處理過的uCT圖像的多樣化編譯。該網絡顯示出與雙三次插值相比,相對誤差降低50至70的可比性能。與SRCNN和其他方法相比,恢復紋理中的GAN性能顯示出優異的視覺相似性。差異圖指示SRGAN網絡的SRCNN部分恢復大規模邊緣晶粒邊界特征,而GAN網絡再生感知上難以區分的高頻紋理。網絡性能通過增強來推廣,顯示出對噪聲和模糊的高適應性。 HR圖像被饋送到網絡中,生成HR SR圖像以將網絡性能外推到HR圖像本身中存在的子分辨率特征。結果表明,盡管網絡在經過訓練的規范之外運行,但在溶解礦物質和薄裂縫等分辨率特征下仍然可以再生。與掃描電子顯微鏡圖像的比較顯示細節與樣品的基本幾何形狀一致。紋理的恢復有利于數字巖石的表征,其具有高比例的分辨率微孔特征,例如碳酸鹽和煤樣品。通常受巖煤礦物學約束,快速瞬態成像水驅或源微孔隙能量約束的圖像可以精確地超分辨,以便進一步分析下游。 |
| Anatomically-Informed Multiple Linear Assignment Problems for White Matter Bundle Segmentation Authors Giulia Bert , Paolo Avesani, Franco Pestilli, Daniel Bullock, Bradley Caron, Emanuele Olivetti 從人體束圖中分割白質束是幾個應用感興趣的任務。用于束分割的當前方法僅考慮關于束的相對解剖位置的先驗知識,或僅考慮其幾何特性。我們的目標是通過提出一種方法來改進分割結果,該方法同時考慮有關底層解剖結構和束的幾何形狀的信息。為了實現該目標,我們通過在優化過程中包括先前的解剖信息來擴展基于線性分配問題LAP的現有技術基于示例的方法。所提出的方法相對于原始方法顯示出顯著的改進,特別是在小束上。 |
| CLCI-Net: Cross-Level fusion and Context Inference Networks for Lesion Segmentation of Chronic Stroke Authors Hao Yang, Weijian Huang, Kehan Qi, Cheng Li, Xinfeng Liu, Meiyun Wang, Hairong Zheng, Shanshan Wang 從T1加權MR圖像分割中風病變對于大規模中風康復神經影像學分析具有重要價值。然而,這項任務面臨著巨大的挑戰,例如大范圍的中風病變量表和組織強度相似性。著名的編碼器解碼器卷積神經網絡雖然在醫學圖像分割領域取得了很大的成就,但由于多尺度特征和上下文信息的使用不足,可能無法解決這些挑戰。為了解決這些挑戰,本文提出了一種跨層融合和上下文推斷網絡CLCI網絡,用于T1加權MR圖像的慢性卒中病變分割。具體來說,開發了跨層功能Fusion CLF策略,以充分利用不同層次的不同規模特征擴展Atrous空間金字塔池ASPP與CLF,我們豐富了多尺度特征來處理不同的病變大小此外,卷積長期短期存儲器ConvLSTM用于推斷上下文信息,從而捕獲精細結構以解決強度相似性問題。所提出的方法在開源數據集上進行了評估,即卒中后病變的解剖學描述ATLAS,結果顯示我們的網絡優于五種最先進的方法。我們提供代碼和模型 |
| X-Net: Brain Stroke Lesion Segmentation Based on Depthwise Separable Convolution and Long-range Dependencies Authors Kehan Qi, Hao Yang, Cheng Li, Zaiyi Liu, Meiyun Wang, Qiegen Liu, Shanshan Wang 在過去幾年中,腦卒中的發病率迅速增加。為了幫助專家進行病變測量和治療計劃,臨床實踐對于自動分割方法至關重要。最近,基于深度學習的方法和用于上下文信息提取的方法已經在許多圖像分割任務中起作用。然而,由于對大量參數的訓練不足,它們的性能受到限制,這些參數有時無法捕獲長距離依賴性。為了解決這些問題,我們提出了一種基于深度可分離卷積的X Net,它設計了非局部運算,即特征相似模塊FSM,以捕獲長程依賴性。采用的深度卷積允許減小網絡大小,而開發的FSM提供更有效,密集的上下文信息提取,從而促進更好的分割。 X Net的有效性是在開放數據集上評估的。在中風ATLAS后的病變的解剖學描記中,與其他六種現有技術方法相比,其具有優越的性能。我們提供代碼和模型 |
| Single-bit-per-weight deep convolutional neural networks without batch-normalization layers for embedded systems Authors Mark D. McDonnell, Hesham Mostafa, Runchun Wang, Andre van Schaik 批量歸一化BN層被認為是當今用于計算機視覺任務(例如分類和檢測)的現有技術的深度卷積神經網絡中的整體重要的層類型。然而,BN層引入了復雜性和計算開銷,這對于諸如UAV,機器人和物聯網IoT設備的實時嵌入式視覺系統的低功率定制硬件實現的訓練和/或推斷是非常不希望的。當在培訓期間批量大小需要非常小時,它們也是有問題的,并且諸如比BN層最近引入的殘余連接的創新可能潛在地減少了它們的影響。在本文中,我們的目標是量化BN層在圖像分類網絡中提供的好處,與替代選擇相比較。特別是,我們研究使用移位的ReLU層而不是BN層的網絡。我們發現,在應用于ImageNet,CIFAR 10和CIFAR 100圖像分類數據集的廣泛殘余網絡的實驗之后,BN層不能始終如一地提供顯著優勢。我們發現BN層提供的精度裕度取決于數據集,網絡大小和權重的位深度。我們得出結論,在由于速度,存儲器或復雜性成本而不希望BN層的情況下,應該考慮使用移位的ReLU層,我們發現它們可以在所有這些區域中提供優勢,并且通常不會產生顯著的準確性成本。 |
| AirwayNet: A Voxel-Connectivity Aware Approach for Accurate Airway Segmentation Using Convolutional Neural Networks Authors Yulei Qin, Mingjian Chen, Hao Zheng, Yun Gu, Mali Shen, Jie Yang, Xiaolin Huang, Yue Min Zhu, Guang Zhong Yang CT掃描的氣道分割對于肺部疾病診斷和支氣管內導航至關重要。由于氣道的復雜結構和各種外觀,手動抽取氣道需要付出艱苦的努力。對于自動氣道提取,基于卷積神經網絡CNN的方法最近已成為最先進的方法。然而,CNN仍然存在挑戰,即感知樹狀圖案并理解氣道的連通性。為了解決這個問題,我們提出了一種名為AirwayNet的體素連接感知方法,用于精確的氣道分割。通過連通性建模,將傳統的二進制分割任務轉換為26個連通性預測任務。因此,我們的AirwayNet學習氣道結構和相鄰體素之間的關系。為了利用背景知識,將肺部距離圖和體素坐標作為附加語義信息饋入AirwayNet。與現有方法相比,AirwayNet實現了卓越的性能,展示了網絡對體素連接的意識的有效性。 |
| Improved Reinforcement Learning through Imitation Learning Pretraining Towards Image-based Autonomous Driving Authors Tianqi Wang, Dong Eui Chang 我們提供了一個自動駕駛任務的訓練管道,給出當前的攝像機圖像和車輛速度作為輸入,以產生油門,制動和轉向控制輸出。模擬器Airsim的便利天氣和照明API在訓練期間提供了足夠的多樣性,這對于提高訓練有素的策略的穩健性非常有幫助。為了不限制可能的策略性能,我們使用連續且確定的控制策略設置。我們利用ResNet 34作為我們的演員和評論家網絡,在完全連接的層中略有變化。考慮到人類對這項任務的掌握以及這項任務的高度復雜性,我們首先使用模仿學習來模擬給定的人類政策,并將訓練有素的政策及其權重用于我們使用DDPG的強化學習階段。與用于自動駕駛任務的純模仿學習和純DDPG相比,這種組合顯示出相當大的性能提升。 |
| An Inter-Layer Weight Prediction and Quantization for Deep Neural Networks based on a Smoothly Varying Weight Hypothesis Authors Kang Ho Lee, JoonHyun Jeong, Sung Ho Bae 深度神經網絡的網絡壓縮已經成為深度學習研究的重要部分,因為在實際資源受限環境中對深度學習模型的需求增加。在本文中,我們觀察到相鄰卷積層中的權重在形狀和值上具有很強的相似性,即,權重傾向于沿著層平滑地變化。我們將這種現象稱為文本平滑變化權重假設SVWH。基于SVWH和傳統視頻編碼方案中的幀間預測方法,我們提出了一種新的文本層間權重預測ILWP和量化方法,其量化預測的權重殘差。由于預測的權重殘差傾向于遵循具有非常低方差的拉普拉斯分布,因此可以更有效地應用權重量化,從而產生更多的零權重和增強的權重壓縮比。此外,我們提出了消除非紋理位的新損失,這使我們能夠更有效地存儲紋理位。也就是說,所提出的損失使權重正則化,使得相鄰兩個層之間的并置權重具有相同的值。我們的綜合實驗表明,與以前的深度神經網絡量化壓縮方法相比,該方法在相同的精度水平下實現了更高的權重壓縮率。 |
| Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving Authors Yulong Cao, Chaowei Xiao, Benjamin Cyr, Yimeng Zhou, Won Park, Sara Rampazzi, Qi Alfred Chen, Kevin Fu, Z. Morley Mao 在自動駕駛汽車AV中,一個基本支柱是感知,它利用相機和激光雷達光探測和測距等傳感器來了解駕駛環境。由于其對道路安全的直接影響,已經多次努力研究其感知系統的安全性。與之前專注于基于相機的感知的工作相反,在這項工作中,我們對AV設置中基于LiDAR的感知進行了第一次安全性研究,這是非常重要但尚未探索的。我們將LiDAR欺騙攻擊視為威脅模型,并將攻擊目標設置為靠近受害者AV前方的欺騙性障礙。我們發現,由于基于機器學習的對象檢測過程,盲目地應用LiDAR欺騙不足以實現該目標。因此,我們接著探索了策略性地控制欺騙性攻擊以欺騙機器學習模型的可能性。我們將此任務表述為優化問題,并為輸入擾動函數和目標函數設計建模方法。我們還確定了使用優化直接解決問題的固有局限性,并設計了一種結合優化和全局采樣的算法,將攻擊成功率提高到75左右。作為了解AV驅動決策級別的攻擊影響的案例研究,我們構建并評估了可能損害道路安全性和移動性的兩種攻擊場景。我們還討論了AV系統,傳感器和機器學習模型級別的防御方向。 |
| Deep learning-based color holographic microscopy Authors Tairan Liu, Zhensong Wei, Yair Rivenson, Kevin de Haan, Yibo Zhang, Yichen Wu, Aydogan Ozcan 我們報告了一個基于生成對抗網絡GAN的框架,該框架使用由三個不同波長的光同時照射的樣本的單個全息圖來執行高保真彩色圖像重建。訓練的網絡學習消除丟失的相位相關偽像,并為重建的圖像生成準確的顏色變換。我們的框架使用標記有不同組織學染色的肺和前列腺組織切片進行實驗證明。設想該框架適用于護理點組織病理學,并且在相干顯微鏡系統的吞吐量方面呈現顯著改進,因為僅需要單個全息圖樣本來進行精確的彩色成像。 |
| Chinese Abs From Machine Translation |
增補Tue 16
| Multi-scale Graph-based Grading for Alzheimer's Disease Prediction Authors Kilian Hett, Vinh Thong Ta, Jos V. Manj n, Pierrick Coup 具有輕度認知功能障礙的受試者的預測MCI將進展為阿爾茨海默氏病AD具有臨床相關性,并且可能首先對加速新療法的開發具有顯著影響。在本文中,我們提出了一種新的基于MRI的生物標記物,使我們能夠準確地預測MCI受試者向AD的轉換。為了更好地捕獲AD簽名,我們引入了兩個主要貢獻。首先,我們提出了一種新的基于圖的分級框架,以組合主體間相似性特征和內部主體變異性特征。該框架涉及基于補片的解剖結構分級和基于圖形的結構改變關系建模。其次,我們提出了一種創新的多尺度腦分析,以捕捉不同解剖水平的AD引起的變化。基于級聯分類器,這種多尺度方法可以同時分析整個腦結構和海馬子區域的變化。在使用ADNI 1數??據集的實驗期間,所提出的基于多尺度圖的分級方法獲得了曲線AUC為81的區域,以預測MCI受試者在三年內轉化為AD。此外,當與認知評分相結合時,所提出的方法獲得85個AUC。與在相同數據集上評估的現有技術方法相比,這些結果是有競爭力的。 |
| Efficient Video Generation on Complex Datasets Authors Aidan Clark, Jeff Donahue, Karen Simonyan 通過強烈的規模利用,自然圖像的生成模型已朝著高保真度樣本發展。我們試圖通過展示在復雜的Kinetics 600數據集上訓練的大型生成對抗網絡能夠產生比以前的工作復雜得多的視頻樣本,將這一成功帶到視頻建模領域。我們提出的網絡,雙視頻鑒別器GAN DVD GAN,通過利用其鑒別器的計算效率分解,擴展到更長和更高分辨率的視頻。我們評估了視頻合成和視頻預測的相關任務,并在Kinetics 600的預測上實現了新的Frechet Inception Distance,以及UCF 101數據集上的合成初始分數,同時建立了一個數字Kinetics 600的強大基線 |
| Recovery Guarantees for Compressible Signals with Adversarial Noise Authors Jasjeet Dhaliwal, Kyle Hambrook 我們為已經被噪聲破壞的可壓縮信號提供恢復保證,并擴展1中引入的框架,以防御神經網絡對抗0 0范數和2范數攻擊。具體地說,對于在某些變換域中近似稀疏并且已經被噪聲擾動的信號,我們提供了在變換域中準確恢復信號的保證。然后,我們可以使用恢復的信號在其原始域中重建信號,同時在很大程度上消除噪聲。我們的結果是通用的,因為它們可以直接應用于實踐中使用的大多數單一變換,并且保持橢圓0范數有界噪聲和橢圓2范數有界噪聲。在ell 0范數有界噪聲的情況下,我們證明了迭代硬閾值IHT和基礎追蹤BP的恢復保證。對于ell 2范數有界噪聲的情況,我們為BP提供恢復保證。理論上,這些保證支持1中引入的防御框架,用于防御神經網絡對抗敵對輸入。最后,我們使用IHT和BP對抗One Pixel Attack 21,Carlini Wagner ell 0和ell 2攻擊3,Jacobian Saliency Based攻擊18,以及DeepFool攻擊17對CIFAR 10 12,MNIST 13,以及時尚MNIST 27數據集。這超出了1的實驗演示。 |
| Detecting and Simulating Artifacts in GAN Fake Images Authors Xu Zhang, Svebor Karaman, Shih Fu Chang 為了檢測GAN生成的圖像,傳統的監督機器學習算法需要從目標GAN模型中收集許多真實和偽造圖像。但是,攻擊者使用的特定模型通常不可用。為了解決這個問題,我們提出了一個GAN模擬器AutoGAN,它可以模擬由幾個流行的GAN模型共享的公共管道產生的工件。另外,我們識別由公共GAN流水線中包括的上采樣組件引起的唯一偽像。我們在理論上表明,這些偽像表現為頻域中光譜的復制,因此提出了基于光譜輸入而不是像素輸入的分類器模型。通過使用模擬圖像來訓練基于頻譜的分類器,即使沒有在訓練期間看到由目標GAN模型產生的假圖像,我們的方法在檢測由諸如CycleGAN的流行GAN模型生成的假圖像方面實現了最先進的性能。 |
| An Efficient Framework for Visible-Infrared Cross Modality Person Re-Identification Authors Emrah Basaran, Muhittin Gokmen, Mustafa E. Kamasak 可見的紅外交叉模態人員識別VI ReId是在光線不足或黑暗環境中進行視頻監控的重要任務。盡管最近有許多關于可見域ReId中人員識別的研究,但很少有關于VI ReId的研究。除了ReId和VI ReId常見的挑戰,例如姿勢照明變化,背景雜亂和遮擋,VI ReId還有其他挑戰,因為紅外圖像中沒有顏色信息。因此,VI ReId系統的性能通常低于ReId系統。在這項工作中,我們提出了一個4流框架來提高VI ReId性能。我們使用輸入圖像的不同表示在每個流中訓練單獨的深度卷積神經網絡。我們期望可以從每個流中學習不同的和互補的特征。在我們的框架中,灰度和紅外輸入圖像用于在第一個流中訓練ResNet。在第二流中,使用通過重復紅外通道創建的RGB和3通道紅外圖像。在剩下的兩個流中,我們使用局部模式映射作為輸入圖像。利用局部Zernike矩變換生成這些地圖。從第3流中的灰度和紅外圖像以及最后一個流中的RGB和3通道紅外圖像獲得局部圖案映射。我們通過采用重新排序算法進行后期處理來提高所提出框架的性能。我們的結果表明,在所有搜索和室內搜索模式下,通過將Rank 1 mAP分別提高34.2 37.9和37.4 34.8,所提出的框架優于SYSU MM01數據集的當前最新技術水平。 |
| Color Cerberus Authors A.Savchik, E.Ershov, S.Karpenko 簡單的卷積神經網絡能夠贏得ISISPA色彩恒定性競爭。 Bianco,2017神經結構的部分重新實現將在這種設置中顯示出更好的結果。 |
| Quick, Stat!: A Statistical Analysis of the Quick, Draw! Dataset Authors Raul Fernandez Fernandez, Juan G. Victores, David Estevez, Carlos Balaguer Quick,Draw Dataset是一個Google數據集,包含5000萬個繪圖,分為345個類別,從Quick,Draw游戲的用戶處收集。與大多數現有圖像數據集相比,在快速繪制數據集中,繪圖存儲為鉛筆位置的時間序列,而不是由像素組成的位圖矩陣。此方面使此數據集成為當時可用的最大涂鴉數據集。 Quick,Draw Dataset是研究人員開發和研究機器學習技術的絕佳機會。由于該數據集的大小及其來源的性質,很少有關于所含圖紙質量的信息。在本文中,對Quick,Draw Dataset中包含的三個類進行了統計分析,描述了山,書和鯨。目標是向讀者提供對該數據集中收集的數據的第一印象。為了分析圖紙的質量,訓練分類神經網絡以獲得分類分數。使用該分類分數和數據集提供的參數,提供了該數據集中包含的圖紙的質量和性質的統計分析。 |
| Improving the Harmony of the Composite Image by Spatial-Separated Attention Module Authors Cun Xiaodong, Pun Chi Man 圖像合成是圖像處理中最重要的應用之一。然而,拼接區域和背景之間的不協調外觀降低了圖像的質量。因此,我們解決圖像協調的問題給定拼接圖像和拼接區域的掩模,我們嘗試協調粘貼區域的樣式與背景非拼接區域。以前的方法一直專注于神經網絡的直接學習。在這項工作中,我們從經驗觀察開始,差異只能在拼接圖像和協調結果之間的拼接區域中找到,而它們在非拼接區域中共享相同的語義信息和外觀。因此,為了單獨學習掩蔽區域和其他區域中的特征圖,我們提出了一種名為空間分離注意模塊S2AM的新穎注意模塊。此外,我們通過以兩種不同的方式將S2AM插入Unet結構的較粗糙的低級特征中來設計新穎的圖像協調框架。除了圖像協調之外,我們在沒有特定掩模的情況下協調合成圖像邁出了一大步。實驗表明,在我們的任務中,所提出的S2AM比其他最先進的注意模塊表現更好。此外,我們通過多個觀點的標準證明了我們的模型相對于其他最先進的圖像協調方法的優勢。代碼可在 |
| Sequence Level Semantics Aggregation for Video Object Detection Authors Haiping Wu, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang 視頻異議檢測VID近年來一直是一個不斷上升的研究方向。 VID的核心問題是由快速運動引起的視頻幀的外觀劣化。這個問題基本上不適用于單幀。因此,聚合來自其他幀的有用特征成為自然選擇。現有方法嚴重依賴光流或遞歸神經網絡進行特征聚合。然而,這些方法更多地強調附近的時間幀。在這項工作中,我們認為聚合整個序列級別的特征將導致視頻對象檢測更具辨別力和魯棒性。為了實現這一目標,我們設計了一種新穎的Sequence Level Semantics Aggregation SELSA模塊。我們進一步證明了該方法與經典譜聚類方法有著密切的關系,從而為理解VID問題提供了新的視角。最后,我們在大規模ImageNet VID數據集和EPIC KITCHENS數據集上測試我們提出的方法,并與先前的工作相比,歸檔新的最先進的結果。此外,為了實現如此優越的性能,我們不需要像以前的工作那樣其他復雜的后處理方法,如Seq NMS或Tubelet重新計算,這使我們的管道簡單和清潔。 |
| Mitigating the Hubness Problem for Zero-Shot Learning of 3D Objects Authors Ali Cheraghian, Shafin Rahman, Dylan Campbell, Lars Petersson 先進3D傳感器的開發使得許多物體能夠在野外大規模捕獲,因此3D物體識別系統可能遇到系統未接受過訓練的許多物體。零射擊學習ZSL方法可以幫助這些系統識別以前看不見的對象。將ZSL應用于3D點云對象是3D視覺領域中的一個新興話題,然而,ZSL經常遇到的一個重要問題是所謂的集線度問題,即當模型偏向于僅預測幾個特定標簽時大多數測試實例。我們觀察到這種輪詢問題對于3D識別而言比對2D識別更嚴重。其中一個原因是,在2D中,可以使用經過訓練的大型數據集(如ImageNet)訓練的網絡,這樣可以生成高質量的特征。然而,在3D情況下,沒有可用于預訓練的這種大規模標記數據集,這意味著提取的3D特征具有較差的質量,這反過來加劇了樞紐問題。因此,在本文中,我們提出了專門解決中心問題的損失。我們提出的方法對零射擊和廣義零射擊學習都有效,我們對具有挑戰性的數據集ModelNet40,ModelNet10,McGill和SHREC2015進行了廣泛的評估。建立了3D情況下的零射擊任務的新的現有技術結果。 |
| Multimodal deep networks for text and image-based document classification Authors Nicolas Audebert, Catherine Herold, Kuider Slimani, C dric Vidal 文檔圖像的分類是舊手稿,在線訂閱和管理程序存檔的關鍵步驟。計算機視覺和深度學習被認為是基于視覺外觀對文檔進行分類的第一種解決方案。然而,僅通過視覺分析無法實現實際環境中所需的細粒度分類。通常,相關信息在文檔的實際文本內容中。我們設計了一個多模態神經網絡,它能夠從字嵌入中學習,通過OCR提取的文本和圖像進行計算。我們表明,這種方法使Tobacco3482和RVL CDIP的純圖像精度提高了3倍,我們的新QS OCR文本數據集增強了 |
| CA-RefineNet:A Dual Input WSI Image Segmentation Algorithm Based on Attention Authors Ziqiang Li, Rentuo Tao, Qianrun Wu, Bin Li 由于病理圖像的高分辨率,醫學病理圖像中的自動語義分割顯示出比自然圖像中更大的挑戰。滑動窗口方法已經顯示出其對解決由整個幻燈片圖像WSI的高分辨率引起的問題的影響。然而,由于其本地化,滑動窗口方法也缺乏全球信息。本文提出了一種基于注意力的雙輸入語義分割網絡,其中一個輸入提供小規模的精細信息,另一個輸入提供大規模的粗略信息。與單輸入法相比,我們的方法CA RefineNet在ICIAR2018乳腺癌分割任務中表現出顯著的性能改善。 |
| FastV2C-HandNet: Fast Voxel to Coordinate Hand Pose Estimation with 3D Convolutional Neural Networks Authors Rohan Lekhwani 單眼深度圖像的手姿勢估計一直是計算機視覺社區中的一個重要且具有挑戰性的問題。在本文中,我們提出了一種從2D深度圖像估計3D手部關節位置的新方法。與以前的大多數方法不同,我們的模型從深度圖像中捕獲3D空間信息,從而使其更好地理解輸入。我們對輸入深度圖進行體素化以捕獲輸入的3D特征并執行3D數據增強,以使我們的網絡對現實世界圖像具有魯棒性。我們的網絡采用端到端方式進行培訓,與其他方法相比,可顯著降低時間和空間復雜性。通過大量實驗,我們證明我們的模型在訓練和預測3D手部關節位置所需的時間方面優于最先進的方法。這使得我們的方法更適合于現實世界的手姿勢估計場景。 |
| Enabling Multi-Shell b-Value Generalizability of Data-Driven Diffusion Models with Deep SHORE Authors Vishwesh Nath, Ilwoo Lyu, Kurt G. Schilling, Prasanna Parvathaneni, Colin B. Hansen, Yucheng Tang, Yuankai Huo, Vaibhav A. Janve, Yurui Gao, Iwona Stepniewska, Adam W. Anderson, Bennett A. Landman 抽象。擴散信號的體內模型模型對于解釋微米級組織環境的組織以及毫米分辨率的數據是必不可少的。數據驅動方法的最新進展使得能夠直接比較和優化體內數據的方法,其具有外部驗證的組織切片,具有2D和3D組織學。然而,所有現有方法都限制了b值之間基于1個模型的聯系或與單個殼數據的2個有限關聯的假設。我們推廣了先前使用單殼球諧函數變換的深度學習模型,以集成最近開發的簡諧振子重建SHORE基礎。為了能夠在SHORE流形上進行學習,我們使用SHORE基礎提供了纖維取向分布FOD對象的替代公式,同時在SHORE基礎上代表觀察到的擴散加權數據。為了確保SHORE超參數優化的一致性,我們提出了Deep SHORE方法來學習數據優化流形。 Deep SHORE通過8倍交叉驗證評估臨床前MRI組織學數據,具有4個b值。在兩個單獨的3T MRI掃描儀上評估體內人體數據的可推廣性。角度相關性ACC的特異性與臨床前數據相比,單殼0.78相對于0.73和0.73,多殼0.80相對于0.74 p 0.001有所改善。在體內人體數據中,Deep SHORE在掃描儀中更加一致,相對于其他多殼方法,在ACC方面為0.39,0.52和0.57。總之,Deep SHORE是一種很有前途的方法,可以在具有不同b值,擴散殼數量和每個殼的梯度方向的條件下,使用DW MRI進行數據驅動學習。 |
| Perceptually Motivated Method for Image Inpainting Comparison Authors Ivan Molodetskikh, Mikhail Erofeev, Dmitry Vatolin 自動圖像修復領域近年來發展迅速,但還沒有人提出評估算法的標準方法。這種缺失是由于問題的挑戰性質圖像修復算法在所得圖像中爭取現實主義,但現實主義是人類感知固有的主觀概念。現有的客觀圖像質量指標提供了人類認為或多或少現實的差的近似值。 |
| State Estimation in Visual Inertial Autonomous Helicopter Landing Using Optimisation on Manifold Authors Thinh Hoang Dinh, Hieu Le Thi Hong, Tri Ngo Dinh 自主直升機降落是一項具有挑戰性的任務,需要有關直升機位置,姿態以及直升機停機坪位置的飛機狀態的準確信息。為此,我們提出了一種融合來自慣性測量單元IMU和單目相機的數據的解決方案,該單目相機能夠檢測圖像平面中的直升機停機坪位置。該算法利用基于流形的非線性優化而不是在時間上均勻分布的關鍵幀中的預積分IMU測量和重投影誤差,在精度方面表現出良好的性能并且在計算上是可行的。我們對本文的貢獻是雅各比表達的地標的正式地址和平等約束高斯牛頓方法對這個特定問題的適應。 MATLAB Simulink的數值模擬證實了給定索賠的有效性。 |
| Unsupervised Automatic Building Extraction Using Active Contour Model on Unregistered Optical Imagery and Airborne LiDAR Data Authors Thanh Huy Nguyen, Sylvie Daniel, Didier Gueriot, Christophe Sintes, Jean Marc Le Caillec 城市場景中建筑物的自動提取已經成為攝影測量和遙感領域越來越受關注的主題,尤其是自20世紀90年代中期以來LiDAR系統的出現。然而,實際上,由于建筑物尺寸和形狀的復雜性以及周圍環境,這項任務仍然非常具有挑戰性。活動輪廓模型,俗稱蛇模型,已廣泛應用于計算機視覺和圖像處理的許多應用中,也用于從航空衛星圖像中提取建筑物。受現有蛇模型對建筑物提取的限制的啟發,本文提出了一種無人監督和全自動蛇模型,使用光學圖像和未注冊的機載LiDAR數據集提取建筑物,無需手動初始點或訓練數據。所提出的方法被證明能夠從復雜的環境中提取具有不同顏色的建筑物,并且產生高的整體精度。 |
| +++FoodX-251: A Dataset for Fine-grained Food Classification Authors Parneet Kaur, Karan Sikka, Weijun Wang, Serge Belongie, Ajay Divakaran 食物分類是一個具有挑戰性的問題,因為大量的類別,不同食物之間的高視覺相似性,以及缺乏用于訓練最先進深度模型的數據集。解決這個問題需要在計算機視覺模型以及用于評估這些模型的數據集方面取得進展。在本文中,我們將重點放在第二個方面,并介紹FoodX 251,這是一個251種細粒食品類別的數據集,其中158k圖像來自網絡。我們使用118k圖像作為訓練集,并為40k圖像提供人工驗證標簽,可用于驗證和測試。在這項工作中,我們概述了創建此數據集的過程,并提供了深度學習模型的相關基線。 FoodX 251數據集已用于在CVPR 2019的細粒度視覺分類研討會FGVC6中組織iFood 2019挑戰,可供下載。 |
| +++利用emoji嵌入進行圖像視覺情感分析Smile, be Happy :) Emoji Embedding for Visual Sentiment Analysis Authors Ziad Al Halah, Andrew Aitken, Wenzhe Shi, Jose Caballero 由于缺乏大規模數據集,視覺情感分析中的主流方法是利用在ImageNet等大型數據集中訓練用于對象分類的模型。然而,對象是情緒中立的,這阻礙了對這些任務的轉移學習的預期收益。在這項工作中,我們建議通過學習一種新的情感對齊圖像嵌入來克服這個問題,該圖像嵌入更適合于隨后的視覺情感分析。我們的嵌入利用了大規模的表情符號和圖像之間錯綜復雜的關系以及來自社交媒體的現成數據。表情符號與語言無關,一致,并帶有清晰的情緒信號,這使得它們成為學習情感對齊嵌入的絕佳代理。因此,我們構建了一個新的數據集,其中包含從Twitter收集的400萬張圖像及其相關的表情符號。我們使用表情符號預測任務作為代理訓練用于圖像嵌入的深度神經模型。我們的評估表明,所提出的嵌入在多個情感分析基準中始終優于基于對象的流行對象。此外,沒有鈴鐺和口哨,我們緊湊,有效和簡單的嵌入優于這些公共基準上更精細和定制的最先進的深模型。此外,我們基于他們的視覺情緒反應引入了一種新穎的表情符號表示,這有助于更深入地理解表情符號模態及其在社交媒體上的使用。 |
| ThirdEye: Triplet Based Iris Recognition without Normalization Authors Sohaib Ahmad, Benjamin Fuller 大多數虹膜識別管道涉及三個階段分割成虹膜非虹膜像素,將虹膜區域歸一化到固定區域,并提取相關特征用于比較。鑒于深度學習的最新進展,謹慎地詢問準確虹膜識別需要哪些階段。 Lojez等。 IWBF 2019最近得出結論,分割階段對于良好的準確性仍然至關重要。我們要求歸一化是否有益為了回答這個問題,我們開發了一種新的虹膜識別系統,稱為ThirdEye,基于三重卷積神經網絡Schroff等,ICCV 2015。 ThirdEye直接使用分段圖像而不進行標準化。我們分別在ND 0405,UbirisV2和IITD數據集上觀察到1.32,9.20和0.59的相等錯誤率。對于最受約束的數據集IITD,這可以改善最佳的先前工作。但是,對于ND 0405和UbirisV2,我們的等錯誤率比現有系統略差。我們的結論假設是規范化對于較少受約束的環境更為重要。 |
| FMRI data augmentation via synthesis Authors Peiye Zhuang, Alexander G. Schwing, Sanmi Koyejo 我們通過綜合提出了fMRI數據增強的經驗評估。對于合成,我們使用在真實神經成像數據上訓練的生成模型來產生新的任務依賴的功能性腦圖像。分析生成模型包括經典方法,如高斯混合模型GMM,以及現代隱式生成模型,如生成對抗網絡GAN和變分自動編碼器VAE。特別地,所提出的GAN和VAE模型利用3維卷積,這使得能夠利用結構化空間相關性對高維腦圖像張量進行建模。然后,合成的數據集用于增加用于預測認知和行為結果的分類器。我們的研究結果表明,所提出的模型能夠生成高質量的合成腦圖像,這些圖像具有多樣性和任務依賴性。也許最重要的是,通過綜合的數據增強的性能改進被證明是對預測模型的選擇的補充。因此,我們的結果表明,通過綜合進行數據增加是一種有前景的方法,可以解決fMRI數據的有限可用性,并提高預測性fMRI模型的質量。 |
| Understanding Deep Learning Techniques for Image Segmentation Authors Swarnendu Ghosh, Nibaran Das, Ishita Das, Ujjwal Maulik 機器學習社區已經被大量基于深度學習的方法所淹沒。許多具有挑戰性的計算機視覺任務,例如在無約束環境中的對象的檢測,定位,識別和分割,正被各種類型的深度神經網絡(例如卷積神經網絡,循環網絡,對抗網絡,自動編碼器等)有效地解決。雖然已經有大量關于物體檢測或識別領域的分析研究,但許多新的深度學習技術已經出現在圖像分割技術方面。本文從分析的角度探討了這些各種深度學習的圖像分割技術。這項工作的主要目標是直觀地了解對圖像分割領域做出重大貢獻的主要技術。從一些傳統的圖像分割方法出發,本文進一步描述了深度學習對圖像分割領域的影響。此后,大多數主要的分割算法都在邏輯上用專用于其獨特貢獻的段落進行分類。通過大量直觀的解釋,讀者可以更好地可視化這些過程的內部動態。 |
| Multi-Task Recurrent Convolutional Network with Correlation Loss for Surgical Video Analysis Authors Yueming Jin, Huaxia Li, Qi Dou, Hao Chen, Jing Qin, Chi Wing Fu, Pheng Ann Heng 手術工具存在檢測和手術相位識別是外科視頻分析中的兩個基本但具有挑戰性的任務,也是現代手術室中各種應用中非常重要的組件。雖然這兩個分析任務在臨床實踐中高度相關,因為手術過程已明確定義,但大多數先前的方法單獨處理它們,而沒有充分利用它們的相關性。在本文中,我們提出了一種新方法,通過開發具有相關性損失MTRCNet CL的多任務循環卷積網絡來利用它們的相關性來同時提高兩個任務的性能。具體來說,我們提出的MTRCNet CL模型具有兩個分支的端到端架構,這兩個分支共享早期的特征編碼器以提取一般視覺特征,同時保持針對特定任務的相應更高層。鑒于時間信息對于相位識別是至關重要的,因此探索長短期存儲器LSTM以模擬相位識別分支中的順序依賴性。更重要的是,通過最小化來自兩個分支的預測的偏差,設計新穎且有效的相關損耗來模擬每個視頻幀的工具存在和相位識別之間的相關性。我們的MTRCNet CL方法相互利用低級別特征共享和高級別預測相關性,可以在很大程度上促進兩個任務之間的相互作用,從而可以為彼此帶來好處。對大型手術視頻數據集Cholec80進行的大量實驗證明了我們提出的方法的出色表現,一直超過現有技術方法,例如89.1 v.s. 81.0用于工具存在檢測中的mAP和87.4 v.s.相位識別中的F1得分為84.5。代碼可以在我們的項目網站上找到。 |
| Motion Segmentation Using Locally Affine Atom Voting Authors Erez Posner, Rami Hagege 我們提出了一種新的運動分割方法,稱為LAAV局部仿射原子投票。我們模型的主要新穎之處在于使用多組特征來分割場景中所有特征的運動。 LAAV充當圖像中特征的預處理流水線階段,隨后是現有技術的隨機投票RV方法的精細調整版本。與標準方法不同,LAAV使用特征集親和度來分段運動而不是所有特征之間的成對親和度因此,它顯著地簡化了復雜場景并且在不損失準確性的情況下降低了計算成本。我們描述了如何使用我們的模型解決使用以前建議的方法遇到的挑戰。然后,我們將算法與幾種最先進的方法進行比較。實驗表明,我們的方法實現了最準確的運動分割結果,并且在存在測量噪聲的情況下,實現了與其他算法相當的結果。 |
| Adaptive Context Encoding Module for Semantic Segmentation Authors Congcong Wang, Faouzi Alaya Cheikh, Azeddine Beghdadi, Ole Jakob Elle 圖像中的對象大小是多種多樣的,因此,捕獲多個尺度的上下文信息對于語義分割是必不可少的。現有的上下文聚合方法,例如金字塔池模塊PPM和不穩定的空間金字塔池ASPP設計不同的池大小或不穩定的速率,從而捕獲多個比例信息。然而,手動和經驗選擇匯集大小和萎縮率。為了自適應地捕獲對象上下文信息,在本文中,我們提出了一種基于可變形卷積運算的自適應上下文編碼ACE模塊來參數化多尺度信息。我們的ACE模塊可以輕松嵌入到其他卷積神經網絡CNN中進行上下文聚合。在Pascal Context和ADE20K數據集上演示了所提出模塊的有效性。盡管我們提出的ACE僅由三個可變形卷積塊組成,但它在兩個數據集上的聯盟mIoU的平均交點方面優于PPM和ASPP??。所有實驗研究證實,與現有技術方法相比,我們提出的模塊是有效的。 |
| ALFA: Agglomerative Late Fusion Algorithm for Object Detection Authors Evgenii Razinkov, Iuliia Saveleva, Ji i Matas 我們提出ALFA是一種用于物體檢測的新型后期融合算法。 ALFA基于對象檢測器預測的凝聚聚類,同時考慮了邊界框位置和類別得分。每個聚類表示單個對象假設,其位置是聚類邊界框的加權組合。 |
| Using dynamic routing to extract intermediate features for developing scalable capsule networks Authors Bodhisatwa Mandal, Swarnendu Ghosh, Ritesh Sarkhel, Nibaran Das, Mita Nasipuri 膠囊網絡在短時間內獲得了大量的普及,因為其獨特的模型等效類特定屬性的方法作為來自圖像的膠囊。然而,動態路由算法具有陡峭的計算復雜性。在所提出的方法中,我們的目標是創建膠囊網絡的可擴展版本,其速度更快,并且在具有更多類別的問題中提供更好的準確性。通過使用動態路由來提取中間特征而不是生成輸出類特定的膠囊,已經觀察到計算速度的大幅增加。此外,通過提取等變特征膠囊而不是類特定膠囊,網絡的泛化能力也增加,結果提高了準確度。 |
| M3D-RPN: Monocular 3D Region Proposal Network for Object Detection Authors Garrick Brazil, Xiaoming Liu 了解3D世界是城市自動駕駛的重要組成部分。通常,昂貴的LiDAR傳感器和立體RGB成像的組合對于成功的3D物體檢測算法是至關重要的,而僅單目圖像方法經歷了顯著降低的性能。我們建議通過將單眼3D檢測問題重新設計為獨立的3D區域提議網絡來縮小差距。我們利用2D和3D透視的幾何關系,允許3D盒子利用圖像空間中生成的眾所周知且強大的卷積特征。為了幫助解決劇烈的3D參數估計,我們進一步設計了深度感知卷積層,這使得能夠進行位置特定的特征開發,從而改善3D場景理解。與單眼3D檢測的先前工作相比,我們的方法僅包括提出的3D區域提議網絡,而不是依賴于外部網絡,數據或多個階段。 M3D RPN能夠顯著提高KITTI城市自動駕駛數據集中單目3D物體檢測和鳥瞰視圖任務的性能,同時有效地使用共享多類模型。 |
| Structure-Aware Residual Pyramid Network for Monocular Depth Estimation Authors Xiaotian Chen, Xuejin Chen, Zheng Jun Zha 單目深度估計是場景理解的基本任務。復雜場景中對象和東西的底層結構對于恢復準確且視覺上令人愉悅的深度圖是至關重要的。全局結構傳達場景布局,而局部結構反映形狀細節。最近開發的基于卷積神經網絡CNN的方法顯著改善了深度估計的性能。但是,很少有人考慮復雜場景中的多尺度結構。在本文中,我們提出了一種結構感知殘差金字塔網絡SARPN,以利用多尺度結構進行精確的深度預測。我們提出了一個殘差金字塔解碼器RPD,它表示上層的全局場景結構來表示布局,而下層的局部結構則表示形狀細節。在每個級別,我們建議殘差細化模塊RRM預測殘差圖,以逐步在上層預測的較粗糙結構上添加更精細的結構。為了充分利用多尺度圖像特征,引入了自適應密集特征融合ADFF模塊,該模塊自適應地融合了各尺度的有效特征,用于推斷每個尺度的結構。具有挑戰性的NYU Depth v2數據集的實驗結果表明,我們提出的方法在定性和定量評估中都達到了最先進的性能。代碼可在 |
| +++道路裂紋的像素級檢測,裂紋檢測A Conditional Wasserstein Generative Adversarial Network for Pixel-level Crack Detection using Video Extracted Images Authors Qipei Mei, Mustafa G l 路面自動裂縫檢測是智能交通基礎設施系統發展的重要研究領域。本文提出了一種基于條件Wasserstein生成對抗網絡cWGAN的新型道路裂縫檢測方法。使用具有用于多級特征融合的去卷積層的121層密集連接的神經網絡作為發生器,并且使用5層完全卷積網絡作為鑒別器。為了克服與散射輸出問題相關的反卷積層,引入連通圖以表示所提出的cWGAN內的裂縫信息。所提出的方法在從配備有商業級高速攝像機的移動車輛收集的數據集上進行測試。該數據集具有挑戰性,因為包含裂縫的圖像還包括其他物體的干擾。結果表明,與其他現有方法相比,該方法在精度,召回率和F1得分方面均達到了最佳性能。 文章中有數據集 |
| +++為虛擬顯示的場景中添加文字SynthText3D: Synthesizing Scene Text Images from 3D Virtual Worlds Authors Minghui Liao, Boyu Song, Minghang He, Shangbang Long, Cong Yao, Xiang Bai 隨著深度神經網絡的發展,對大量注釋訓練數據的需求成為許多研究和應用領域的性能瓶頸。圖像合成可以自動,自由地生成帶注釋的圖像,最近受到越來越多的關注。在本文中,我們提出從3D虛擬世界合成場景文本圖像,其中提供了場景的精確描述,可編輯的照明可見性和逼真的物理。與以前將渲染文本粘貼在靜態2D圖像上的方法不同,我們的方法可以將3D虛擬場景和文本實例渲染為整體。通過這種方式,可以在我們的合成場景文本圖像中實現復雜的透視變換,各種照明和遮擋。此外,通過隨機移動和旋轉虛擬相機可以產生具有各種視點的相同文本實例,虛擬相機充當人眼。使用生成的合成數據對標準場景文本檢測基準的實驗證明了所提出方法的有效性和優越性。 code:https://github.com/MhLiao/SynthText3D 合成數據2.2 參考https://www.unrealengine.com/marketplace/zh-CN/store |
| Gesture-to-Gesture Translation in the Wild via Category-Independent Conditional Maps Authors Yahui Liu, Marco De Nadai, Gloria Zen, Nicu Sebe, Bruno Lepri 最近的工作表明,生成對抗網絡GAN在圖像到圖像的翻譯中特別有效。然而,在諸如身體姿勢和手勢翻譯之類的任務中,現有方法通常需要精確的注釋,例如,關鍵點或骷髏,繪制時間很長。在這項工作中,我們提出了一種新穎的GAN架構,它將所需的注釋分解為指定手勢類型的類別標簽和表示手勢的位置,旋轉和大小的簡單繪制類別獨立條件圖。我們的架構在保留背景上下文的同時合成目標手勢,從而有效地處理野外的手勢轉換。為此,我們使用注意模塊和滾動引導方法,將生成的圖像循環回網絡,并與競爭作品相比產生更高質量的圖像。因此,我們的GAN學習從簡單的注釋生成新圖像,而不需要關鍵點或骨架標簽。兩個公共數據集的結果表明,我們的方法在數量和質量上都優于最先進的方法。據我們所知,到目前為止,還沒有任何工作通過要求用戶友好的注釋來解決在野外手勢翻譯的手勢。 |
| Batch-Shaped Channel Gated Networks Authors Babak Ehteshami Bejnordi, Tijmen Blankevoort, Max Welling 我們提出了一種在細粒度級別上選擇深度學習架構的方法。在網絡中的特征上有條件地打開各個卷積映射。這種方法允許我們訓練具有大容量但比整個網絡更低的推理時間的神經網絡。為實現這一目標,我們引入了一種新的殘余塊體系結構,以精細的方式對卷積通道進行門控。我們還介紹了一種通用的工具批量整形,它將神經網絡中特征的邊緣聚合后驗與預先指定的先前分布相匹配。我們使用這種新技術來強制門更加條件化數據。我們在CIFAR 10和ImageNet數據集上呈現用于圖像分類的結果和用于語義分割的Cityscapes。我們的結果表明,我們的方法可以有條件地減少大型體系結構,使得數據的平均計算成本與較小的體系結構相當,但具有更高的準確性。特別是,與基線ResNet18模型的69.76精度相比,我們的ResNet34門控網絡實現了72.55前1精度的性能,具有相似的復雜性。我們還展示了生成的網絡自動學習使用更多功能來處理難點示例,并使用更少的功能來處理簡單示例。 |
| Sparsely Activated Networks Authors Paschalis Bizopoulos, Dimitrios Koutsouris 以前關于無監督學習的文獻著重于設計結構先驗和優化功能,目的是學習有意義的特征,但不考慮表示的描述長度。在這里,我們提出了稀疏激活網絡SAN,它將輸入分解為不同幅度的稀疏重復模式的總和,并結合新提出的度量varphi,他們學習具有最小描述長度的表示。 SAN由具有共享權重的內核組成,在編碼期間,這些內核與輸入卷積,然后通過ReLU和稀疏激活函數傳遞。在解碼期間,將相同的權重與稀疏激活圖卷積,并且將來自每個權重的各個重建相加以重建輸入。我們還提出了一個用于模型選擇的度量變量,它有利于結合高壓縮比和低重構誤差的模型,并且我們通過探索SAN的超參數空間來證明其定義。我們比較了各種數據集上的四個稀疏激活函數Identity,Max Activations,Max Pool indices,Peaks,并顯示SAN學習了與varphi結合的可解釋內核,它們最小化了表示的描述長度。 |
| Deep Sequential Mosaicking of Fetoscopic Videos Authors Sophia Bano, Francisco Vasconcelos, Marcel Tella Amo, George Dwyer, Caspar Gruijthuijsen, Jan Deprest, Sebastien Ourselin, Emmanuel Vander Poorten, Tom Vercauteren, Danail Stoyanov 雙胎輸血綜合征治療需要胎盤血管吻合的胎兒激光光凝術來調節兩胎的血流量。有限的視野在胎兒鏡檢查期間FoV和低視覺質量使得識別所有血管連接具有挑戰性。鑲嵌可以對準多個重疊圖像以生成具有增加的FoV的圖像,然而,由于低視覺質量,紋理缺乏,并且因此由于隨時間累積的漂移而導致較長序列中的失敗,現有技術對于胎兒鏡檢查應用較差。深度學習技術可以幫助克服這些挑戰。因此,我們提出了一種新的廣義深度序貫鑲嵌DSM框架,用于從不同設置(如模擬,幻像和真實環境)捕獲的胎兒視頻。 DSM通過提出受控數據增強和異常值拒絕方法,將現有的基于深度圖像的單應性模型擴展到順序數據。與現有方法不同,DSM可以處理由于鏡面高光和相鄰幀上的反射引起的視覺變化,從而減少累積漂移。我們使用5種不同的胎兒視頻進行實驗驗證和比較,以證明我們框架的穩健性。 |
| Exploring Deep Anomaly Detection Methods Based on Capsule Net Authors Xiaoyan Li, Iluju Kiringa, Tet Yeap, Xiaodan Zhu, Yifeng Li 在本文中,我們開發和探索基于膠囊網絡CapsNet的圖像數據的深度異常檢測技術。由于能夠編碼部分和整體之間的內在空間關系,CapsNet已被用作分類器和深度自動編碼器。這激勵我們設計基于預測概率和基于重建誤差的正態分數函數,用于評估看不見的圖像的離群值。我們對三個數據集的結果表明,基于預測概率的方法表現一致,而基于重建誤差的方法對標記和未標記圖像之間的相似性相對敏感。此外,在許多情況下,兩種基于CapsNet的方法都優于原則基準方法。 |
| Measuring the Transferability of Adversarial Examples Authors Deyan Petrov, Timothy M. Hospedales 對抗性示例由于其對當代機器學習系統的可靠性的影響而受到廣泛關注。有效的對抗性示例主要通過白盒攻擊找到。但是,在某些情況下,它們可以跨模型傳輸,從而使它們能夠攻擊黑盒模型。在這項工作中,我們使用VGG16,VGG19以及VGG16和VGG19的集合,以及兩個VGG類的模型,評估三種對抗攻擊的快速梯度符號方法,基本迭代方法和Carlini Wagner方法的可轉移性。初始類Inception V3,Xception,Inception Resnet V2以及三者的集合。我們還概述了當前研究中可轉移性評估的問題,并嘗試通過挑選特定的強攻擊參數來修改它們,并使用L Infinity裁剪技術和SSIM指標來最終評估攻擊可轉移性。 |
| ++聽覺對視覺的替代方法Autoencoding sensory substitution Authors Viktor T th, Lauri Parkkonen 數以千萬計的人失明,他們的人數不斷增加。視覺到聽覺感官替代SS包括一系列廉價的通用解決方案,通過聲音傳達視覺信息來幫助視障人士。所需的SS培訓需要很長時間的努力才能達到實際的適應水平。對于細長的替代音頻信號進行繁瑣的訓練過程有兩個原因,并且忽略了人類聽覺系統的壓縮特性。為了克服這些障礙,我們開發了一類新的SS方法,通過訓練深度循環自動編碼器進行圖像到聲音的轉換。我們成功地在不同數據集上訓練深度學習模型,以執行視覺到聽覺刺激轉換。通過約束視覺空間,我們展示了縮短的替代音頻信號的可行性,同時提出了諸如計算聽力模型的整合之類的機制,以最佳地將替代刺激中的視覺特征傳達為感知上可辨別的聽覺成分。我們在兩個不同的案例中測試了我們的方在第一個實驗中,作者被蒙住眼睛5天,同時進行SS姿勢辨別訓練。第二個實驗評估了達到桌子上物體移動的準確性。在兩個測試案例中,經過幾個小時的培訓后達到了機會水平的準確度。我們新穎的SS架構拓寬了為視障人士設計的康復方法的視野。對所提出的模型的進一步改進將導致盲人的加速康復以及因此更廣泛地適應SS裝置。 Sensory substitution:https://en.wikipedia.org/wiki/Sensory_substitution https://www.sciencedirect.com/topics/medicine-and-dentistry/sensory-substitution |
| A Divide-and-Conquer Approach towards Understanding Deep Networks Authors Weilin Fu, Katharina Breininger, Roman Schaffert, Nishant Ravikumar, Andreas Maier 深度神經網絡在包括醫學圖像分割在內的各個領域取得了巨大的成功。然而,由于沒有深層神經網絡設計的一般理論,它們長期以來一直被批評為黑盒子,因為解釋,理解和校正架構很困難。以前,精確學習被提議融合深層架構和傳統方法。以這種方式構建的深度網絡受益于原始的已知運算符,具有較少的參數和改進的可解釋性。但是,它們并不能在所有應用中產生最先進的性能。在本文中,我們建議使用已知的運營商分析深度網絡,采用分而治之的策略來替換網絡組件,同時保持其性能。為此目的研究了視網膜血管分割的任務。我們從高性能U Net開始,逐步轉換顯示我們能夠將網絡劃分為已知運營商的模塊。結果表明,可訓練導向濾波器和可訓練版Frangi濾波器的組合產生了U Net AUC 0.974與0.972相比的性能,參數111,536與9,575的大幅減少。此外,可以將訓練過的層映射回其原始算法解釋,并使用標準信號處理工具進行分析。 |
| Neural Embedding for Physical Manipulations Authors Lingzhi Zhang, Andong Cao, Rui Li, Jianbo Shi 在通常的現實世界機器人操作中,動作和狀態空間可能是巨大的,有時是未知的,并且觀察通常相對稀疏。當只給出少量稀疏觀察時,我們如何學習動作和狀態空間的完整拓撲結構受哺乳動物大腦中網格單元屬性的啟發,我們構建了一個生成模型,強制潛在空間和輸出空間之間的歸一化成對距離約束。實現輸出空間的數據有效發現。該方法實現了比現有生成模型(例如生成性對抗網絡GAN和變分自動編碼器VAE)更好的結果。先前的模型具有模式崩潰的常見問題,因此無法探索輸出空間的完整拓撲。我們在質量和數量上證明了我們的模型在各種數據集上的有效性。 |
| S&CNet: A Enhanced Coarse-to-fine Framework For Monocular Depth Completion Authors Lei Zhang, Weihai Chen, Chao Hu 實時深度完成是機器人和自動駕駛任務的關鍵問題。在本文中,我們提出了一個輕量級粗到細網絡,從單視圖RGB圖像及其相關的稀疏深度圖完成密集深度圖。粗估計網絡和細化網絡都是編碼器解碼器形式。為了提高粗估計網絡的性能,我們提出了一種新穎的空間和信道S C增強器,以提高編碼器網絡的表示能力。空間明智關注的動機來自于我們發現編碼器網絡的較低輸出步幅保留了更多細節但限制了感受野。因此,我們雇傭空間明智的注意力來捕捉長距離的背景信息。此外,我們發現編碼器網絡生成的特征中的每個通道響應不同的距離。這一發現促使我們采用頻道明智的注意機制來重新分配不同頻道的權重,因為解碼器網絡應該更加注意頻道對距離包含豐富對象的響應,直觀。為了進一步提高網絡性能,我們采用了粗略估計和稀疏深度圖作為輸入的細化網絡。我們評估了我們在KITTI基準測試中的方法,結果表明我們的方法在RMSE指標上實現了與已發布工程相比的最新技術水平,但在所有其他指標中表現優于iRMSE,MAE和iMAE,運行速度提高了近5倍速度。至關重要的是,我們提出的S C增強器可以插入其他現有網絡,并以最小的額外計算成本顯著提高其性能。 |
| Image Evolution Trajectory Prediction and Classification from Baseline using Learning-based Patch Atlas Selection for Early Diagnosis Authors Can Gafuroglu, Islem Rekik 最初被診斷患有早期輕度認知功能障礙的患者eMCI被認為是具有非常微妙的腦萎縮模式的臨床異質組。為了檢查正常對照NC和eMCI之間的邊界,磁共振成像MRI被廣泛用作非侵入性成像模式,以確定MCI患者腦圖像的細微變化。然而,eMCI研究仍受限于可用MRI采集時間點的數量。理想情況下,人們將學習如何在早期階段從單一時間點獲取的MRI數據診斷MCI患者,同時利用不存在的隨訪觀察。為此目的,我們提出了新穎的監督和無監督框架,學習如何聯合預測和標記強度補片的進化軌跡,每個強度補片都是從基線強度補丁中接種到特定的大腦界標。具體而言,兩種策略都旨在確定基線時間點的最佳訓練圖譜補丁,以預測和分類給定測試基線補丁的進化軌跡。監督技術通過訓練雙向映射來學習如何選擇最佳的圖譜補丁,當使用一個補丁預測另一個補丁時,從成對補丁的相似性空間訓練雙向映射與其相應的預測誤差相似。另一方面,無監督技術學習了多個基線圖集并使用多個內核測試補丁以很好地捕獲多個尺度的補丁分布。一旦選擇了最佳基線圖譜補丁,我們將檢索它們的進化軌跡并對它們求平均值,以預測測試基線斑塊的進化軌跡。接下來,我們將預測軌跡輸入到線性分類器的集合中,每個線性分類器在特定地標處訓練。與基于單個時間點的分類方法相比,我們的分類準確度提高了10個點。 |
| Learning better generative models for dexterous, single-view grasping of novel objects Authors Marek Kopicki, Dominik Belter, Jeremy L. Wyatt 本文研究如何學會靈巧掌握的問題,以便能夠掌握僅從單一觀點看到的新物體。最近,在生成性掌握模型的數據有效學習方面取得了進展,該模型很好地轉移到新物體上。這些生成性掌握模型是從示范LfD中學習的。一個缺點是,正如本文所示,在具有挑戰性的單一視圖條件下掌握轉移是不可靠的。其次,生成模型元素的數量在訓練樣本的數量上呈線性增長。反過來,這限制了這些生成模型的推廣和持續改進的潛力。在本文中,它展示了如何解決這些問題。在基于視圖的抓握模型中進行了若干技術貢獻,以及用于組合和壓縮多個抓握模型的方法,用于評估用于生成和獲得抓取的聯系人的新方式。這些共同提高了抓握性能并減少了掌握轉移所學習的模型數量。反過來,這些進步也允許引入自主訓練,其中機器人從自我產生的掌握中學習。對具有挑戰性的測試裝置的評估表明,隨著部署的創新,掌握轉移成功率從55.1上升到81.6。通過增加自主訓練,這一比例上升至87.8。這些差異具有統計學意義。總而言之,在所有實驗中,對真實物體執行了539次測試掌握。 |
| Learning Complex Basis Functions for Invariant Representations of Audio Authors Stefan Lattner, Monika D rfler, Andreas Arzt 數據學習功能已經證明比在許多機器學習任務中使用手工制作功能更成功。在音樂信息檢索MIR中,從窗口光譜圖中學習的特征對于諸如轉置或時移的變換是高度變化的。當這些差異與相應的MIR任務無關時,這種差異是不希望的。我們提出了一種稱為復雜自動編碼器CAE的架構,它可以學習與正交變換不變的特征。將信號映射到由CAE學習的復雜基函數導致變換不變量值空間和變換變量相空間。相空間可用于推斷數據對之間的轉換。當利用幅度空間的不變性時,我們在音頻中獲得最先進的結果以得分對齊和音頻的重復部分發現。可以在線獲得CAE的PyTorch實現,包括重復的部分發現方法。 |
| Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩請移步主頁
pic from pexels.com
總結
以上是生活随笔為你收集整理的【今日CV 计算机视觉论文速览 第144期】Wed, 17 Jul 2019的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 手机驱动工程师门,准备转行了吗
- 下一篇: 金蝶K3案例教程目录2022