日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

让机器“析毫剖厘”:图像理解与编辑|VALSE2018之三

發布時間:2023/12/8 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 让机器“析毫剖厘”:图像理解与编辑|VALSE2018之三 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

編者按:李白在《秋登宣城謝脁北樓》中曾寫道:

“江城如畫里,山曉望晴空。
兩水夾明鏡,雙橋落彩虹。”

通過對視野內景物位置關系的描寫,一幅登高遠眺的秋色美景圖宛在眼前。而在計算機視覺領域,這幾句詩其實體現了場景內物體之間的關系,對于場景理解的重要性。

今天,來自中科院信息工程研究所的劉偲副研究員,將從生成對抗網絡(GAN)講起,講述如何通過對場景內物體及物體之間關系的梳理,讓機器“析毫剖厘”,以實現對場景的理解以及對圖像的編輯。

文末,大講堂提供文中提到所有參考文獻的下載鏈接。


圖像理解與編輯涉及兩方面的內容:首先獲取圖像中蘊含的豐富信息,然后按照需求對圖像進行編輯。下圖展示了圖像理解問題的具體示例,對于某個場景,我們提取圖像中的背景,如墻壁、桌椅等物體的信息,也可以解析圖像中的重要元素——人,即對人的身體、服飾等部件進行分類、分割,進一步的還可對人臉進行解析,定位頭發、五官等部位。圖像理解與編輯具有廣泛的應用場景,比如自動駕駛、娛樂產品、視頻監控和增強現實等方面。

本文將主要介紹以人為主體目標的圖像理解與編輯任務。首先介紹人臉編輯。在圖像編輯方面,生成對抗網絡(GAN)發揮著重要的作用,所以這里首先介紹一下GAN的基本原理以及當前的主要發展方向。GAN由Ian Goodfellow在2014年提出,采用了兩個網絡相互對抗的訓練模式,已成為生成模型中里程碑式的工作。GAN包含生成網絡G和判別網絡D,G生成數據,D判斷數據是否來自真實的數據。在訓練時,G盡可能生成的數據迷惑D,而D盡可能區分出數據是否來自真實的分布,通過這種對抗式學習,模型最終能夠生成非常真實的圖片。這一工作也得到了Yann Lecun的高度評價,被其稱為近十年來機器學習領域中最有趣的想法之一。

從2014年GAN的提出,實現了從噪聲生成圖片功能后,生成對抗網絡的研究方向越來越多。原始的GAN只是從隨機噪聲生成圖像,缺少對生成圖片的控制,所以緊隨其后就有研究者提出了Conditional Generative Adversarial Nets。其通過改變輸入條件,可以控制圖片的生成結果。同時,以DCGAN為代表的一系列工作探索了適用于GAN的網絡結構。也有研究者為了解決模式坍塌等問題,提出了更多的網絡形式進行對抗學習的研究,如GMAN。 修正GAN的對抗損失函數的工作也在一直進行中,WGAN是其中非常引人矚目的工作。此外,要擬合真實數據背后的分布度量,常常需要對D網絡進行正則化, SN-GAN提出的譜歸一化是其中的代表性工作,其可在IMAGENET數據庫上訓練成功,生成1000類的圖像。最后,提高大圖像的生成質量也是GAN的一個重點的研究方向。英偉達提出的PG-GAN即是這樣的工作,可以生成1024x1024的高清真實圖像。


總而言之,GAN由最開始的隨機噪聲生成圖片,逐漸在眾多領域得到發展。有研究者使用GAN研究半監督學習問題,也有研究者進行圖像到圖像的生成探索,如給定輪廓圖生成正常的圖片,另外還有文本到圖像的生成以及域自適應任務。域自適應任務旨在提升模型對跨域數據的泛化能力,如在一個數據集上訓練好圖像分析的模型,通過域適應的方法,在其他不同的數據集上仍然能夠表現出較強的能力。此外還有人用GAN來做對抗樣本的攻防,旨在解決生成模型的正確性和安全性的問題。


基于GAN,在人臉圖像編輯方面,我們課題組主要進行了智能美妝方面的研究,屬于圖像到圖像的生成領域的探索。首先我們構建了一個較大的美妝數據庫,包括東方風格和西方風格的子數據庫。東方風格包括復古妝、韓妝、日妝、素顏和煙熏妝,西方風格包括彩妝、素顏和煙熏妝。如圖所示,每種妝容都有明確的定義。


除數據庫外,我們基于生成對抗網絡對智能美妝模型做了一定的改進,這項工作目前還在進行中。具體包括兩方面改進,第一基于大規模的人臉數據庫輔助生成更高質量的美妝圖像,目前是基于20萬張的celebA人臉圖像數據,選取包括是否為濃妝在內的總共三個人臉相關的屬性,利用粗標注數據庫完成智能美妝任務的輔助訓練,從而使美妝屬性的編輯更加細致。此外我們提出了新的網絡結構。因為人臉編輯任務更多是人臉的微調,希望化完妝人的身份信息保持不變,我們的網絡強調保持妝前妝后基本一致,更好的保持了圖像的主體信息,更專注地編輯妝容條件。

觀察實驗結果,各種妝容的編輯結果比較真實、自然,沒有明顯的網格。各種妝容的特點也比較明顯,如亞洲風格妝容中復古妝的腮紅、韓妝漸變的咬唇妝,比較淡的日妝以及特征明顯的素顏和煙熏妝,同樣歐美風格的妝容也有較好的編輯效果。值得一提的是,由于素顏類別的存在,我們的方法也可以實現卸妝的功能。

針對人臉編輯的另一個應用是人臉老化。下圖中間是當前給定圖片,通過人臉老化算法可以生成7個不同年齡段的人臉圖像,即可以變年輕如10歲以下,也可以變老如一直到60歲以上。它的應用很廣泛,比如可以輔助跨年齡段的人臉識別。身份證照片常常是很多年前拍攝的,長時間沒有更新導致人證對比存在一定的難度,那么此時人臉老化的就可以輔助身份證的人證識別。另外比較有用的應用是尋找丟失的兒童,比如小孩走丟了,只有他很小的照片,人臉老化可以輔助生成長大后的樣子,我們希望可以通過這樣的算法,能夠實現跨年齡的身份識別。此外人臉老化編輯還可以應用到互動娛樂應用中。


我們提出的方法也是基于GAN的。在傳統的conditional GAN的基礎上,我們綜合考慮了不同年齡段人臉的形狀和紋理變化。具體實現細節可參考我們的相關論文。下圖是我們的結果,第一列是原始圖片,右邊七列分別是不同年齡條件下的生成結果。可以看到年齡較小時,臉型都相對較小,皮膚也很光滑,而從30歲到60歲,胡子越來越白,同時會出現魚尾紋或者皺紋。例如第四行輸入是一個老太太,模型能夠生成她比較小的樣子,皮膚非常光滑,同時很像這個人。


接下來介紹整個框架第二部分,就是人的部分。人體解析定義是這樣的,給定一張圖,去解析人的頭發、人臉、胳膊(手)等部位,以及上衣、褲子、鞋等衣著。人體解析的相關工作非常多,由于篇幅限制不再詳細說明。而數據集方面主要是中山大學發表在CVPR2017上的Look into person,它應該是目前最大的人體解析數據庫。


我們在人體解析方面的最新研究是有關跨域人體解析。因為比如想在多個城市建立圖像分析系統,不可能在每個場景都標注很多數據,但是不同應用場景很多條件確實不一樣。所以我們希望一旦建立了較好的模型,通過跨域的方法,該模型放在其他的特定場景中也可以使用。比如數據庫標了很細致像素級的分類,這些庫姿態多變,光照很多,數據量大。我們在實際應用的時候,比如想應用在室內餐廳,或者室外街道,這種情況下重新標注數據的代價是非常大的,而直接使用預先訓好的模型效果又不是特別好。我們想研究的就是已經訓練好的模型怎么使用。


跨域學習是近年來的一個研究熱點,相關論文很多。比如,Ganin等人提出了一種新的基于深度網絡結構的方法來做域變換,該方法促進網絡學習一種深度特征:既能對主要的學習任務上得到區分,又能在不同域之間達到一致。MY Liu等人提出了一個耦合生成對抗網絡(coupled generative adversarial network, CoGAN)來學習關于多個域圖片的聯合分布。Long等人提出的一種新的深度變換網絡框架,通過MK-MMD將適應于特定任務的深度特征進行變換,而Chen等人提出了對抗姿態網絡,潛在地考慮到了人物的結構。


當前已經存在的域變換方法,都是單一考慮特征變換或者簡單地考慮結構性的標簽變換,而我們同時考慮了特征變換和結構性的標注變換。首先一方面,每個域的特征空間是不同的。例如餐廳中的圖片光照比室外中的光照要暗很多,監控圖片的視角和手持相機拍攝也是不同。因此我們通過對抗特征變換最小化這種差異。然后另一方面源域和目標域中的人物都有著固有的相同點,例如人體部件的關系大概是相同的,左右胳膊、腿分布在身體的兩側等。因此我們通過對抗式結構標簽變換來最大化這種共性。


最后一個任務是綜合考慮到人和場景。今年ECCV的一項競賽就是我們和奇虎360公司以及新加坡國立大學(NUS)一起舉辦的。比賽的主要任務還是集中于人這一目標,希望能夠獲取圖像中最重要的元素——人的信息。



Person In Context (PIC) 2018 (http://www.picdataset.com/) 將于2018年9月9日在德國慕尼黑的ECCV 2018的workshop "1st Person in Context (PIC) Workshop and Challenge" 上舉辦。我們從真實場景收集了約1.5萬張圖像,平均每張圖包含4個人。這些圖像包含復雜的人的姿態、豐富的拍攝視角、不同程度的遮擋和圖像分辨率。每一張圖片都包含了人和物體像素級別的語義分割、場景分割以及人和人/物體的關系標注。在客觀世界不計其數的類別中,人是最特殊的一類。因此本競賽在任務設定過程中,著重考量了以人為中心的關系分割 (relation segmentation)。傳統的關系預測,比如Visual Genome,以及Google 的Open Image Challenge 的關系都是定義在矩形框(bounding box)上的。PIC競賽的特別之處是,其關系是定義在分割區域(segmentation)上的。


以人為中心的關系分割包括該人的和周圍物體的動作關系、位置關系等。以左圖為例,人A在人B的旁邊。再比如右圖,人A在人C的后面。關系分割的形式是<主語,關系,賓語> 形式的三元組。值得一提的是,關系都是建立在人和物體的場景像素級別分割之上的。


以下為數據庫的標注展示,可以看到該數據庫涵蓋了豐富的全景分割和關系分割。

上圖是PIC跟現有數據庫的區別。Visual Genome是知名的關系數據庫。其關系是定義在bounding-box上,PIC庫的關系是定義在像素級別的分割之上。這種更細粒度的標注,使得定義的關系更為精確,也更符合實際應用的要求。


我們競賽時間安排及競賽信息如下,同時我們還提供了眾多顯卡作為競賽獎品。冠軍隊伍可以獲得2塊TitanV 顯卡。


總結一下,我們的工作由小及大,包含了人臉,人以及人-物關系三個層面的內容。我們會在這些領域繼續進行探索。



文中提到參考文獻的下載鏈接為:

https://pan.baidu.com/s/1L-zbu8Sbtcf1mou2DYhjhg?

密碼:1282

--end--

主編:袁基睿 ?編輯:程一


該文章屬于“深度學習大講堂”原創,如需要轉載,請聯系Emily_0167。


作者信息:


作者簡介:

劉偲, 現為中科院信息工程研究所網絡空間技術實驗室副研究員。本科畢業于北京理工大學校級實驗班,博士畢業于中科院自動化所,曾于新加坡國立大學任研究助理及博士后。其研究領域是計算機視覺和多媒體分析,具體包括圖像的語義分割,實例分割,圖像標注,圖像編輯等。2017-2019年中科協青年人才托舉工程入選者,微軟亞洲研究院鑄星計劃研究員,CCF-騰訊犀牛鳥科研基金獲得者。

個人主頁:http://liusi-group.com


?


往期精彩回顧


讓機器“察言作畫”:從語言到視覺|VALSE2018之二

讓機器“觀色”:真實世界的表情識別|VALSE2018之一

算法及大V們你們夠了:如果CV界也有朋友圈...I 春節特刊

[CVPR2018] 實時旋轉魯棒人臉檢測算法

跬步至千里:揭秘谷歌AutoML背后的漸進式搜索技術

”詩畫合一”的跨媒體理解與檢索

如何妙筆勾檀妝:像素級語義理解

CV領域的最美情話 I 情人節特刊

視覺世界中的"眾里尋她"--開放環境下的人物特征表示



歡迎關注我們!


深度學習大講堂是由中科視拓運營的高質量原創內容平臺,邀請學術界、工業界一線專家撰稿,致力于推送人工智能與深度學習最新技術、產品和活動信息!


中科視拓(SeetaTech)將秉持“開源開放共發展”的合作思路,為企業客戶提供人臉識別、計算機視覺與機器學習領域“企業研究院式”的技術、人才和知識服務,幫助企業在人工智能時代獲得可自主迭代和自我學習的人工智能研發和創新能力。


中科視拓目前正在招聘: 人臉識別算法研究員,深度學習算法工程師,GPU研發工程師, C++研發工程師,Python研發工程師,嵌入式視覺研發工程師,運營經理。有興趣可以發郵件至:hr@seetatech.com,想了解更多可以訪問,www.seetatech.com

中科視拓

深度學習大講堂


點擊閱讀原文打開中科視拓官方網站


總結

以上是生活随笔為你收集整理的让机器“析毫剖厘”:图像理解与编辑|VALSE2018之三的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。