寻找下一款Prisma APP:深度学习在图像处理中的应用探讨
在9月23日到9月24日的MDCC 2016年中國移動者開發大會“人工智能與機器人”專場中,阿里云技術專家周昌進行了題為《尋找下一款Prisma APP:深度學習在圖像處理中的應用探討》的演講。演講中,他主要介紹深度學習在圖像處理領域中的應用,主要內容包括:傳統的圖像處理:如超分辨、灰度圖彩色化、2D/3D轉換等;圖像/視頻風格化;圖像生成。
以下是現場分享整理。
圖像處理類過程主要分為三步,包括圖像增強、圖像變換、圖像生成。圖像增強是指從圖像到圖像;圖像變換是指從圖像到另外一張圖像;圖像生成是指直接生成新的圖像,這三類都可以在開發者領域找到突破點。
圖像增強:從圖像到圖像
圖像增強包括分辨率增強、清晰度增強、畫面改善、色彩的增強等。這里通過幾個圖像增強的小案例進行詳細講解,例如在下雨場景中把雨滴去掉、B站常用的waifu2x以及一些老舊照片彩色化、去掉馬賽克等案例。
分辨率增強是指超分辨率,是將低分辨率的圖像轉換為高分辨率的圖像,目前可以實現“標清”轉換為“高清”,通常是2X,也可以是4X;上文提到的waifu2x是基于深度學習里的開源軟件,目前在B站上以waifu2x為關鍵詞可以搜出60多個老片子,迎合目前的需求。
清晰度增強,主要包括去噪聲和去馬賽克??梢詫⒁恍┍容^低的片源、照片變換為比較清晰一點的照片,主要用于老的港片可以變成很清晰的版本,將很老的照片變得清晰。
這是圖像增強的另一個應用,用于畫面改善,如去霧、去雨,常見的應用是做成相應的濾鏡。
上圖是色彩的增強的案例,將灰度圖彩色化。它的核心是CV領域內很少用到的神經網絡,用戶無需關心網絡架構,只需熟悉框架應用,熟知如何將其部署在移動端、云端即可。
除上述介紹的應用之外,還有更多的圖像增強類應用,如常見的視頻增強應用,用于頻率變換,從25fps到50fps;從2D到3D轉換,手機視頻去抖動以及視頻直播應用等。目前,阿里云也推出了云端服務,用戶可以通過部署在云端來滿足相應的應用或算法需求。
圖像變換:從圖像到另外一張圖像
上文講到的是從圖像到圖像的傾向于常規的圖像處理的應用,這些應用是無法處理得到炫酷的效果,但通過云端可以實現。通過對存量的圖像、視頻進行去噪或放大處理,得到另一張圖像,其中最為知名的是風格化處理,它是指一張圖片轉變為另一張圖片時,變換了風格。
如圖所示的風格是通過Google的Deepdream實現的,通過卷積網絡反向傳播的思想,強迫它激活某個神經元,最后生成一個從未見過的神奇圖像。
風格化:全局的紋理學習
真正風格化實現的第一篇論文是全局的紋理學習,是一篇德國的論文。它的重點是全局的風格,通過指定一張照片,指定一張需要學習的風格的圖像,通過若干次的運算(運算非常緩慢,即使在GPU上,也需要秒級以上),最后輸出所需要的神奇圖像。
上圖所示的Github開源項目,目前有一萬多個點擊,是將輸入的照片按照畢加索畫的風格輸出,是一種典型的全局風格。
上述的方法是通過指定一張圖片再指定一張風格圖片,通過BB操作生成圖片非常慢。如果通過網絡生成,速度是否會加快,這就是ADP思路。Prisma使得絕大數手機上即可實現該功能,通過引擎優化了卷積網絡,并進行適當的裁剪,犧牲了部分性能,使得可以在手機上運行。目前,Prisma的日活大概有200多M,通過售賣風格獲得收入。
局部風格化:利用位置信息
另一種風格化的是局部風格化,如圖所示,圖上眼睛和眼睛一樣,不會跟隨頭發風格的變化而變化,這是利用位置信息做出的效果,非常逼真,但運算較慢,這是因為它需要根據兩幅圖的相似區域,在Feature map上直接融合出需要的目標。
交互式涂鴉
此外,還有一種交互式涂鴉的方式,它并不是直接生成或自動生成一副圖片,而是允許用一些方塊、拖拉等方式對圖片進行處理。這個思路結合上文的風格化方式可以形成一些PGC圖像,在將來,這可能是一個爆款APP。
總結來看,風格化的技術演變分為四個階段:第一階段是基于BP全局風格化;第二階段是紋理網絡;第三階段是局部風格化;第四階段是用戶交互,其中后兩個階段尚未出現較好的APP應用。
圖像生成:直接生成新的圖像
圖像生成是指從無到有,直接生成新的圖像,生成圖像的原理很簡單,讓電腦看一萬只貓,它可以生成一萬零一只貓,而且是你從未見過的貓。
最簡單的圖像生成網絡是CPPN網絡,CPPN非常巧妙的通過設計網絡輸入為坐標, 將網絡視為一個復雜的連續函數,輸出為對應坐標的像素的灰度(或者 RGB )值,因此這種網絡可以構造大分辨率的圖像。為了輸出有效的圖像,注意下面兩點:
- ?所有網絡層的權重初始化為 Norm(0, 1) 分布,不能用太小的值;
- ?網絡的坐標輸入確保值范圍[-1, 1] 附近,不可以過大。
另一種方式是DCGAN,是通過對抗網絡的方法,由大量的樣本生成新的圖片,例如海報生成過程中,存在某些隱變量,通過隱變量的組合對某一張圖片進行加眼鏡的操作、變男或變女的操作等類似的應用;這種方法生成的模型還可以應用于去除水印,電視上或短視頻的水印都可以去除掉。
除了生成圖像,目前還有應用可以生成視頻,這是一個新的發展方向,將一副圖片添加到應用后,應用會根據輸出的動作進行之后的幾幀動作。
總結和展望
上文介紹了三類圖像應用,這三類圖像應用的好處是只需一臺FPU機器、會一點點技術,而且無需任何成本,所有的圖像都不需要標注,可以零成本從互聯網上獲得。
但此類應用需要考慮兩個端之間關系,一種方式是全終端;另一種是云端方式,兩種方式都有不同的部署方案。目前,全部在終端上完成存在一定困難的(除非愿意做一些優化);在云端完成可以選擇CPU或GPU的方式,由于GPU的費用昂貴,在應用設計過程中,需要均衡成本。
云上的智能美工將是圖像處理的下一個方向。如果大家在淘寶上搜美工或者搜圖片處理,反饋回來很多的搜索結果,如上圖所示。仔細看時,這些搜索結果存在兩個關鍵詞:去水印和摳圖,這種重復性質的PS勞動非常之多,之所以有這種需求是因為太多的淘寶賣家拿別人的圖放在自家內,摳圖雖然是人工完成的,但都很便宜。
通過前面的總結可以看出,有一個領域是AI真正可以涉足的,盡管看起來不是呢么高大上,但可以真正地節省人工勞動,也就是所謂的云上智能美工,可以完成摳圖等基礎的底層圖處理。
再下一步的方向應該是智能設計,如上圖所示,左側是Google的時裝設計,它是基于一些樣本,進行新的服裝設計,得到的結果再由藝術家進行專業評鑒;右側是的國內的電商美學,將其與AI結合,這在將來也是一個非常有趣的方向。
文中涉及的項目鏈接如下:
圖像增強
分辨率增強:https://arxiv.org/pdf/1501.00092v3.pdf
清晰度增強:http://mmlab.ie.cuhk.edu.hk/projects/ARCNN.html
畫面改善:https://arxiv.org/pdf/1609.02087.pdf
色彩增強:http://tinyclouds.org/colorize/
更多圖像增強類應用:https://www.aliyun.com/solution/media/videorevive
圖像變換
風格化:https://arxiv.org/abs/1508.06576
局部風格化:https://github.com/chuanli11/CNNMRF
圖像生成
CPPN:http://zhouchang.info/blog/2016-04-08/simple-cppn.html
VAE + CPPN:http://blog.otoro.net/2016/04/01/generating-large-images-from-latent-vectors/
DCGAN:https://github.com/Newmu/dcgan_code
VideoGan:http://web.mit.edu/vondrick/tinyvideo/
總結與展望
智能設計:
https://techcrunch.com/2016/09/02/googles-new-project-muse-proves-machines-arent-that-great-at-fashion-design/
http://www.deepdraw.cn/
精彩問答:?
主持人:在分享中提到了現在有一張圖片還有另外一張圖片,比如自己自拍的照片和一張畢加索的畫,把這兩個風格融合在一起,看起來我的照片像畢加索給畫出來的,聽起來很有意思,也是在人工智能很爭議的話題。很多人認為現在的人工智能不夠智能,認為機器并沒有創造你,比如正常人看來畢加索的畫像神經病畫的東西,但是很多專業人看是非常有價值的東西?,F在的人工智能或者圖像處理好像能夠完成類似的工作,你覺得以后包括作詩、作詞、新聞稿都是由機器來寫,以后是不是有些藝術家也可能被人工智能所替代?? ??
周昌:我個人的觀點是暫時人類不會下崗,但長久之后就說不準了。低階的工作將會由機器完成,節省大量的時間。但是真正的設計,機器是無法完成的,它們只是從樣本統計中增加隨機變量,這不能稱作藝術。但底層重復勞動,如美工、word排版等比較“無聊”的工作可以由人工智能替代。? ?
主持人:Prisma是爆款產品,網上也有開源的東西。下一步能不能借鑒它的思路給大家一些方向,用什么樣的圖像技術做一些比較有意思的應用。? ?
周昌:這兩天很火的微信小程序可以添加上去,它有一個最大的好處,就是輕量的渠道或者變現手段:微信支付。對圖像進行一個值得付一元的加工,每天的用戶量是十分驚人的。Prisma目前大家都已經審美疲勞了,但是我之前提到的這些效果,我估計付五毛錢還是會有市場的。我一直關注深度學習和人工智能落地的想法,這是因為對于開發者而言,資金和實例都有缺陷,當然時間可能也不充足。在視覺領域,有非常多的場景,比如可以設計一款蔬菜的識別,可以查詢價格,不至于碼農去菜市場被人騙了;另外還可以在野外做毒蘑菇識別,目前蔬菜可以做到百分之八九十準確率。圖像非常有趣,深度加工、自動化處理、掌紋分析、人臉識別、算婚姻或緣分之類的應用。
關于分享嘉賓:
周昌(花名慕開),阿里云iDST技術專家,長期專注于計算機視覺和網絡多媒體領域,開發過多款相關產品,包括阿里云視頻云的點播和直播系統。同時也是一名開源軟件愛好者,開發的app擁有超過500萬的用戶,目前在阿里云iDST視覺計算團隊從事深度學習算法研發。
總結
以上是生活随笔為你收集整理的寻找下一款Prisma APP:深度学习在图像处理中的应用探讨的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Qt4问题集锦
- 下一篇: Arimo利用Alluxio的内存能力提