當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

寻找下一款Prisma APP：深度学习在图像处理中的应用探讨

發(fā)布時間：2024/9/21 pytorch 51 豆豆

生活随笔收集整理的這篇文章主要介紹了寻找下一款Prisma APP：深度学习在图像处理中的应用探讨小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在9月23日到9月24日的MDCC 2016年中國移動者開發(fā)大會“人工智能與機器人”專場中，阿里云技術專家周昌進行了題為《尋找下一款Prisma APP：深度學習在圖像處理中的應用探討》的演講。演講中，他主要介紹深度學習在圖像處理領域中的應用，主要內容包括：傳統(tǒng)的圖像處理：如超分辨、灰度圖彩色化、2D/3D轉換等；圖像/視頻風格化；圖像生成。

以下是現(xiàn)場分享整理。

圖像處理類過程主要分為三步，包括圖像增強、圖像變換、圖像生成。圖像增強是指從圖像到圖像；圖像變換是指從圖像到另外一張圖像；圖像生成是指直接生成新的圖像，這三類都可以在開發(fā)者領域找到突破點。

圖像增強：從圖像到圖像

圖像增強包括分辨率增強、清晰度增強、畫面改善、色彩的增強等。這里通過幾個圖像增強的小案例進行詳細講解，例如在下雨場景中把雨滴去掉、B站常用的waifu2x以及一些老舊照片彩色化、去掉馬賽克等案例。

分辨率增強是指超分辨率，是將低分辨率的圖像轉換為高分辨率的圖像，目前可以實現(xiàn)“標清”轉換為“高清”，通常是2X，也可以是4X；上文提到的waifu2x是基于深度學習里的開源軟件，目前在B站上以waifu2x為關鍵詞可以搜出60多個老片子，迎合目前的需求。

清晰度增強，主要包括去噪聲和去馬賽克。可以將一些比較低的片源、照片變換為比較清晰一點的照片，主要用于老的港片可以變成很清晰的版本，將很老的照片變得清晰。

這是圖像增強的另一個應用，用于畫面改善，如去霧、去雨，常見的應用是做成相應的濾鏡。

上圖是色彩的增強的案例，將灰度圖彩色化。它的核心是CV領域內很少用到的神經(jīng)網(wǎng)絡，用戶無需關心網(wǎng)絡架構，只需熟悉框架應用，熟知如何將其部署在移動端、云端即可。

除上述介紹的應用之外，還有更多的圖像增強類應用，如常見的視頻增強應用，用于頻率變換，從25fps到50fps；從2D到3D轉換，手機視頻去抖動以及視頻直播應用等。目前，阿里云也推出了云端服務，用戶可以通過部署在云端來滿足相應的應用或算法需求。

圖像變換：從圖像到另外一張圖像

上文講到的是從圖像到圖像的傾向于常規(guī)的圖像處理的應用，這些應用是無法處理得到炫酷的效果，但通過云端可以實現(xiàn)。通過對存量的圖像、視頻進行去噪或放大處理，得到另一張圖像，其中最為知名的是風格化處理，它是指一張圖片轉變?yōu)榱硪粡垐D片時，變換了風格。

如圖所示的風格是通過Google的Deepdream實現(xiàn)的，通過卷積網(wǎng)絡反向傳播的思想，強迫它激活某個神經(jīng)元，最后生成一個從未見過的神奇圖像。

風格化：全局的紋理學習

真正風格化實現(xiàn)的第一篇論文是全局的紋理學習，是一篇德國的論文。它的重點是全局的風格，通過指定一張照片，指定一張需要學習的風格的圖像，通過若干次的運算（運算非常緩慢，即使在GPU上，也需要秒級以上），最后輸出所需要的神奇圖像。

上圖所示的Github開源項目，目前有一萬多個點擊，是將輸入的照片按照畢加索畫的風格輸出，是一種典型的全局風格。

上述的方法是通過指定一張圖片再指定一張風格圖片，通過BB操作生成圖片非常慢。如果通過網(wǎng)絡生成，速度是否會加快，這就是ADP思路。Prisma使得絕大數(shù)手機上即可實現(xiàn)該功能，通過引擎優(yōu)化了卷積網(wǎng)絡，并進行適當?shù)牟眉?#xff0c;犧牲了部分性能，使得可以在手機上運行。目前，Prisma的日活大概有200多M，通過售賣風格獲得收入。

局部風格化：利用位置信息

另一種風格化的是局部風格化，如圖所示，圖上眼睛和眼睛一樣，不會跟隨頭發(fā)風格的變化而變化，這是利用位置信息做出的效果，非常逼真，但運算較慢，這是因為它需要根據(jù)兩幅圖的相似區(qū)域，在Feature map上直接融合出需要的目標。

交互式涂鴉

此外，還有一種交互式涂鴉的方式，它并不是直接生成或自動生成一副圖片，而是允許用一些方塊、拖拉等方式對圖片進行處理。這個思路結合上文的風格化方式可以形成一些PGC圖像，在將來，這可能是一個爆款APP。

總結來看，風格化的技術演變分為四個階段：第一階段是基于BP全局風格化；第二階段是紋理網(wǎng)絡；第三階段是局部風格化；第四階段是用戶交互，其中后兩個階段尚未出現(xiàn)較好的APP應用。

圖像生成：直接生成新的圖像

圖像生成是指從無到有，直接生成新的圖像，生成圖像的原理很簡單，讓電腦看一萬只貓，它可以生成一萬零一只貓，而且是你從未見過的貓。

最簡單的圖像生成網(wǎng)絡是CPPN網(wǎng)絡，CPPN非常巧妙的通過設計網(wǎng)絡輸入為坐標，將網(wǎng)絡視為一個復雜的連續(xù)函數(shù)，輸出為對應坐標的像素的灰度（或者 RGB ）值，因此這種網(wǎng)絡可以構造大分辨率的圖像。為了輸出有效的圖像，注意下面兩點：

?所有網(wǎng)絡層的權重初始化為 Norm(0, 1) 分布，不能用太小的值；
?網(wǎng)絡的坐標輸入確保值范圍[-1, 1] 附近，不可以過大。

另一種方式是DCGAN，是通過對抗網(wǎng)絡的方法，由大量的樣本生成新的圖片，例如海報生成過程中，存在某些隱變量，通過隱變量的組合對某一張圖片進行加眼鏡的操作、變男或變女的操作等類似的應用；這種方法生成的模型還可以應用于去除水印，電視上或短視頻的水印都可以去除掉。

除了生成圖像，目前還有應用可以生成視頻，這是一個新的發(fā)展方向，將一副圖片添加到應用后，應用會根據(jù)輸出的動作進行之后的幾幀動作。

總結和展望

上文介紹了三類圖像應用，這三類圖像應用的好處是只需一臺FPU機器、會一點點技術，而且無需任何成本，所有的圖像都不需要標注，可以零成本從互聯(lián)網(wǎng)上獲得。

但此類應用需要考慮兩個端之間關系，一種方式是全終端；另一種是云端方式，兩種方式都有不同的部署方案。目前，全部在終端上完成存在一定困難的（除非愿意做一些優(yōu)化）；在云端完成可以選擇CPU或GPU的方式，由于GPU的費用昂貴，在應用設計過程中，需要均衡成本。

云上的智能美工將是圖像處理的下一個方向。如果大家在淘寶上搜美工或者搜圖片處理，反饋回來很多的搜索結果，如上圖所示。仔細看時，這些搜索結果存在兩個關鍵詞：去水印和摳圖，這種重復性質的PS勞動非常之多，之所以有這種需求是因為太多的淘寶賣家拿別人的圖放在自家內，摳圖雖然是人工完成的，但都很便宜。

通過前面的總結可以看出，有一個領域是AI真正可以涉足的，盡管看起來不是呢么高大上，但可以真正地節(jié)省人工勞動，也就是所謂的云上智能美工，可以完成摳圖等基礎的底層圖處理。

再下一步的方向應該是智能設計，如上圖所示，左側是Google的時裝設計，它是基于一些樣本，進行新的服裝設計，得到的結果再由藝術家進行專業(yè)評鑒；右側是的國內的電商美學，將其與AI結合，這在將來也是一個非常有趣的方向。

文中涉及的項目鏈接如下：

圖像增強

分辨率增強：https://arxiv.org/pdf/1501.00092v3.pdf

清晰度增強：http://mmlab.ie.cuhk.edu.hk/projects/ARCNN.html

畫面改善：https://arxiv.org/pdf/1609.02087.pdf

色彩增強：http://tinyclouds.org/colorize/

更多圖像增強類應用：https://www.aliyun.com/solution/media/videorevive

圖像變換

風格化：https://arxiv.org/abs/1508.06576

局部風格化：https://github.com/chuanli11/CNNMRF

圖像生成

CPPN：http://zhouchang.info/blog/2016-04-08/simple-cppn.html

VAE + CPPN：http://blog.otoro.net/2016/04/01/generating-large-images-from-latent-vectors/

DCGAN：https://github.com/Newmu/dcgan_code

VideoGan：http://web.mit.edu/vondrick/tinyvideo/

總結與展望

智能設計：

https://techcrunch.com/2016/09/02/googles-new-project-muse-proves-machines-arent-that-great-at-fashion-design/

http://www.deepdraw.cn/

精彩問答：?

主持人：在分享中提到了現(xiàn)在有一張圖片還有另外一張圖片，比如自己自拍的照片和一張畢加索的畫，把這兩個風格融合在一起，看起來我的照片像畢加索給畫出來的，聽起來很有意思，也是在人工智能很爭議的話題。很多人認為現(xiàn)在的人工智能不夠智能，認為機器并沒有創(chuàng)造你，比如正常人看來畢加索的畫像神經(jīng)病畫的東西，但是很多專業(yè)人看是非常有價值的東西。現(xiàn)在的人工智能或者圖像處理好像能夠完成類似的工作，你覺得以后包括作詩、作詞、新聞稿都是由機器來寫，以后是不是有些藝術家也可能被人工智能所替代？? ??

周昌：我個人的觀點是暫時人類不會下崗，但長久之后就說不準了。低階的工作將會由機器完成，節(jié)省大量的時間。但是真正的設計，機器是無法完成的，它們只是從樣本統(tǒng)計中增加隨機變量，這不能稱作藝術。但底層重復勞動，如美工、word排版等比較“無聊”的工作可以由人工智能替代。? ?

主持人：Prisma是爆款產(chǎn)品，網(wǎng)上也有開源的東西。下一步能不能借鑒它的思路給大家一些方向，用什么樣的圖像技術做一些比較有意思的應用。? ?

周昌：這兩天很火的微信小程序可以添加上去，它有一個最大的好處，就是輕量的渠道或者變現(xiàn)手段：微信支付。對圖像進行一個值得付一元的加工，每天的用戶量是十分驚人的。Prisma目前大家都已經(jīng)審美疲勞了，但是我之前提到的這些效果，我估計付五毛錢還是會有市場的。我一直關注深度學習和人工智能落地的想法，這是因為對于開發(fā)者而言，資金和實例都有缺陷，當然時間可能也不充足。在視覺領域，有非常多的場景，比如可以設計一款蔬菜的識別，可以查詢價格，不至于碼農(nóng)去菜市場被人騙了；另外還可以在野外做毒蘑菇識別，目前蔬菜可以做到百分之八九十準確率。圖像非常有趣，深度加工、自動化處理、掌紋分析、人臉識別、算婚姻或緣分之類的應用。

關于分享嘉賓：

周昌（花名慕開），阿里云iDST技術專家，長期專注于計算機視覺和網(wǎng)絡多媒體領域，開發(fā)過多款相關產(chǎn)品，包括阿里云視頻云的點播和直播系統(tǒng)。同時也是一名開源軟件愛好者，開發(fā)的app擁有超過500萬的用戶，目前在阿里云iDST視覺計算團隊從事深度學習算法研發(fā)。

總結

以上是生活随笔為你收集整理的寻找下一款Prisma APP：深度学习在图像处理中的应用探讨的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Qt4问题集锦
下一篇： Arimo利用Alluxio的内存能力提

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

pytorch

寻找下一款Prisma APP：深度学习在图像处理中的应用探讨

總結