一文说说这十多年来计算机玩摄影的历史
0 導(dǎo)論
我是一個(gè)AI行業(yè)的從業(yè)者,也是一個(gè)攝影愛好者。
在不斷接觸攝影技術(shù)的過程中,也不斷地開始了解計(jì)算機(jī)算法,尤其是最新的深度學(xué)習(xí)技術(shù)在其中發(fā)揮的作用。
這篇文章的目的,是一個(gè)導(dǎo)論,面向的對(duì)象,也是大眾。但是,本著稍求甚解的原則,我接下來會(huì)盡量照顧受眾的同時(shí),也說點(diǎn)技術(shù)。
攝影,說的粗淺一點(diǎn),就說拍照吧,本身并不是一個(gè)技術(shù)很高的活,稍加訓(xùn)練,就能成為合格的攝影師。
當(dāng)然,攝影本身也可以是一門藝術(shù),好的作品往往會(huì)帶入情緒等等。這是一個(gè)充滿抽象與主觀因素的領(lǐng)域。但我們不能因此陷在這個(gè)點(diǎn)上,不然下面就沒法說了。
好的照片,讓大眾心情愉悅,欣賞點(diǎn)贊的照片,是有共性的,而計(jì)算機(jī)玩攝影,就是要解決這個(gè)問題,怎么學(xué)習(xí)到攝影師和大眾的審美。
所以下面正式拋出關(guān)鍵詞:photo aesthetics
1 一窺 aesthetics
總的來說,包含以下幾個(gè)大方向;
所謂photo aesthetics,即計(jì)算機(jī)美學(xué),這是計(jì)算機(jī)視覺的一個(gè)研究方向。它研究通過計(jì)算機(jī)來學(xué)會(huì)人的審美,狹義而簡(jiǎn)單的來說,就是判斷一張圖片是高質(zhì)量的,還是低質(zhì)量的,也就是好與壞,數(shù)學(xué)上這是一個(gè)2分類問題。很多早期的研究,以及相應(yīng)的數(shù)據(jù)庫(kù)CUHK【1】,CUHKPQ【2】的標(biāo)注,都是為這個(gè)而服務(wù)。
從下圖相關(guān)論文的數(shù)量趨勢(shì)來看,現(xiàn)在是一個(gè)很活躍的領(lǐng)域。
從研究的現(xiàn)狀來看,這也是一個(gè)遠(yuǎn)遠(yuǎn)沒有飽和的區(qū)域。
相比人臉檢測(cè),美顏等,這是一個(gè)更抽象,更難的問題,還處于高速發(fā)展期。
從2006年左右,這個(gè)領(lǐng)域開始有了比較系統(tǒng)的研究,至今十年出頭。所以,我接下來的介紹,也是近10年的一個(gè)概覽。
上面說了,最簡(jiǎn)單也是最直觀最早期的研究,就是分辨一張圖是好,還是不好,是個(gè)2分類問題。
但是2分類問題有它的兩個(gè)重大的局限性:
(1)?美學(xué)不是一個(gè)很嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)問題,而是有很強(qiáng)的主觀性,有很多的圖,介于好圖與非好圖之間,難以2分類,分界面實(shí)在不清晰。這導(dǎo)致問題本身定義不明確,數(shù)據(jù)的標(biāo)注也很困難。
(2)?如果只是一直做2分類問題研究,那很多的應(yīng)用無法實(shí)現(xiàn),直接點(diǎn)的如圖像檢索排名,間接點(diǎn)的如構(gòu)圖推薦,自適應(yīng)濾鏡。
演變到后來,先是升級(jí)到了回歸問題,不僅分好壞,還要打個(gè)等級(jí)分。
什么意思呢?每一個(gè)樣本的標(biāo)注不再是2分類,不僅僅是包含好圖與壞圖的標(biāo)注,而是有了一個(gè)量化的分?jǐn)?shù),比如AVA數(shù)據(jù)集【3】分?jǐn)?shù)的標(biāo)注從1到10。
研究就變成了如何回歸出其標(biāo)注的分?jǐn)?shù),最后給出每張圖片的平均分?jǐn)?shù)。
從應(yīng)用層面上講,主要包括了圖像檢索,自動(dòng)構(gòu)圖,智能濾鏡,甚至是直接創(chuàng)作。
以上,就是通常意義下的photo aesthetics包含的內(nèi)容,核心思想就是學(xué)習(xí)分辨與創(chuàng)作好圖。
2 photo aesthetics的主要研究方法
在說應(yīng)用之前,還是先說說我們的研究手段。
從技術(shù)的突破來說,以深度學(xué)習(xí)為界限,可以從傳統(tǒng)方法和深度學(xué)習(xí)方法來說。不過對(duì)于大多數(shù)問題和應(yīng)用這兩者最大的區(qū)別就是:前者是手動(dòng)設(shè)計(jì)特征,后者是自動(dòng)學(xué)習(xí)特征。
所以,這里不從傳統(tǒng)方法和深度學(xué)習(xí)方法的維度來說,而是從研究問題的演變發(fā)展上說。
(1)?二分類問題。
1說了,最開始的時(shí)候,美學(xué)問題僅僅是被當(dāng)做一個(gè)2分類問題。
早期的數(shù)據(jù)集CUHK【1】,CUHKPQ【2】,都只包含2分類的標(biāo)注,也就是數(shù)據(jù)集中的圖片被人為分為了質(zhì)量高與低的圖。
為了讓數(shù)據(jù)集更可靠,自然是選擇了一些區(qū)分度比較大,也就是不太容易產(chǎn)生歧義的圖片。質(zhì)量好的,通常是大家都認(rèn)為好,質(zhì)量低的以此類推。
如下圖:
(a)是質(zhì)量高的,(b)是質(zhì)量低的,沒有疑問。
【2】可以認(rèn)為是在【1】的基礎(chǔ)上問題的延續(xù),它彌補(bǔ)了【1】中的巨大不足,就是不再對(duì)所有圖片一視同仁,而是不同類型的照片區(qū)分對(duì)待。
將所有的圖總共分為了7類,包括landscape,plant,animal,night,human,static,architecture。
上圖是一個(gè)示例,在研究過程中對(duì)不同的類別,開始采用不同的特征,考慮了圖像的多樣性(diversity)。
這是必須的,因?yàn)閿z影中對(duì)待不同類型的照片,就是必須用不同的表現(xiàn)手法。
比如人像攝影中,尤其是近照,需要控制好光照,使用大光圈。而風(fēng)景照中最需要的是好的構(gòu)圖與豐富的色彩表達(dá)。
2分類問題研究方法的進(jìn)步,就是不斷利用新的深度學(xué)習(xí)模型去提取特征,從alexnet【4】,到googlenet【5】到resnet【6】等的嘗試,以后專題介紹。
(2)?回歸問題。
由于2分類的局限性,自然而然的就演變成了回歸問題。
這個(gè)時(shí)候也就出現(xiàn)了新的供我們使用的數(shù)據(jù)庫(kù),AVA【3】。
這是一個(gè)很大的數(shù)據(jù)庫(kù),包括250000張照片。每一張照片,都有一個(gè)評(píng)分從1~10分。同時(shí)還有語(yǔ)義級(jí)別和照片風(fēng)格的標(biāo)注,以后我們?cè)斦f。
比較新的研究有【7】。相比于2分類問題,其實(shí)回歸問題也沒有太多新的東西,從數(shù)學(xué)上來說,無非就是輸出維度變了,loss function變了。
不過在學(xué)習(xí)具體分?jǐn)?shù)值的過程中,有些研究更進(jìn)一步,預(yù)測(cè)了分?jǐn)?shù)的分布。也就是不僅僅預(yù)測(cè)了圖片的質(zhì)量分?jǐn)?shù),還預(yù)測(cè)了它的分?jǐn)?shù)概率圖,比如【8】。
(3)?相對(duì)美學(xué)問題。
這個(gè)的出發(fā)點(diǎn),是從人的主觀上進(jìn)行考慮。對(duì)于人來說,容易判斷的是一張圖片的相對(duì)好壞,而不是絕對(duì)分?jǐn)?shù)。
同時(shí)又由于更可靠穩(wěn)定的有打分標(biāo)注的數(shù)據(jù)集的獲取成本之高,催生了一些研究。就是在學(xué)習(xí)的過程中,沒有一個(gè)絕對(duì)的分?jǐn)?shù)來指導(dǎo)你。
【8】,【9】都是相關(guān)研究。
從訓(xùn)練上來看,這一般輸入的訓(xùn)練是多個(gè)圖像,可能是兩個(gè)圖像,也可能是多個(gè)圖像,一起丟進(jìn)網(wǎng)絡(luò)去學(xué)習(xí)哪一個(gè)更好。
下面是一個(gè)結(jié)果展示,右邊的比左邊的質(zhì)量高。相對(duì)美學(xué),在圖像檢索和圖像增強(qiáng)中是有很大的作用的。
相對(duì)美學(xué),是一個(gè)很值得研究的問題。
(4)?多任務(wù)學(xué)習(xí)問題
最簡(jiǎn)單粗暴的方法,就是不管是什么圖像,都直接提特征,分類也好,回歸也好。但是,顯然這是不可能很好的解決問題的。
攝影美學(xué)是講究因材施教的,不同類型的圖像,審美標(biāo)準(zhǔn)完全不同。
那么,直接對(duì)所有的圖片,采用同樣的方法學(xué)習(xí),是不通,所以就有方法,或利用圖像style,semantic信息進(jìn)行弱監(jiān)督,或直接將style和score,semantic一起學(xué)習(xí)【10】。
至于怎么做,按住不表,下回再論。
3 Photo aesthetics應(yīng)用
總的來說,包含以下幾個(gè)大方向;
(1)?圖像檢索
我們?cè)谒阉饕嬷兴阉鲌D片時(shí),自然是希望能夠盡量返回質(zhì)量高的圖,恨不得是高清原圖。
但是目前的搜索引擎并不能做到。
因?yàn)?#xff0c;目前的都是基于tag做的檢索,而不是圖像本身的質(zhì)量。
下面就在百度中搜了一個(gè)學(xué)校美照,出來的效果不怎么樣。
學(xué)校沒得到體現(xiàn),人像很多也是普普通通的大頭照,從攝影師的角度來看,真的很一般。
當(dāng)然,你也可以去搜索更多的關(guān)鍵詞,反正我在使用過程中常常不滿意。Google圖片質(zhì)量比百度高,但是也還有很大的發(fā)展空間。
?
(2)?圖像自動(dòng)構(gòu)圖
自動(dòng)裁剪這個(gè),自打用上iphone起,它的照片管理工具就自帶這個(gè)功能了,但是其他好用的app,我還沒有發(fā)現(xiàn)。
這是個(gè)什么問題,專業(yè)點(diǎn)的說法,就是攝影構(gòu)圖。
它做的就是去除不必要的元素,合理安排畫面中的元素分布。
每一個(gè)攝影師拍完照做后期時(shí),第一步肯定就是做圖像裁剪。
就算是最后沒有裁剪,第一步也會(huì)看是不是需要裁剪!
為什么。因?yàn)槟闩恼盏臅r(shí)候,很多時(shí)候來不及細(xì)細(xì)的去構(gòu)圖,
只有在后期認(rèn)真想的時(shí)候,
才會(huì)去精細(xì)地調(diào)整。
據(jù)我體驗(yàn),目前iphone照片管理軟件的自動(dòng)裁剪功能,主要還是對(duì)人像管用,下面給大家看個(gè)例子就知道了。
干脆把兩張前后對(duì)比圖拿過來大家瞧瞧,想想為什么要這么裁剪?
自動(dòng)裁剪前
? 自動(dòng)裁剪后
可以看出,去除了更多的干擾,使畫面更加平衡與和諧。
關(guān)于更多的構(gòu)圖攝影知識(shí),請(qǐng)關(guān)注我另一個(gè)攝影公眾號(hào)《言有三工作室》,里面有大量的教程可以學(xué)習(xí)體驗(yàn)。
至于構(gòu)圖的一些研究,可以參考【11】【12】,下回說細(xì)節(jié)。
(3)?自適應(yīng)濾鏡
現(xiàn)在就沒有一個(gè)app能夠自動(dòng)推薦濾鏡,后期很多的時(shí)候是很繁瑣的。
對(duì)于菜鳥來說,只能去各種嘗試已有的濾鏡。
對(duì)于高手來說,需要很多時(shí)間來積累經(jīng)驗(yàn),也需要時(shí)間去選擇更好的方案。
費(fèi)時(shí)費(fèi)力,還不一定能達(dá)到最好的效果,所以,我們其實(shí)都很期待出現(xiàn)一個(gè)app,
能夠自動(dòng)幫我們選擇一個(gè)好的風(fēng)格濾鏡。
可惜,現(xiàn)在比較優(yōu)秀的后期app,如snapseed,潑辣修圖,也僅僅是能夠?qū)D像的對(duì)比度,亮度等自適應(yīng)地做些調(diào)整。
關(guān)于現(xiàn)有的發(fā)展,更詳細(xì)的介紹,在我的攝影公眾號(hào)《言有三工作室》的文章
Apple和Google他們?yōu)樾“讉兊男迗D大業(yè)做了什么?中有詳細(xì)的說明,大家有興趣可以自行前往閱讀。
現(xiàn)在比較好的研究,也有一些。
像名字取得比較嚇人的【13】,號(hào)稱end-to-end可以把手機(jī)照片提升至單反畫質(zhì),不過實(shí)際效果看來,主要是減少了陰影,總體上學(xué)習(xí)到了使圖像變得更加通透。缺點(diǎn)是對(duì)比度經(jīng)常放的太高,同時(shí)因?yàn)椴捎昧薌AN,放大了噪聲。
這種事當(dāng)然不能少了湯曉鷗他們團(tuán)隊(duì),EnhanceGAN算是很新的應(yīng)用了【14】,也成功地學(xué)習(xí)到了顏色,對(duì)比度等調(diào)整方法,不是end-to-end的方法,而是image-crop與enhancement交叉訓(xùn)練。
最大的優(yōu)點(diǎn)是不需要成對(duì)的標(biāo)注圖像了(這是通過gan,和一批有著2分類標(biāo)簽的高質(zhì)量圖和低質(zhì)量圖來實(shí)現(xiàn)的)。
早期的方法【15】是需要成對(duì)的標(biāo)注圖像,成本太高,所以數(shù)據(jù)集不可能很大。以后不需要成對(duì)圖像做訓(xùn)練的方法,必將成為主流。
(4)?風(fēng)格化
這個(gè),其實(shí)已經(jīng)踏進(jìn)藝術(shù)的創(chuàng)作,而不僅僅是攝影的范疇了。
行內(nèi)人士可能還記得《image style transfer using convolutional neural networks》【16】這篇文章,后來催生了prisma,當(dāng)時(shí)那個(gè)很火的濾鏡。
整個(gè)的流程就如同下面這樣,一張?jiān)瓐D,一個(gè)風(fēng)格,最后做融合。
不過,沒過多久,就退燒了。畢竟,那樣玩圖太“高級(jí)”,不是大眾剛需,也就沒見人玩了。
但是,并不是說他就不重要的了。
像pixtopix【17】這樣的文章出來之后,風(fēng)格化仍然有很大的市場(chǎng)。
比如黑白圖像上色,比如圖像風(fēng)格轉(zhuǎn)化(夏天冬天風(fēng)格轉(zhuǎn)化)【18】,甚至做得極端點(diǎn),cycle-gan【19】這樣的,不需要成對(duì)地標(biāo)注,把斑馬和馬相互轉(zhuǎn)換的有意思的研究。
未來,還大有可為!
4 Photo aesthetics焦點(diǎn)問題
難點(diǎn)?
(1)?怎么利用數(shù)學(xué)的方法去建模內(nèi)部的美學(xué)規(guī)則。
(2)?怎樣自適應(yīng)調(diào)整不同的圖片之間的美學(xué)差異。
(3)?如何準(zhǔn)確判斷一張圖采用的技術(shù)。
(4)?怎樣獲取一個(gè)標(biāo)注詳細(xì)的大數(shù)據(jù)庫(kù)。
熱點(diǎn)
(1)?網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)相關(guān)問題,如多尺度多patch。
(2)?圖片風(fēng)格,語(yǔ)義信息的應(yīng)用。
(3)?怎么自動(dòng)獲取數(shù)據(jù)的標(biāo)注。
(4)?最新技術(shù)在其中的應(yīng)用,GAN。
?
這一次,只是一個(gè)入門介紹,后續(xù),敬請(qǐng)期待!
?
作者簡(jiǎn)介:
言有三,原360AI研究院工程師,一個(gè)攝影愛好者。
想了解更多的細(xì)節(jié),就來我計(jì)算機(jī)視覺公眾號(hào)《視若觀火》,以及攝影公眾號(hào)《言有三工作室》吧
當(dāng)然,攝影平臺(tái)500px和圖蟲,更是天天更新噢。
另外,邀請(qǐng)你來我10天后的gitchat活動(dòng)一起討論學(xué)習(xí)。
http://gitbook.cn/m/mazi/activity/5a10fa46a625c025b1800fc3?giftToken=a8c65830-ccd9-11e7-a69c-c935a9531f2d&sut=844a9360d28611e79254eb304c8a2a1e
如果有土豪覺得文章OK,想打個(gè)賞,那就樂呵呵接受了!
【1】Y. Ke, X. Tang, and F. Jing. The design of high-level features for photo quality assessment. In CVPR, 2006. 1, 3, 6
【2】 W. Luo, X. Wang, and X. Tang. Content-based photo quality assessment. In ICCV, 2011. 1, 3, 6, 7
【3】Perronnin F, Marchesotti L, Murray N. AVA: A large-scale database for aesthetic visual analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2408-2415.
【4】Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):2021-2034.
【5】Jin X, Wu L, He Z, et al. Efficient Deep Aesthetic Image Classification using Connected Local and Global Features[J]. 2017:1-6.
【6】Murray N, Gordo A. A deep architecture for unified aesthetic prediction[J]. 2017.
【7】Malu G, Bapi R S, Indurkhya B. Learning Photography Aesthetics with Deep CNNs[J]. 2017.
【8】PKong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. 2016:662-679.
【9】Chandakkar P S, Gattupalli V, Li B. A Computational Approach to Relative Aesthetics[J]. 2017.
【10】 Kao Y, He R, Huang K. Deep Aesthetic Quality Assessment with Semantic Information[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2017, 26(3):1482.
【11】Chen Y L, Huang T W, Chang K H, et al. Quantitative Analysis of Automatic Image Cropping Algorithms: A Dataset and Comparative Study[J]. 2017:226-234.
【12】Wang W, Shen J. Deep Cropping via Attention Box Prediction and Aesthetics Assessment[J]. 2017.
【13】Ignatov A, Kobyshev N, Timofte R, et al. DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks[J]. 2017.
【14】Deng Y, Chen C L, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. 2017.
【15】Yan Z, Zhang H, Paris S, et al. Automatic Photo Adjustment Using Deep Neural Networks[J]. Acm Transactions on Graphics, 2016, 35(2):11.
【16】Gatys L A, Ecker A S, Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]// Computer Vision and Pattern Recognition. IEEE, 2016:2414-2423.
【17】Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[J]. 2016.
【18】Luan F, Paris S, Shechtman E, et al. Deep Photo Style Transfer[J]. 2017.
【19】Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks[J]. 2017.
總結(jié)
以上是生活随笔為你收集整理的一文说说这十多年来计算机玩摄影的历史的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为了压榨CNN模型,这几年大家都干了什么
- 下一篇: 传统方法怎么玩计算机审美