日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

为AI摄影铺路,第一个大规模的美学质量数据库

發布時間:2025/3/20 数据库 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 为AI摄影铺路,第一个大规模的美学质量数据库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

編輯:Acci.br

?? ? 不知道你有沒有讀過筆者之前發過的一篇文章,干掉柯潔的下一步,阿爾法狗創始人又要毀掉這個行業(深度學習),以及昨天的綜述,一文說說這十多年來計算機玩攝影的歷史

????AI的確對攝影的方方面面帶來了很大的沖擊,那么,當深度學習沒有起來之前,計算機又是怎么玩攝影的呢?

????從今天起,我們會分享一段時間的計算機美學方面的研究。所謂計算機美學,直白點就是給圖片打個分,告訴你這是張高質量圖片還是低質量圖片。當然不直白點說,咱們就慢慢來吧。

????今天,也是這個系列的第一篇,我們先從AVA美學質量評估數據庫說起。因為數據是機器學習里最重要的東西,所以也算是合情合理。

1?AVA Dataset【1】是什么?

????這是一個美學質量評估的數據庫,包括250000張照片。每一張照片,都有一系列的評分,以及語義級別的label,其中語義級別的label共60類,同時還有photographic style,也就是照片的風格,有14類,文后詳說。

????一句話總結:在規模,多樣性和標注的一致性上,都不是以往的數據庫可以比擬的。在文章后面作者們還舉了3個應用的例子,強調了該數據庫的意義。

2 AVA Dataset都做了什么標注?

2.1 Aesthetic annotations

????顧名思義,美學質量標注。每一張圖,都有若干人來投票,投票的數量從78~549。大概每一張圖,有210個投票。投票的分數,從0~9,分值越高,說明圖片質量越高。

????并且,標注者中不止包括了專業的圖像工作者,攝影師,也包括了攝影愛好者,這樣顯得更有普適性。

2.2 Semantic annotations

????什么是語義標注呢?顧名思義,就是圖像中到底包含了什么內容。具體來說,這個數據集包含了66個textual tags。大概有200000張圖只包含一個tags,150000張圖包含2個tags。

????哪些tags最多呢?作者們也作出了一個統計。

????從中可以看出,這些tags都不在一個維度的。

????怎么說呢,有的是描述圖像的內容,比如water,architecture,有的是描述圖像的風格,比如black and white。

2.3 Photographic style annotations

????好了,這個是比較難理解的一個部分 。為什么呢?因為真正的涉及到攝影美學了。從3大方向開始描述:

????light, colour, composition。

????最終得到了14個屬性:

????下面列出了所有屬性,以及包含該屬性的圖片數量。

????Complementary Colors (949), Duotones (1,301), High Dynamic Range (396), Image Grain (840), Light on White (1,199), Long Exposure (845), Macro (1,698), Motion Blur (609), Negative Image (959), Rule of Thirds (1,031), Shallow DOF (710), Silhouettes (1,389), Soft Focus (1,479), Vanishing Point (674).

????就不翻譯了,大家可以先對著去看中文。

????如果對攝影相關的術語還不太懂,可以去我的攝影公眾號《言有三工作室》去學習。

????反正也不用著急,因為我們會慢慢道來。

3 AVA Dataset靠不靠譜?

????AVA不是第一個美學質量數據庫,也不是最后一個,但是仍然是最大的美學數據集

????下面是AVA與其他的數據集做的比較:

????其中,現在看來很多的維度都非常重要。

????比如,當全局的美學平均分不夠用時,AVA也提供了一個分布,而且每張圖的標注數量很大,有偏性就很小了。

????另外,Semantic 和 style label現在甚至都可以單獨當作一個問題來研究的。

????不過,由于美學是一個很主觀的東西,雖然每一張圖都有人投票,但是評分到底靠不靠譜,個體差異會不會很大呢?

????作者做了分數分布統計,如下:

????(1)?? 首先,分數的極端,也就是0和9分的占比。2~8分占超過99.77%的量,所以0和9的比例非常低,不必擔心評分過于離譜。

????(2)?? 再看各個區間,如下圖。

????可知,對于分值接近于5的,分布是很明顯的高斯,這說明投票比較一致。而對于分值很高或者很低的,也分別在兩側有很陡的表現。綜合表現說明,所有投票基本是達到一致結論的。

????從下面方差圖可以看出,越是分值接近于0.5的,越是方差小,說明越是穩定。

????關于這個方差,作者也舉例說明了:

?????如上圖,都是在5分左右的圖。上面一組圖的方差小,這說明大家比較能達成一致,認為是5分左右,也就是一般般的圖,不好不壞。但是下面的方差大,這說明有些人認為很好,有些人認為很差。

????這種情況,通常出現在比較抽象的圖。

????綜上,AVA dataset很靠譜。

4 應用

4.1 Large-Scale aesthetic quality categorization

????應用于圖像質量評估。

????作者實驗表明,隨著數據庫量級的增大和訓練圖像質量的增加,原來的各種方法都能在原有基礎上得到提升。

4.2 Content-based aesthetic categorization

????基于內容的圖像質量聚類。作者取了最多的8個類別,訓練了3個分類器:

????(1) 訓練了8個獨立的SVM二分類器。

????(2) 從這些類別中隨機取了同樣數量的圖訓練了1個分類器。

????(3) 從AVA中隨機選了10倍于(1),(2)中圖像數量的圖做了訓練。

????結果表明,第(1)個分類器效果好于第(2)個,而第(3)個又好于第(1)個,所以,可見越大的數據集,是有效的。

4.3 style categorization

????作者訓練了14個分類器,然后觀察結果表明,對于”duotones”,“complementary colors”,“light on white”等,顏色直方圖是最好的特征。而對于,“shallow depth of field”,“vanishing point”,SIFI和LBP是最好的特征。這些表明,對于不同style的照片,需要不同的特征來描述,所以style的標注是非常有意義的。

[1] AVA: A Large-Scale Database for Aesthetic Visual Analysis

言有三,原360AI研究院工程師,一個攝影愛好者。

想了解更多的細節就來我計算機視覺公眾號《視若觀火》,以及攝影公眾號《言有三工作室》吧

當然,攝影平臺500px和圖蟲,更是天天更新噢。

另外,邀請你來我10天后的gitchat活動一起討論學習

如果有土豪覺得文章OK,想打個賞,那就樂呵呵接受了!


總結

以上是生活随笔為你收集整理的为AI摄影铺路,第一个大规模的美学质量数据库的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。