经过 8 万画作+人工注释训练,算法学会了赏析名画
關(guān)鍵詞:視覺藝術(shù) 圖像理解 ArtEmis 數(shù)據(jù)集
[ 導(dǎo)讀?]藝術(shù)作品往往寄托著作者內(nèi)心的情感,人們欣賞一支樂曲、一幅畫作,也會產(chǎn)生情感共鳴。計算機(jī)又能否理解藝術(shù)畫作中的情感?斯坦福大學(xué)的研究團(tuán)隊正在開發(fā)這一算法。
列夫·托爾斯泰說過:「藝術(shù)是一種人類活動,一個人通過某種外在符號,有意識地把自己經(jīng)歷過的感受傳達(dá)給別人,而別人也會被這些感受所感染,真切地體驗到這些感受。」
以藝術(shù)畫作為例,每一幅作品的背后,都蘊(yùn)藏著畫家的某種情感。梵高、畢加索等著名畫家,都曾在不同創(chuàng)作時期,通過不同色彩、構(gòu)圖等,表達(dá)自己當(dāng)時所特有的心境與情緒。
梵高的《向日葵》與畢加索的《老吉他手》
計算機(jī)能否理解這些藝術(shù)畫作中所蘊(yùn)含的感情色彩呢?斯坦福大學(xué)的計算機(jī)科學(xué)研究團(tuán)隊,收集了一個名為 ArtEmis 的新數(shù)據(jù)集,包含大量的藝術(shù)畫作及人工標(biāo)注的相應(yīng)情感體驗,并訓(xùn)練出能夠?qū)σ曈X藝術(shù)產(chǎn)生情感反應(yīng)的計算機(jī)模型。
理解畫作,從情感標(biāo)記數(shù)據(jù)集開始
WikiArt:線上名畫博物館?
非營利性的志愿項目 WikiArt,自 2010 年上線至今,收錄了來自世界各地的視覺藝術(shù)作品,堪稱大型線上名畫博物館。
據(jù)該網(wǎng)站數(shù)據(jù)顯示,截至 2020 年 1 月,該網(wǎng)站共收錄來自 3293 位藝術(shù)家的 169057 件畫作,包括 61 個流派。
WikiArt 主頁展示,作品可按流派、風(fēng)格、
或藝術(shù)家國籍、所處年代等分類檢索
WikiArt 上面畫作數(shù)量龐大、分類清晰,因此也成為許多 AI 領(lǐng)域研究者用來訓(xùn)練算法的數(shù)據(jù)集。
2015 年,羅格斯大學(xué)與 Facebook AI 實驗室的研究人員,合作開發(fā)了 GAN(生成對抗網(wǎng)絡(luò)),就在 WikiArt 數(shù)據(jù)上對其進(jìn)行了訓(xùn)練,讓 GAN 能夠區(qū)分不同風(fēng)格的藝術(shù)。
ArtEmis:誕生于 WikiArt 的新數(shù)據(jù)集?
斯坦福大學(xué)團(tuán)隊則基于 WikiArt 上的作品,創(chuàng)建了一個新的視覺藝術(shù)標(biāo)注數(shù)據(jù)集 ArtEmis。
他們對 WikiArt 上 1119 位藝術(shù)家的 81446 件藝術(shù)作品,一一進(jìn)行了標(biāo)注。這些作品包括從 15 世紀(jì)創(chuàng)作的藝術(shù)作品,到 21 世紀(jì)創(chuàng)作的現(xiàn)代美術(shù)畫,涵蓋了 27 種藝術(shù)風(fēng)格(抽象、巴洛克、立體主義、印象主義等)和 45 種流派(城市景觀、風(fēng)景、肖像、靜物等),給觀眾帶來非常多樣化的視覺沖擊。
其中,每個作品要求至少 5 個標(biāo)注者,寫出他們看到這幅畫作時的主導(dǎo)情緒,并解釋產(chǎn)生這種情緒的原因。
具體來說,要求標(biāo)注者在觀察一件藝術(shù)品后,先從 8 種基本情緒狀態(tài)(憤怒、厭惡、恐懼、悲傷、娛樂、敬畏、滿足和興奮)中,選一種自己所感受到的主要情緒,如果以上 8 種情緒都不是,也可以標(biāo)注「其它」。
標(biāo)注了情緒感受之后,標(biāo)注者需要再用文字,進(jìn)一步解釋自己為什么產(chǎn)生這種感覺,或者為什么沒有任何強(qiáng)烈的情緒反應(yīng)。
以下為人工標(biāo)注者為畫作標(biāo)注的情感標(biāo)簽,以及詳細(xì)解釋:
這份標(biāo)注工作最終由亞馬遜眾包平臺的 6377 名標(biāo)注者完成,總共耗時 10220 個小時。
團(tuán)隊表示,與其他現(xiàn)有同類數(shù)據(jù)集相比,ArtEmis 的標(biāo)注使用了更加豐富、感性且多樣化的語言,這些標(biāo)注形成的語料庫,共包含了 36347 個不同的詞語。
ArtEmis 數(shù)據(jù)集
視覺藝術(shù)的情感標(biāo)記數(shù)據(jù)集
發(fā)布機(jī)構(gòu):斯坦福大學(xué),巴黎綜合理工學(xué)院以及阿卜杜拉國王科技大學(xué)
包含數(shù)量:共 439121?條畫作標(biāo)注
數(shù)據(jù)格式:csv
數(shù)據(jù)大小:21.8?MB
地址:https://hyper.ai/datasets/14861
一個可感知情感的算法,是怎樣煉成的
為了讓計算機(jī)也能夠像人類一樣,對視覺藝術(shù)產(chǎn)生情感反應(yīng),并用語言證明產(chǎn)生這些情感的原因,團(tuán)隊基于這一大規(guī)模數(shù)據(jù)集,訓(xùn)練了一個 Neural Speaker(神經(jīng)表達(dá)者)。
斯坦福大學(xué) HAI 學(xué)院的教授 Guibas 表示,這是計算機(jī)視覺領(lǐng)域中一項新的探索。此前經(jīng)典的計算機(jī)視覺方法,往往是指出圖像中有哪些內(nèi)容,比如:有三只狗;有人正在喝咖啡……而他們的這項工作,則是定義視覺藝術(shù)中的情感。
經(jīng)過 ArtEmis 數(shù)據(jù)集訓(xùn)練之后,算法識別出不同的畫作中蘊(yùn)含的情感,并自動生成了這樣判斷的依據(jù),示例結(jié)果如下:
論文中介紹了具體訓(xùn)練思路。首先,用 ArtEmis 來訓(xùn)練模型,實現(xiàn)藝術(shù)畫作的情感解釋問題。這屬于經(jīng)典的 9 路文本分類問題,團(tuán)隊使用基于交叉熵的優(yōu)化,應(yīng)用于從頭開始訓(xùn)練的 LSTM 文本分類器,同時也考慮對為這個任務(wù)預(yù)訓(xùn)練的 BERT 模型進(jìn)行微調(diào)。
另外,讓計算機(jī)對人類通常會對作品產(chǎn)生的情緒反應(yīng)進(jìn)行預(yù)測。
為了解決這個問題,團(tuán)隊將輸出和 ArtEmis 用戶標(biāo)注之間的 KL-分歧最小化,以此對基于 ImageNet 的預(yù)訓(xùn)練 ResNet32 編碼器進(jìn)行微調(diào)。
對于給定的一幅畫作,分類器先判斷其傳達(dá)的情感是積極還是消極,再進(jìn)一步判斷具體是哪種情感。
團(tuán)隊介紹,對于一幅畫作,算法不僅能夠感知整體的情感色彩,還能區(qū)分畫中不同人物的感情。以這幅倫勃朗的《被斬首的圣施洗者約翰》為例,AI 算法不僅捕捉到了被斬首的約翰的痛苦,還感知到了畫中被獻(xiàn)首的女性莎樂美的「滿足」。
算法對《被斬首的圣施洗者約翰》生成的情感標(biāo)注
當(dāng)算法擁有了共情能力
人類的情感非常豐富且復(fù)雜微妙,即使是我們?nèi)祟愖约?#xff0c;也并不能百分之百理解某些藝術(shù)家想要表達(dá)的心情,所以,要讓 AI 精準(zhǔn)地理解藝術(shù)家的意圖,目前必然還存在一定挑戰(zhàn)。
不過,此次 ArtEmis 數(shù)據(jù)集的發(fā)布,已經(jīng)讓 AI 在處理圖像情感屬性方面,邁出了第一步。
團(tuán)隊表示,待進(jìn)一步研究與改進(jìn)之后,算法或許能夠感知人類的悲歡,藝術(shù)家便可借助算法,評估自己的作品是否能達(dá)到預(yù)期的情感表達(dá)效果。另外,一旦算法能通人性,人機(jī)交互的過程也將更加自然、和諧。
新聞來源:
https://techxplore.com/news/2021-03-artist-intent-ai-emotions-visual.html
數(shù)據(jù)集論文:
https://arxiv.org/pdf/2101.07396.pdf
項目主頁:
https://www.artemisdataset.org/#videos
編輯:黃繼彥
校對:林亦霖
總結(jié)
以上是生活随笔為你收集整理的经过 8 万画作+人工注释训练,算法学会了赏析名画的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UVa - 11988 Broken K
- 下一篇: 网站中毒