极市电大 | 京东AI时尚挑战赛Top3技术方案
一、京東AI時尚挑戰(zhàn)賽Top3﹀
北京時間2018年9月16日,由京東AI平臺與研究部發(fā)起的從七月開始的京東AI時尚挑戰(zhàn)賽正式在ChinaMM2018大會上圓滿落幕!
大會現(xiàn)場
而經(jīng)過兩個多月的角逐,由極市與電子科技大學(xué)開發(fā)者組成的團隊extreme-WJLD成功奪得時尚風(fēng)格識別賽道top3,并受邀到大會上做了競賽相關(guān)的報告!
極市與電子科技大學(xué)團隊受邀頒獎?wù)?#xff0c;撒花~??ヽ(°▽°)ノ?
二、團隊競賽技術(shù)方案詳解﹀
摘要
京東AI Fashion-Challenge競賽子任務(wù)時尚風(fēng)格識別旨在通過衣物的宏觀搭配以及局部的設(shè)計細節(jié)識別出衣物的風(fēng)格。與之前阿里舉辦的Fashion AI比賽類似,衣物風(fēng)格識別面臨許多的問題,如姿勢,光照以及相同風(fēng)格間的外觀差異。我們主要通過以下幾個方面改善識別性能:數(shù)據(jù)增強、遷移學(xué)習(xí)、模型融合以及風(fēng)格間的相關(guān)性。盡管方法看上去直觀簡單,但我們的方法仍舊以0.6524的F2-score居于排行榜第三位,取得了令人滿意的性能。
**1引言** 視覺時尚風(fēng)格識別近年來因其在研究領(lǐng)域和商業(yè)領(lǐng)域的廣泛應(yīng)用而受到越來越多的關(guān)注。 廣泛的研究工作致力于服裝分類([1]-[3]),屬性預(yù)測([4],[5])和服裝項目檢索([6],[7])。 這是一項具有挑戰(zhàn)性的任務(wù),因為服裝項目之間的差異很大,例如姿勢,光線,比例和外觀的變化。 為了減少這些變化,現(xiàn)有的工作通過尋找信息區(qū)域(例如服裝邊界框,語義局部[8]或人體關(guān)節(jié)[9])來解決這些問題。 但是,在實際情況下很難獲得這些額外的標簽。
挑戰(zhàn)賽的目標是引導(dǎo)計算機自動識別衣服的時尚風(fēng)格類別。公布的數(shù)據(jù)集包含54908個用于訓(xùn)練和驗證的圖像,以及10000個用于最終測試的圖像。數(shù)據(jù)集由時尚專業(yè)人士標記。每個圖像都標有13個二進制標簽(屬于類別或不屬于),每個圖像屬于至少1種風(fēng)格。表1中列出了13個樣式類及其相應(yīng)的索引。
表1. JD AIFashion數(shù)據(jù)集風(fēng)格匯總
我們還對圖1中的類分布進行了統(tǒng)計匯總。正如我們所看到的,數(shù)據(jù)分布嚴重不平衡。例如,運動風(fēng)格的比例(索引1)為0.189%。另一方面,一些風(fēng)格是密切相關(guān)的,而一些風(fēng)格是反向相關(guān)的。這些樣式的條件概率如圖2所示??梢钥闯?#xff0c;某些類密切相關(guān)(例如,第1類和第2類),而某些類(第4類,第5類,第6類和第7類)從不一起出現(xiàn)。因此,類別不平衡是我們必須關(guān)注的巨大挑戰(zhàn),而我們的模型設(shè)計主要是圍繞上述問題以避免過擬合。
由于深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類方面取得了巨大的成功[10],我們的方法也是基于這一進展。 為了應(yīng)對這一挑戰(zhàn),我們的解決方案主要應(yīng)用了以下技巧:數(shù)據(jù)增強,遷移學(xué)習(xí)和風(fēng)格關(guān)系建模??偟膩碚f,我們在測試集上取得了0.6524(F2-score),在排行榜上獲得了第3名。
圖1. 訓(xùn)練集和驗證集的數(shù)據(jù)分布
**2公布的方法** 對于風(fēng)格識別任務(wù),我們考慮了以下四個方面:數(shù)據(jù)增強,網(wǎng)絡(luò)結(jié)構(gòu),遷移學(xué)習(xí),代價敏感的學(xué)習(xí)和風(fēng)格關(guān)系。
A.數(shù)據(jù)增強
(1)訓(xùn)練集重新采樣
為避免過擬合,我們對訓(xùn)練集進行了重新采樣,以確保每個訓(xùn)練批次包含合適數(shù)量的正樣本。此外,我們對第1、2、4、7、8、10、11、12、13類的負樣本進行了欠采樣,并保持第3、5、6、9類的原始比例。這項行動的核心思想是努力在改善正負樣本的比例和維持原始數(shù)據(jù)分布之間取得平衡。
(2)隨機擦除[11]
這是用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)增強方法。在訓(xùn)練過程中,我們在圖像中隨機選擇一個矩形區(qū)域,并用隨機值擦除其像素。因此,它將生成具有不同程度遮擋的訓(xùn)練樣本,這可以降低過擬合的風(fēng)險。
(3)隨機旋轉(zhuǎn)和隨機裁剪
由于服裝圖像包含不同的姿勢和比例,我們以±15°之間的角度隨機旋轉(zhuǎn)訓(xùn)練圖像,并隨機裁剪圖像作為輸入,以使模型對姿勢和比例更具魯棒性。
如果沒有明確說明,下面的所有實驗都默認基于數(shù)據(jù)增強。
B.網(wǎng)絡(luò)結(jié)構(gòu)
我們使用幾種最先進的網(wǎng)絡(luò)架構(gòu)進行了實驗,例如Resnet50 [12],Densenet121 [13]和Inception v4 [14]。 在數(shù)據(jù)增強處理之后,我們單獨訓(xùn)練這些模型。 表2列出了不同網(wǎng)絡(luò)架構(gòu)的實驗結(jié)果(在驗證數(shù)據(jù)集上)。 我們可以看到,Resnet50在運動和日系方面取得了更好的成績,而Densenet121在少女,朋克和休閑方面表現(xiàn)更好。此外,Inception-v4的性能可以達到大多數(shù)類的中等水平。 此外,由于互補學(xué)習(xí),模型融合可以進一步將性能提高到新的差距。
表2. 不同網(wǎng)絡(luò)結(jié)構(gòu)在不同類別上的性能
**C.遷移學(xué)習(xí)**
DeepFashion包含超過80萬種不同的時尚圖像,從精美的商店圖像到無約束的消費者照片。此數(shù)據(jù)集中的每個圖像都標有50個類別,1000個描述屬性,邊界框和服裝標記。我們的預(yù)訓(xùn)練任務(wù)集中在對50種衣服屬性進行分類。為了獲得更好的預(yù)訓(xùn)練模型,我們清理了數(shù)據(jù)集并選擇了20個具有更平衡數(shù)據(jù)分布的屬性。實驗結(jié)果如表3所示。
表3. 遷移學(xué)習(xí)在不同類別上的性能
從結(jié)果可以看出,第1、2、4、7、8、10、11、12、13類從遷移學(xué)習(xí)中受益匪淺。另一方面,DeepFashion的預(yù)訓(xùn)練在第3類,第5類,第6類和第9類中效果就沒有那么的好,因為他們已經(jīng)有足夠的正例圖像。 此外,為了更好地利用風(fēng)格關(guān)系,我們還從相關(guān)模型初始化權(quán)重。詳細地,我們使用類2初始化類1的權(quán)重,并使用類8初始化類4的權(quán)重。
D.代價敏感的學(xué)習(xí)
由于我們的評估標準是F2分數(shù)(召回率比精確度更重要),因此F2分數(shù)的正樣本錯誤分類和負樣本錯誤分類的代價差別很大。為了最大化F2分數(shù),我們采用了代價敏感學(xué)習(xí)[16]進行數(shù)據(jù)挖掘。代價敏感型學(xué)習(xí)是數(shù)據(jù)挖掘中的一種學(xué)習(xí)方法,它將錯誤分類代價考慮在內(nèi)。 代價敏感學(xué)習(xí)的目標是最小化總代價。具體而言,它以不同的方式處理不同的錯誤分類。我們增加了假陰性的代價懲罰,同時保持假陽性不變。因此,成本函數(shù)傾向于優(yōu)化召回率而不是精確度。在我們的實驗中,我們只對第1、4、7、8、11、12、13類應(yīng)用代價敏感學(xué)習(xí)。對于假陰性,懲罰權(quán)重設(shè)定為1:5。
E.風(fēng)格關(guān)系
如圖2所示,服裝款式密切相關(guān)或反向相關(guān)。例如,當圖像屬于第3類風(fēng)格(Office lady)時,它可能屬于第9類(Lady),概率為99%。此外,一些風(fēng)格從未出現(xiàn)過(日系和韓系)。 很明顯,風(fēng)格關(guān)系包含豐富的信息。
圖2. 當風(fēng)格B發(fā)生時風(fēng)格A的條件概率圖
我們嘗試訓(xùn)練多標簽分類網(wǎng)絡(luò),在所有樣式中共享最低層,共享相關(guān)樣式的較高層。但是,最終F2分數(shù)的貢獻可以忽略不計。其原因在于多標簽分類網(wǎng)絡(luò)無法實現(xiàn)數(shù)據(jù)的重采樣。因此,我們用式(1)分析了給定標簽的條件概率。
F.部署細節(jié)
我們采用交叉驗證方法來評估單個模型和融合結(jié)果。具體來說,我們分割了43926張用于訓(xùn)練的圖像和10981張用于驗證的圖像。如式(3)所示,通過F2-score評估提交結(jié)果。
所有的訓(xùn)練和驗證過程均在單張Nvidia 1080 Ti GPU上進行。訓(xùn)練批次大小盡量設(shè)置為GPU內(nèi)存所能容納的大小。首先我們對Deepfashion數(shù)據(jù)集進行清洗然后在其上訓(xùn)練基礎(chǔ)模型。然后我們對數(shù)據(jù)集進行重新采樣,并使用數(shù)據(jù)增強和代價敏感的學(xué)習(xí)策略對預(yù)訓(xùn)練好的模型進行了微調(diào)。
對于驗證過程,我們?nèi)诤夏P秃捅闅v搜索決策閾值。由于我們單獨處理每個類,13個預(yù)測可能有一些明顯的邏輯錯誤(例如,不可能存在所有的負面或所有正面。因為根據(jù)訓(xùn)練數(shù)據(jù)集的統(tǒng)計,每個圖像屬于至少1種樣式,最多5種樣式)。因此,對于后期處理,我們應(yīng)用風(fēng)格關(guān)系來進一步改進預(yù)測。這些步驟的平均F2-score顯示在表4中。我們可以看到,所有步驟在最終結(jié)果中都發(fā)揮著不可或缺的作用。
表4. 本文闡述方法的平均F2-score結(jié)果
**總結(jié)** 我們的方法從數(shù)據(jù)增強,網(wǎng)絡(luò)結(jié)構(gòu),遷移學(xué)習(xí)和代價敏感的學(xué)習(xí)等方面解決了這個問題。此外,我們調(diào)查了后期處理的風(fēng)格關(guān)系。通過上述提出的方法,我們在測試集上獲得了0.6524的F2-score,這是排行榜的第3位。
三、視覺競賽團隊合作參賽以及更多﹀
看了團隊的技術(shù)方案
你是否也想…
競賽極市獎金兩手抓
數(shù)據(jù)時間隨時查
個人品牌專訪打造
算法直接對接項目需求
…
極市平臺滿足你所想~
不包括奇奇怪怪的想法(劃掉
作為國內(nèi)首家視覺算法開發(fā)和分發(fā)平臺,極市不僅想要幫助開發(fā)者算法零成本變現(xiàn),同時也致力于讓開發(fā)者個人的價值得到更大發(fā)揮,與開發(fā)者一起打造一個專業(yè)性的開源性的視覺開發(fā)者社區(qū),而比賽合作是我們開發(fā)者計劃中的一環(huán)。
如果你也希望與我們合作參賽,或者有意向為打造視覺算法開發(fā)者社區(qū)和極市共同努力,歡迎聯(lián)系我們~
合作聯(lián)系
極市小助手微信(Extreme-Vision)
總結(jié)
以上是生活随笔為你收集整理的极市电大 | 京东AI时尚挑战赛Top3技术方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 极市分享|第32期 张德兵小美:分布式人
- 下一篇: AI 趋势