當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

极市电大 | 京东AI时尚挑战赛Top3技术方案

發(fā)布時間：2025/3/8 ChatGpt 23 豆豆

生活随笔收集整理的這篇文章主要介紹了极市电大 | 京东AI时尚挑战赛Top3技术方案小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、京東AI時尚挑戰(zhàn)賽Top3﹀

北京時間2018年9月16日，由京東AI平臺與研究部發(fā)起的從七月開始的京東AI時尚挑戰(zhàn)賽正式在ChinaMM2018大會上圓滿落幕！

大會現(xiàn)場

而經(jīng)過兩個多月的角逐，由極市與電子科技大學(xué)開發(fā)者組成的團隊extreme-WJLD成功奪得時尚風(fēng)格識別賽道top3,并受邀到大會上做了競賽相關(guān)的報告！

極市與電子科技大學(xué)團隊受邀頒獎?wù)?#xff0c;撒花~??ヽ(°▽°)ノ?

二、團隊競賽技術(shù)方案詳解﹀

摘要
京東AI Fashion-Challenge競賽子任務(wù)時尚風(fēng)格識別旨在通過衣物的宏觀搭配以及局部的設(shè)計細節(jié)識別出衣物的風(fēng)格。與之前阿里舉辦的Fashion AI比賽類似，衣物風(fēng)格識別面臨許多的問題，如姿勢，光照以及相同風(fēng)格間的外觀差異。我們主要通過以下幾個方面改善識別性能：數(shù)據(jù)增強、遷移學(xué)習(xí)、模型融合以及風(fēng)格間的相關(guān)性。盡管方法看上去直觀簡單，但我們的方法仍舊以0.6524的F2-score居于排行榜第三位，取得了令人滿意的性能。

**1引言** 視覺時尚風(fēng)格識別近年來因其在研究領(lǐng)域和商業(yè)領(lǐng)域的廣泛應(yīng)用而受到越來越多的關(guān)注。廣泛的研究工作致力于服裝分類([1]-[3])，屬性預(yù)測([4]，[5])和服裝項目檢索([6]，[7])。這是一項具有挑戰(zhàn)性的任務(wù)，因為服裝項目之間的差異很大，例如姿勢，光線，比例和外觀的變化。為了減少這些變化，現(xiàn)有的工作通過尋找信息區(qū)域（例如服裝邊界框，語義局部[8]或人體關(guān)節(jié)[9]）來解決這些問題。但是，在實際情況下很難獲得這些額外的標簽。

挑戰(zhàn)賽的目標是引導(dǎo)計算機自動識別衣服的時尚風(fēng)格類別。公布的數(shù)據(jù)集包含54908個用于訓(xùn)練和驗證的圖像，以及10000個用于最終測試的圖像。數(shù)據(jù)集由時尚專業(yè)人士標記。每個圖像都標有13個二進制標簽（屬于類別或不屬于），每個圖像屬于至少1種風(fēng)格。表1中列出了13個樣式類及其相應(yīng)的索引。

表1. JD AIFashion數(shù)據(jù)集風(fēng)格匯總

我們還對圖1中的類分布進行了統(tǒng)計匯總。正如我們所看到的，數(shù)據(jù)分布嚴重不平衡。例如，運動風(fēng)格的比例（索引1）為0.189％。另一方面，一些風(fēng)格是密切相關(guān)的，而一些風(fēng)格是反向相關(guān)的。這些樣式的條件概率如圖2所示?？梢钥闯?#xff0c;某些類密切相關(guān)（例如，第1類和第2類），而某些類（第4類，第5類，第6類和第7類）從不一起出現(xiàn)。因此，類別不平衡是我們必須關(guān)注的巨大挑戰(zhàn)，而我們的模型設(shè)計主要是圍繞上述問題以避免過擬合。

由于深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類方面取得了巨大的成功[10]，我們的方法也是基于這一進展。為了應(yīng)對這一挑戰(zhàn)，我們的解決方案主要應(yīng)用了以下技巧：數(shù)據(jù)增強，遷移學(xué)習(xí)和風(fēng)格關(guān)系建模?？偟膩碚f，我們在測試集上取得了0.6524（F2-score），在排行榜上獲得了第3名。

圖1. 訓(xùn)練集和驗證集的數(shù)據(jù)分布

**2公布的方法** 對于風(fēng)格識別任務(wù)，我們考慮了以下四個方面：數(shù)據(jù)增強，網(wǎng)絡(luò)結(jié)構(gòu)，遷移學(xué)習(xí)，代價敏感的學(xué)習(xí)和風(fēng)格關(guān)系。

A.數(shù)據(jù)增強

（1）訓(xùn)練集重新采樣

為避免過擬合，我們對訓(xùn)練集進行了重新采樣，以確保每個訓(xùn)練批次包含合適數(shù)量的正樣本。此外，我們對第1、2、4、7、8、10、11、12、13類的負樣本進行了欠采樣，并保持第3、5、6、9類的原始比例。這項行動的核心思想是努力在改善正負樣本的比例和維持原始數(shù)據(jù)分布之間取得平衡。

（2）隨機擦除[11]

這是用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)增強方法。在訓(xùn)練過程中，我們在圖像中隨機選擇一個矩形區(qū)域，并用隨機值擦除其像素。因此，它將生成具有不同程度遮擋的訓(xùn)練樣本，這可以降低過擬合的風(fēng)險。

（3）隨機旋轉(zhuǎn)和隨機裁剪

由于服裝圖像包含不同的姿勢和比例，我們以±15°之間的角度隨機旋轉(zhuǎn)訓(xùn)練圖像，并隨機裁剪圖像作為輸入，以使模型對姿勢和比例更具魯棒性。

如果沒有明確說明，下面的所有實驗都默認基于數(shù)據(jù)增強。

B.網(wǎng)絡(luò)結(jié)構(gòu)

我們使用幾種最先進的網(wǎng)絡(luò)架構(gòu)進行了實驗，例如Resnet50 [12]，Densenet121 [13]和Inception v4 [14]。在數(shù)據(jù)增強處理之后，我們單獨訓(xùn)練這些模型。表2列出了不同網(wǎng)絡(luò)架構(gòu)的實驗結(jié)果（在驗證數(shù)據(jù)集上）。我們可以看到，Resnet50在運動和日系方面取得了更好的成績，而Densenet121在少女，朋克和休閑方面表現(xiàn)更好。此外，Inception-v4的性能可以達到大多數(shù)類的中等水平。此外，由于互補學(xué)習(xí)，模型融合可以進一步將性能提高到新的差距。

表2. 不同網(wǎng)絡(luò)結(jié)構(gòu)在不同類別上的性能

**C.遷移學(xué)習(xí)**

DeepFashion包含超過80萬種不同的時尚圖像，從精美的商店圖像到無約束的消費者照片。此數(shù)據(jù)集中的每個圖像都標有50個類別，1000個描述屬性，邊界框和服裝標記。我們的預(yù)訓(xùn)練任務(wù)集中在對50種衣服屬性進行分類。為了獲得更好的預(yù)訓(xùn)練模型，我們清理了數(shù)據(jù)集并選擇了20個具有更平衡數(shù)據(jù)分布的屬性。實驗結(jié)果如表3所示。

表3. 遷移學(xué)習(xí)在不同類別上的性能

從結(jié)果可以看出，第1、2、4、7、8、10、11、12、13類從遷移學(xué)習(xí)中受益匪淺。另一方面，DeepFashion的預(yù)訓(xùn)練在第3類，第5類，第6類和第9類中效果就沒有那么的好，因為他們已經(jīng)有足夠的正例圖像。此外，為了更好地利用風(fēng)格關(guān)系，我們還從相關(guān)模型初始化權(quán)重。詳細地，我們使用類2初始化類1的權(quán)重，并使用類8初始化類4的權(quán)重。

D.代價敏感的學(xué)習(xí)

由于我們的評估標準是F2分數(shù)（召回率比精確度更重要），因此F2分數(shù)的正樣本錯誤分類和負樣本錯誤分類的代價差別很大。為了最大化F2分數(shù)，我們采用了代價敏感學(xué)習(xí)[16]進行數(shù)據(jù)挖掘。代價敏感型學(xué)習(xí)是數(shù)據(jù)挖掘中的一種學(xué)習(xí)方法，它將錯誤分類代價考慮在內(nèi)。代價敏感學(xué)習(xí)的目標是最小化總代價。具體而言，它以不同的方式處理不同的錯誤分類。我們增加了假陰性的代價懲罰，同時保持假陽性不變。因此，成本函數(shù)傾向于優(yōu)化召回率而不是精確度。在我們的實驗中，我們只對第1、4、7、8、11、12、13類應(yīng)用代價敏感學(xué)習(xí)。對于假陰性，懲罰權(quán)重設(shè)定為1：5。

E.風(fēng)格關(guān)系

如圖2所示，服裝款式密切相關(guān)或反向相關(guān)。例如，當圖像屬于第3類風(fēng)格（Office lady）時，它可能屬于第9類（Lady），概率為99％。此外，一些風(fēng)格從未出現(xiàn)過（日系和韓系）。很明顯，風(fēng)格關(guān)系包含豐富的信息。

圖2. 當風(fēng)格B發(fā)生時風(fēng)格A的條件概率圖

我們嘗試訓(xùn)練多標簽分類網(wǎng)絡(luò)，在所有樣式中共享最低層，共享相關(guān)樣式的較高層。但是，最終F2分數(shù)的貢獻可以忽略不計。其原因在于多標簽分類網(wǎng)絡(luò)無法實現(xiàn)數(shù)據(jù)的重采樣。因此，我們用式(1)分析了給定標簽的條件概率。

F.部署細節(jié)

我們采用交叉驗證方法來評估單個模型和融合結(jié)果。具體來說，我們分割了43926張用于訓(xùn)練的圖像和10981張用于驗證的圖像。如式(3)所示，通過F2-score評估提交結(jié)果。

所有的訓(xùn)練和驗證過程均在單張Nvidia 1080 Ti GPU上進行。訓(xùn)練批次大小盡量設(shè)置為GPU內(nèi)存所能容納的大小。首先我們對Deepfashion數(shù)據(jù)集進行清洗然后在其上訓(xùn)練基礎(chǔ)模型。然后我們對數(shù)據(jù)集進行重新采樣，并使用數(shù)據(jù)增強和代價敏感的學(xué)習(xí)策略對預(yù)訓(xùn)練好的模型進行了微調(diào)。

對于驗證過程，我們?nèi)诤夏Ｐ秃捅闅v搜索決策閾值。由于我們單獨處理每個類，13個預(yù)測可能有一些明顯的邏輯錯誤（例如，不可能存在所有的負面或所有正面。因為根據(jù)訓(xùn)練數(shù)據(jù)集的統(tǒng)計，每個圖像屬于至少1種樣式，最多5種樣式）。因此，對于后期處理，我們應(yīng)用風(fēng)格關(guān)系來進一步改進預(yù)測。這些步驟的平均F2-score顯示在表4中。我們可以看到，所有步驟在最終結(jié)果中都發(fā)揮著不可或缺的作用。

表4. 本文闡述方法的平均F2-score結(jié)果

**總結(jié)** 我們的方法從數(shù)據(jù)增強，網(wǎng)絡(luò)結(jié)構(gòu)，遷移學(xué)習(xí)和代價敏感的學(xué)習(xí)等方面解決了這個問題。此外，我們調(diào)查了后期處理的風(fēng)格關(guān)系。通過上述提出的方法，我們在測試集上獲得了0.6524的F2-score，這是排行榜的第3位。

三、視覺競賽團隊合作參賽以及更多﹀

看了團隊的技術(shù)方案

你是否也想…

競賽極市獎金兩手抓

數(shù)據(jù)時間隨時查

個人品牌專訪打造

算法直接對接項目需求

…

極市平臺滿足你所想~

不包括奇奇怪怪的想法（劃掉

作為國內(nèi)首家視覺算法開發(fā)和分發(fā)平臺，極市不僅想要幫助開發(fā)者算法零成本變現(xiàn)，同時也致力于讓開發(fā)者個人的價值得到更大發(fā)揮，與開發(fā)者一起打造一個專業(yè)性的開源性的視覺開發(fā)者社區(qū)，而比賽合作是我們開發(fā)者計劃中的一環(huán)。

如果你也希望與我們合作參賽，或者有意向為打造視覺算法開發(fā)者社區(qū)和極市共同努力，歡迎聯(lián)系我們~

合作聯(lián)系
極市小助手微信（Extreme-Vision）

總結(jié)

以上是生活随笔為你收集整理的极市电大 | 京东AI时尚挑战赛Top3技术方案的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：极市分享|第32期张德兵小美：分布式人
下一篇： AI 趋势