技术干货 | PACMOO:基于帕累托最优的公平性约束协同过滤算法
MindSpore作為一個開源的全場景AI框架,為開發(fā)者帶來端邊云全場景協(xié)同、極致性能,極簡開發(fā)、安全可信的體驗,2020.3.28開源來得到數(shù)六十萬以上的下載量,走入100+Top高校教學,已通過HMS在4000+App上商用,擁有數(shù)量眾多的開發(fā)者,在AI計算中心,智能制造、云、無線、數(shù)通、能源、消費者1+8+N等端邊云全場景逐步廣泛應(yīng)用,是Gitee指數(shù)最高的開源軟件。歡迎大家參與開源貢獻、模型眾智、行業(yè)創(chuàng)新與應(yīng)用、算法創(chuàng)新、學術(shù)合作、AI書籍合作等,貢獻您在云側(cè)、端側(cè)、邊側(cè)以及安全領(lǐng)域的應(yīng)用案例。基于MindSpore的AI頂會論文越來越多,我會不定期挑選一些優(yōu)秀的論文來推送和解讀,希望更多的產(chǎn)學研專家跟MindSpore合作,一起推動原創(chuàng)AI研究,MindSpore社區(qū)會持續(xù)支撐好AI創(chuàng)新和AI應(yīng)用,本文是MindSpore AI頂會論文第六篇,我們選擇了來自中國科學院大學計算技術(shù)研究所智能信息處理重點實驗室許教授在ACM MM2021的一篇論文進行解讀,感謝中科院計算所許教授團隊投稿。
論文整體目錄:
1、MindSpore AI論文解讀1:自此告別互信息:用于跨模態(tài)行人重識別的變分蒸餾技術(shù)
2、MindSpore AI論文解讀2:EPRNet 應(yīng)用于實時街景分割的高效金字塔表征網(wǎng)絡(luò)
3、MindSpore AI論文解讀3:文本語義哈希在大規(guī)模信息檢索系統(tǒng)的應(yīng)用
4、MindSpore AI論文解讀4:AECRNet:基于對比學習的緊湊圖像去霧方法
5、MindSpore AI論文解讀5:CycleCol:基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)對真實單色-彩色攝像系統(tǒng)著色
?01?
研究背景
研究背景:協(xié)同過濾推薦算法基于歷史數(shù)據(jù)學習用戶對物品的偏好。由于收集到的歷史數(shù)據(jù)集不可避免地存在不均衡現(xiàn)象,傳統(tǒng)優(yōu)化方法對每個用戶-物品交互的損失進行單獨求和,從而導致交互數(shù)量少的用戶訓練不充分,模型傾向于對處于劣勢的用戶群體產(chǎn)生不公平的推薦效果。本論文從損失函數(shù)的重形式化入手,借鑒多目標優(yōu)化思想,旨在從優(yōu)化角度緩解推薦算法中的樣本不平衡問題。
團隊介紹:第一作者郝前秀,是中科院計算技術(shù)研究所智能信息處理重點實驗室研三學生,導師是許倩倩副研究員(獲:國家自然科學基金委優(yōu)秀青年基金,吳文俊人工智能自然科學一等獎,CSIG石青云女科學家獎等)。團隊研究領(lǐng)域為數(shù)據(jù)挖掘和機器學習,主要關(guān)注眾包計算、機器學習算法、推薦系統(tǒng)、知識圖譜等,相關(guān)成果已發(fā)表在TPAMI、IJCV、TIP、TKDE、TMM、ICML、NIPS、CVPR、ECCV、AAAI、ACM Multimedia等相關(guān)領(lǐng)域主流國際期刊與會議上。
?02?
論文主要內(nèi)容簡介
為緩解推薦算法中的樣本不平衡問題,我們提出將不同組用戶的訓練損失單獨作為一個優(yōu)化目標。由于不同組用戶的推薦性能被同等視作一個優(yōu)化目標,從而可減小不均衡的亞組樣本頻率對梯度的影響。借鑒多目標領(lǐng)域的有關(guān)概念,模型旨在求解多個目標的帕累托最優(yōu)解。帕累托最優(yōu)解的定義為:若不存在這樣的解,在所有目標上均優(yōu)于當前解,則當前解被稱為一個帕累托最優(yōu)解。從定義可以看出,可能存在多個解均滿足帕累托最優(yōu)性。更進一步,為了使得模型取得一個更加均衡的帕累托最優(yōu)解,我們提出了一個公平性約束,以限制多目標優(yōu)化的搜索空間。從而將問題形式化為一個受限多目標優(yōu)化問題:
其中
分別組的損失函數(shù),是所加的公平性限制約束。
為了求解該受限制多目標優(yōu)化框架,我們提出了一個高效的受限制多目標優(yōu)化算法。算法在第 步更新之前,首先求解一個子問題a),動態(tài)地為每個目標計算出相應(yīng)的權(quán)重。
為了求解該受限多目標優(yōu)化框架,我們提出了一個高效的受限多目標優(yōu)化求解算法。算法在
更新之前,首先求解一個子問題a),動態(tài)地為每個目標計算出相應(yīng)的權(quán)重
| ?? ? | 子問題a) |
其次,考慮所加的公平性約束,通過拉格朗日乘子法,求解如下min-max子問題b)。
| 子問題b) |
其中的min問題根據(jù)所提出的公平性約束對搜索空間加以限制,使得模型傾向于取得均衡的帕累托穩(wěn)定點。對于
,通過公平性約束對梯度進行調(diào)整后,模型的更新方向為:
其中,
對于max問題,我們采用投影梯度上升法更新
。由于公平性不是本文的主要關(guān)注點,文中僅設(shè)計了一個公平性約束:約束不同組的損失差異不要太大,
其中,
,限制不同組損失的差異閾值。
03?
代碼鏈接
論文鏈接:https://github.com/qianxiuhao1017/Pareto_constrained_MOO/blob/main/Pareto_cpnstrained_MOO.pdf
MindSpore代碼鏈接:https://gitee.com/mindspore/contrib/tree/master/papers/PACMOO
會議名稱:ACM MM 2021
?04?
算法框架技術(shù)要點
05?
實驗結(jié)果
表1:仿真數(shù)據(jù)集上的總體性能比較
圖1: 仿真數(shù)據(jù)集上不同目標的性能圖
表 2: Netflix數(shù)據(jù)集上的總體性能比較
圖2: Netflix數(shù)據(jù)集上不同目標的性能圖
我們在仿真數(shù)據(jù)集和真實數(shù)據(jù)集Netflix上均進行了實驗。如表1、表2所示,所提方法與對比方法在總體性能上相當。更進一步,由圖1、圖2所示,所提方法在弱勢組(圖1的group 1 和圖2的group 4)上得到了明顯的提升。從而證明所提出的方法能夠在不損害總體性能的基礎(chǔ)上,提升劣勢用戶群體的推薦性能,實現(xiàn)了總體性能與公平性之間的良好權(quán)衡。
?06?
MindSpore代碼實現(xiàn)
如算法框架技術(shù)要點所述。MindSpore實現(xiàn)鏈接:https://gitee.com/mindspore/contrib/tree/master/papers/PACMOO
?07?
總結(jié)與展望
本文從損失函數(shù)的重形式化以及優(yōu)化角度考慮樣本不平衡問題。傳統(tǒng)的總體目標損失由所有用戶-物品對的損失等權(quán)相加組成,易受樣本頻率影響。本文將不同用戶的損失進行分組,并同等地視為一個優(yōu)化目標。借鑒多目標優(yōu)化的思想,轉(zhuǎn)而同時優(yōu)化多個目標以期取得良好的帕累托最優(yōu)解。為了進一步限制模型的搜索空間,我們加入了公平性約束以限制多組損失之間的差異。為了對這一受限多目標優(yōu)化問題進行求解,我們提出了一個基于梯度的高效求解算法。當前多目標優(yōu)化算法的不足之處在于僅能取得一個帕累托穩(wěn)定點。未來將進一步探索多目標優(yōu)化算法,從而能夠高效獲得多個帕累托最優(yōu)解,且各個解具有可解釋的性質(zhì),以期指導用戶個性化地選擇符合某個條件的帕累托解。?
MindSpore官方資料
官方QQ群?:?486831414
官網(wǎng):https://www.mindspore.cn/
Gitee?:?https : //gitee.com/mindspore/mindspore
GitHub?:?https://github.com/mindspore-ai/mindspore
論壇:https://bbs.huaweicloud.com/forum/forum-1076-1.html?
總結(jié)
以上是生活随笔為你收集整理的技术干货 | PACMOO:基于帕累托最优的公平性约束协同过滤算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 页面劫持修复方法,织梦dedeCMS被流
- 下一篇: cobalt strik启动