推荐算法竞赛TOP方案合集
推薦算法競賽相關 會議賽
(一)2020 ACM Twitter RecSys Challenge
問題背景:
Twitter上呈現的是正在發生的事情,也是人們現在談論的話題。在Twitter上,隨著對話的展開,生活變得生動起來,向你展示故事的方方面面。從突發新聞和娛樂到體育、政治和日常興趣,當世界上發生的事情,它們首先發生在推特上。
在這個平臺上,用戶發布和參與(以喜歡、回復、轉發和評論轉發的形式)被稱為“Tweets”的內容。這一挑戰旨在評估新的大規模預測不同參與率的算法,并推動推薦系統的最新發展。隨著Top-K推薦領域的成功和進步,我們的目標是通過發布最大的真實世界數據集來預測用戶參與度,從而鼓勵開發新的方法。該數據集包括大約2億次公眾參與,以及用戶和參與特征,這些活動持續2周,包含公眾互動(如回復、轉發和評論轉發),以及從公眾關注圖中隨機抽樣的1億個pseudo negatives。在對后一批tweet進行抽樣時,我們特別注意保護用戶隱私。
解決方案:
Rank4: https://github.com/sumitsidana/recsys_challenge_2020(二)KDD Cup 2020 Challenges for Modern E-Commerce Platform: Debiasing
問題背景:
本賽題解決的偏差消除問題,大多數電子商務和零售公司利用海量數據在其網站上實現搜索和推薦系統,從而來促進銷售,隨著這樣的趨勢發展以及流量的大量增加,對推薦系統產生了各式各樣的挑戰。其中一個值得探索的挑戰是推薦系統的人工智能公平性(Fairness)問題,即如果機器學習系統配備了短期目標(例如短期的點擊、交易),單純朝短期目標進行優化將會導致嚴重的“馬太效應”,即熱門的商品受到更多的關注,冷門商品則愈發的會被遺忘,產生了系統中的流行度偏差,并且大多數模型和系統的迭代依賴于頁面瀏覽(Pageview)數據,而曝光數據是實際候選中經過模型選擇的一個子集,不斷地依賴模型選擇的數據與反饋再進行訓練,將形成選擇性偏差。
上述流行度偏差與選擇性偏差不斷積累,就會導致系統中的“馬太效應”越來越嚴重。因此,人工智能公平性問題對于推薦系統的不斷優化至關重要,并且這將對推薦系統的發展以及生態環境產生深遠的影響。
解決方案:
Rank1: https://github.com/aister2020/KDDCUP_2020_Debiasing_1st_Place Rank6: https://github.com/ChuanyuXue/KDDCUP-2020 Rank10: https://github.com/xuetf/KDD_CUP_2020_Debiasing_Rush(三)KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall
問題背景:
多模態召回賽題由阿里巴巴達摩院智能計算實驗室發起并組織,關注電商行業中的多模信息學習問題。2019年,全世界線上電商營收額已經達到3530億美元。據相關預測,到2022年,總營收將增長至6540億美元。大規模的營收和高速增長同時預示著,消費者對于電商服務有著巨大的需求。跟隨這一增長,電商行業中各種模態的信息越來越豐富,如直播、博客等等。怎樣在傳統的搜索引擎和推薦系統中引入這些多模信息,更好地服務消費者,值得相關從業者深入探討。
本賽道提供了淘寶商城的真實數據,包括兩部分,一是搜索短句(Query)相關,為原始數據;二是商品圖片相關,考慮到知識產權等,提供的是使用Faster RCNN在圖片上提取出的特征向量。兩部分數據被組織為基于Query的圖片召回問題,即有關文本模態和圖片模態的召回問題
解決方案:
Rank1: https://github.com/steven95421/KDD_WinnieTheBest Rank8: https://github.com/miziha-zp/KDD2020_mutilmodalities Rank10: https://github.com/dingyh0626/KDD-Cup-Multimodalities-Recal(四)CIKM 2019 E-Commerce AI Challenge
問題背景:
用戶興趣高效檢索聚焦在解決大規模推薦中用戶興趣檢索的問題上,任務要求在很短時間內從千萬級的商品庫 C 中為用戶挑選出最可能感興趣的 k 個商品。復賽還要求為每個用戶進行推薦時的時間復雜度小于 O(n)。其中,k<<n,n=|C|。此外,復賽提交的方案需在一個 8 核 60G P100 的 GPU 容器中對 6 萬線上用戶進行推薦,限時 1 小時。不僅對復雜度有要求,對內存、CPU 等資源也有限制。數據集包括用戶行為文件、用戶信息文件與商品信息文件。用戶信息包含用戶 ID、性別、年齡與購買力,商品信息包含商品 ID、類目 ID、店鋪 ID 與品牌 ID(若有商品價格,有望提高推薦效果),用戶行為涉及 16 天(由某個周五開始)的用戶對商品的行為日志。
解決方案:
Rank1: ChuanyuXue/CIKM-2019-AnalytiCup Rank10: https://github.com/kupuSs/CIKM-CUP-2019-track2-rank10(五)2019 ACM RecSys Challenge
問題背景:
挑戰的目標是在會話中使用用戶信號來檢測用戶的意圖,并更新提供給用戶的住宿建議。給定用戶在我們網站上的交互數據集和他們交互的項目的元數據,參與者的任務是預測在會話的后期有哪些項目被點擊。
解決方案:
Rank2: layer6ai-labs/RecSys2019 Rank4: https://github.com/rosetta-ai/rosetta_recsys2019 Rank7: mustelideos/recsys-challenge-2019(六)WSDM 2018 - KKBox's Music Recommendation
問題背景:
預測用戶在一個時間窗口內第一個可觀察到的收聽事件被觸發后,重復聽一首歌的機會。
解決方案:
Rank1: lystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution Rank3: VasiliyRubtsov/wsdm_music_recommendations(七)2018 IJCAI 阿里媽媽搜索廣告轉化預測
問題背景:
比賽題目是"搜索廣告轉化預測",需要通過人工智能技術構建預測模型預估用戶的購買意向,即給定歷史廣告點擊相關的用戶(user)、廣告商品(ad)、檢索詞(query)、上下文內容(context)、商店(shop)等五類信息的條件下預測接下來日期廣告產生購買行為的概率(pCVR)。
結合淘寶平臺的業務場景和不同的流量特點,官方定義了以下兩類挑戰:
(1)日常的轉化率預估
(2)特殊日期的轉化率預
解決方案:
Rank1: plantsgo/ijcai-2018 Rank2: https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution Rank3: luoda888/2018-IJCAI-top3 Rank4: fanfanda/ijcai_2018推薦算法競賽相關 企業賽
(八)2020 騰訊廣告算法大賽
問題背景:
本屆算法大賽的題目來源于一個重要且有趣的問題。眾所周知,像用戶年齡和性別這樣的人口統計學特征是各類推薦系統的重要輸入特征,其中自然也包括了廣告平臺。這背后的假設是,用戶對廣告的偏好會隨著其年齡和性別的不同而有所區別。許多行業的實踐者已經多次驗證了這一假設。然而,大多數驗證所采用的方式都是以人口統計學屬性作為輸入來產生推薦結果,然后離線或者在線地對比用與不用這些輸入的情況下的推薦性能。本屆大賽的題目嘗試從另一個方向來驗證這個假設,即以用戶在廣告系統中的交互行為作為輸入來預測用戶的人口統計學屬性。我們認為這一賽題的“逆向思考”本身具有其研究價值和趣味性,此外也有實用價值和挑戰性。例如,對于缺乏用戶信息的實踐者來說,基于其自有系統的數據來推斷用戶屬性,可以幫助其在更廣的人群上實現智能定向或者受眾保護。與此同時,參賽者需要綜合運用機器學習領域的各種技術來實現更準確的預估。
主辦方將為參賽者提供一組用戶在長度為 91 天(3 個月)的時間窗口內的廣告點擊歷史記錄作為訓練數據集。每條記錄中包含了日期(從 1 到 91)、用戶信息(年齡,性別),被點擊的廣告的信息(素材 id、廣告 id、產品 id、產品類目 id、廣告主id、廣告主行業 id 等),以及該用戶當天點擊該廣告的次數。測試數據集將會是另一組用戶的廣告點擊歷史記錄。
提供給參賽者的測試數據集中不會包含這些用戶的年齡和性別信息。本賽題要求參賽者預測測試數據集中出現的用戶的年齡和性別,并以約定的格式提交預測結果。
解決方案:
Rank1: https://github.com/guoday/Tencent2020_Rank1st: Rank5: zhangqibot/Tencent2020_Top5(九)安泰杯 跨境電商智能算法大賽
問題背景:
通過用戶歷史訂單數據,預測用戶下一次購買的商品。
解決方案:
Rank1: https://github.com/RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge(十)第二屆阿里巴巴大數據智能云上編程大賽
問題背景
阿里云計算平臺深耕大數據以及人工智能領域,經過多年錘煉,推出了MaxCompute、Dataworks、PAI、EMR等多款大數據相關領域云產品。智聯招聘作為國內大型的綜合性招聘平臺,二十多年行業深耕,為海量的求職者創造就業機會,幫助企業找到心儀的人才。本次比賽將由智聯提供相關比賽數據和評估標準,選手需要使用阿里云計算平臺的相關產品完成賽題。
本次大賽要求參賽者根據智聯招聘抽樣的經過脫敏的求職者標簽數據、職位信息、及部分求職者行為信息、用人單位反饋信息,訓練排序模型,對求職者的職位候選集進行排序,盡可能使得雙端都滿意的職位(求職者滿意以及用人單位滿意)優先推薦。本次比賽里,假定對于曝光給求職者的職位候選集里,假如求職者感興趣會產生瀏覽職位行為,瀏覽職位后,如果求職者滿意會產生主動投遞行為。用人單位收到求職者主動投遞的簡歷后會給出是否滿意的反饋信號。
解決方案:
Rank1: https://github.com/hydantess/TianChi_zhilianzhaopin Rank4: juzstu/TianChi_ZhiLianZhaoPin(十一)BDCI 2018 面向電信行業存量用戶的智能套餐個性化匹配模型
問題背景:
電信產業作為國家基礎產業之一,覆蓋廣、用戶多,在支撐國家建設和發展方面尤為重要。隨著互聯網技術的快速發展和普及,用戶消耗的流量也成井噴態勢,近年來,電信運營商推出大量的電信套餐用以滿足用戶的差異化需求,面對種類繁多的套餐,如何選擇最合適的一款對于運營商和用戶來說都至關重要,尤其是在電信市場增速放緩,存量用戶爭奪愈發激烈的大背景下。針對電信套餐的個性化推薦問題,通過數據挖掘技術構建了基于用戶消費行為的電信套餐個性化推薦模型,根據用戶業務行為畫像結果,分析出用戶消費習慣及偏好,匹配用戶最合適的套餐,提升用戶感知,帶動用戶需求,從而達到用戶價值提升的目標。
套餐的個性化推薦,能夠在信息過載的環境中幫助用戶發現合適套餐,也能將合適套餐信息推送給用戶。解決的問題有兩個:信息過載問題和用戶無目的搜索問題。各種套餐滿足了用戶有明確目的時的主動查找需求,而個性化推薦能夠在用戶沒有明確目的的時候幫助他們發現感興趣的新內容。
此題利用已有的用戶屬性(如個人基本信息、用戶畫像信息等)、終端屬性(如終端品牌等)、業務屬性、消費習慣及偏好匹配用戶最合適的套餐,對用戶進行推送,完成后續個性化服務。
解決方案:
Rank1: PPshrimpGo/BDCI2018-ChinauUicom-1st-solution Rank2: PandasCute/2018-CCF-BDCI-China-Unicom-Research-Institute-top2 rank6: ZengHaihong/2018_CCF_BDCI_ChinaUnicom_Package_Match_Rank6(十二)BDCI 2017 商場中精確定位用戶所在店鋪
問題背景:
隨著互聯網移動支付的迅速普及,我們享受到越來越多的生活便利。如當您走入商場的某家餐廳時,手機會自動彈出該餐廳的優惠券;當您走入商場服裝店時,手機可以自動推薦這家店里您喜歡的衣服;在您路過商場一家珠寶店時,手機可以自動提示您想了很久的一款鉆戒已經有貨了;離開商場停車場時,手機在您的許可下可以自動交停車費。這些您所享受的貼心服務都離不開背后大數據挖掘和機器學習的支持。在正確的時間、正確的地點給用戶最有效的服務,是各大互聯網公司智能化拓展的新戰場。
本賽題目標為在商場內精確的定位用戶當前所在商鋪。在真實生活中,當用戶在商場環境中打開手機的時候,存在定位信號不準、環境信息不全、店鋪信息缺失、不同店鋪空間距離太近等等挑戰,因此如何精確的判斷用戶所在商鋪是一個難題。
本次大賽我們將提供在2017年8月份大概100家商場(復賽為2017年7-8月大概500家商場)的詳細數據,包括用戶定位行為和商場內店鋪等數據(已脫敏),參賽隊伍需要對其進行數據挖掘和必要的機器學習訓練。另外,我們會提供2017年9月份的商場內用戶數據來做評測,檢測您的算法是否能準確的識別出當時用戶所在的店鋪。
解決方案:
Rank1: https://github.com/drop-out/Tianchi-Wifi-Positioning Rank7: totoruo/TianChi-Shop-Location-Competition Rank9: longxiong2016/Store_positioning(十三)圖靈聯邦視頻點擊預測大賽
問題背景:
移動互聯網的快速發展,催生了海量視頻數據的產生,也為用戶提供了類型豐富的視頻數據類型。面對如何從海量視頻數據類型中選擇用戶喜歡的類型的這一難題,作為一家擁有海量視頻素材和用戶行為的數據公司,希望通過用戶行為數據,用戶特征,以及視頻特征,可以在充足數據基礎上精準的推薦給用戶喜歡的視頻類型。
本次競賽的目的是以用戶的視頻行為數據為基礎,構建推薦模型,參賽隊伍則需要搭建個性化推薦模型。希望參賽隊伍能夠挖掘數據背后豐富的內涵,為移動用戶在合適的時間、合適的地點精準推薦用戶感興趣的內容,提高用戶在數據集上的點擊行為。
解決方案:
Rank3: LogicJake/tuling-video-click-top3 Rank4: biaobiao2/video-click-top4 Rank6: https://github.com/ljhzxc/turingtopia_video_ctr Rank7: zavierhan/turing_video_ctr_top7 Rank9: Tersaiz/Turingtopia_Videos_CTR(十四)2017 達觀杯個性化推薦算法挑戰賽
問題背景:
本次比賽選取了一批用戶(candidate.txt),以及一批候選資訊內容數據(news_info.csv)用以推薦給用戶。同時提供了這批用戶在某3天(記為第N-2天、第N-1天和第N天)對資訊內容的多種行為數據,包括點擊、完整閱讀、評論、收藏、分享等,作為訓練數據。
比賽目標是針對這批用戶(candidate.txt)和候選資訊內容數據(news_info.csv),預測每個用戶在第4天(記為第N+1天)會產生行為(任何行為類型都算)的資訊列表。每個用戶必須推薦5個最可能有行為的資訊且不可重復,否則推薦結果視為無效。
解決方案:
Rank6: https://github.com/hecongqing/2017-daguan-competition(十五)2019 智源-看山杯專家發現算法大賽
問題背景:
比賽將提供知乎的問題信息、用戶畫像、用戶回答記錄,以及用戶接受邀請的記錄,要求選手預測這個用戶是否會接受某個新問題的邀請。
1、問題信息。包括<問題id、問題創建時間、問題的話題、問題的文本、問題的描述>等。
2、用戶的回答。包括<回答id、問題id、作者id、回答的文本、回答時間、點贊數、收藏數、感謝數、評論數>等。
3、用戶人畫像數據。包括<用戶id、性別、活躍頻次、關注話題、長期興趣、鹽值>等。
4、<topic、token(詞)、單字 64維 embedding >數據。
5、最近一月的邀請數據包括<問題id、用戶id、邀請時間、是否回答>。
解決方案:
Rank3: https://github.com/Travisgogogo/BAAI-ZHIHU-2019 Rank4: https://github.com/VoldeMortzzz/2019Baai-zhihu-Cup-findexp-4th Rank6: https://github.com/liuchenailq/zhihu-findexp Rank7: jt120/BAAI-zhihu-2019(十六)Santander Product Recommendation
問題背景:
準備好為你的第一套房子付首付了嗎?或者想要杠桿化你的房產權益?為了支持一系列金融決策的需求,桑坦德銀行(Santander Bank)通過個性化產品推薦向客戶提供貸款。在桑坦德銀行目前的體系下,只有一小部分客戶得到了許多推薦,而其他許多客戶很少看到任何推薦導致客戶體驗不均衡。在第二場競爭中,桑坦德銀行向Kagglers發出挑戰,要求他們根據過去的行為和類似客戶的行為,預測現有客戶下個月將使用哪些產品。桑坦德銀行擁有更有效的推薦體系,能夠更好的滿足所有客戶的個性化需求,無論客戶身在何處,都能確保客戶的滿意。
解決方案:
Rank2: ttvand/Santander-Product-Recommendation Rank8: yaxen/santander-product-recommendation-8th-place(十七)2018科大訊飛AI營銷算法大賽
問題背景:
本次大賽提供了訊飛AI營銷云的海量廣告投放數據,參賽選手通過人工智能技術構建預測模型預估用戶的廣告點擊概率,即給定廣告點擊相關的廣告、媒體、用戶、上下文內容等信息的條件下預測廣告點擊概率。
解決方案:
Rank1: https://github.com/bettenW/2018-iFLYTEK-Marketing-Algorithms-Competition-Finals-Rank1: Rank2: infturing/kdxf(十八)2018 騰訊廣告算法大賽
問題背景:
Lookalike 技術,設計基于種子用戶畫像和關系鏈尋找相似人群,即根據種子人群的共有屬性進行自動化擴展,以擴大潛在用戶覆蓋面,提升廣告效果。具體來講,種子包里包含有廣告主提交的一批已知種子用戶,可以當作機器學習問題中的正樣本。廣告平臺中有海量的非種子用戶,也有大量的廣告投放歷史數據,可以幫助生成負樣本。有了正負樣本后,相似人群拓展就變為了一個機器學習問題中的二分類問題。在線上使用中,廣告平臺可以依據二分類模型算出的后驗概率P(y|x) 來判定候選用戶與種子包里用戶的相似程度,最后將相似度最高的一批候選用戶作為最終的結果。由于Lookalike相似人群擴展和廣告CTR有些類似,所以我們沿用了很多阿里媽媽搜索廣告轉化預測的特征和模型。
解決方案:
Rank3: https://github.com/DiligentPanda/Tencent_Ads_Algo_2018 Rank6: nzc/tencent-contest Rank7: https://github.com/guoday/Tencent2018_Lookalike_Rank7th: Rank9: ouwenjie03/tencent-ad-game Rank10: https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th:總結
以上是生活随笔為你收集整理的推荐算法竞赛TOP方案合集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于Spring MVC + Sprin
- 下一篇: 1096: 水仙花数(函数专题)C语言