當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

智源-知乎联合发布大规模用户关系数据集，同步开启10万元竞赛

發(fā)布時間：2024/10/8 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了智源-知乎联合发布大规模用户关系数据集，同步开启10万元竞赛小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2019 年 9 月，北京智源人工智能研究院聯(lián)合知名的綜合性社區(qū)平臺知乎、數(shù)據(jù)評測平臺 biendata，共同發(fā)布了近 200 萬用戶和 1000 萬邀請數(shù)據(jù)的 Link prediction 大型數(shù)據(jù)集，并同步開放了評測競賽（2019 年 9 月-11 月下旬），總獎金 10 萬元。本數(shù)據(jù)集包含知乎脫敏后的近?200 萬用戶數(shù)據(jù)、1000 萬條邀請記錄數(shù)據(jù)，以及 10 萬個話題數(shù)據(jù)、180 萬個問題和 475 萬個回答數(shù)據(jù)，覆蓋了問題話題文本、用戶畫像、行為歷史、用戶關(guān)系等多種不同的數(shù)據(jù)類型，聚焦于 Link prediction，專家發(fā)現(xiàn)和推薦系統(tǒng)等問題，以及這些問題在問答社區(qū)上的應(yīng)用。此外，依托本數(shù)據(jù)集，智源、知乎和 biendata 還聯(lián)合發(fā)布了一次數(shù)據(jù)評測。評測將持續(xù) 3 個月時間，于 11 月下旬結(jié)束。評測總獎金為 10 萬元人民幣。比賽網(wǎng)址請見下方二維碼或點擊“閱讀原文”鏈接。

比賽平臺地址：

https://www.biendata.com/competition/zhihu2019/
知識分享服務(wù)已經(jīng)成為目前全球互聯(lián)網(wǎng)的重要、最受歡迎的應(yīng)用類型之一。但是在知識分享或問答社區(qū)中，問題數(shù)遠遠超過有質(zhì)量的回復數(shù)。因此，如何連接知識、專家和用戶，增加專家的回答意愿，成為了此類服務(wù)的中心課題。本數(shù)據(jù)集和評測旨在解決這一問題。知乎是中文互聯(lián)網(wǎng)知名的綜合性社區(qū)平臺。知乎自 2011 年創(chuàng)辦至今，已經(jīng)成為一個擁有 2.2 億用戶，每天有數(shù)以十萬計的新問題以及 UGC 內(nèi)容產(chǎn)生的網(wǎng)站。其中，如何高效的將這些用戶新提出的問題邀請其他用戶進行解答，以及挖掘用戶有能力且感興趣的問題進行邀請下發(fā)，優(yōu)化邀請回答的準確率，提高問題解答率以及回答生產(chǎn)數(shù)，成為知乎最重要的課題之一。

數(shù)據(jù)集介紹

?? 文本數(shù)據(jù)

文本數(shù)據(jù)主要包括知乎話題、問題，以及回答的文本數(shù)據(jù)。這些數(shù)據(jù)通過兩種方式加密：

1）單字，以 64 維 embedding 的表示。單字包括單個漢字、中韓文字、英文字母、標點及空格等；詞語包含切詞后的中文詞語、英文單詞、標點及空格等。

2）詞語，以 64 維 embedding 的表示。提醒：單字 ID 和詞語 ID 存在于兩個不同的命名空間，即詞語中某個字或標點，和單字中的相同字符及相同標點不一定有同一個 ID。

?? 問題數(shù)據(jù)（183萬）

問題數(shù)據(jù)除了上述提到的問題標題和描述的單字編碼、切詞編碼，綁定話題外，還包括提問時間和提問者 ID。

???回答數(shù)據(jù)（475萬）

回答數(shù)據(jù)包括：回復的問題 ID，回答創(chuàng)建時間；是否包括圖片、視頻，以及答案長度；回答內(nèi)容的單字編碼序列和切詞編碼序列；回答是否被標為優(yōu)秀、推薦、被收入圓桌，以及回答的點贊數(shù)、評論數(shù)、被收藏數(shù)、感謝數(shù)、被舉報數(shù)、反對數(shù)等。

???用戶特征（193萬）
用戶性別、關(guān)鍵詞、創(chuàng)作數(shù)量級、創(chuàng)作熱度、注冊類型和平臺、訪問頻率，以及其他一些匿名特征（如所在省份等信息）。
???邀請行為數(shù)據(jù)集（訓練集1016萬，驗證集125.5萬）

邀請專家回復的記錄，包括：1）邀請的問題 ID； 2）被邀請用戶 ID3）邀請創(chuàng)建時間4）邀請是否被回答, 值為 1 表示被回答, 為 0 表示沒有被回答。
評測任務(wù)

?? 任務(wù)描述

評測要求選手根據(jù)提供的數(shù)據(jù)集和 1000 萬條帶標簽的邀請數(shù)據(jù)，預測驗證集中用戶是否會接受某個新問題的邀請。?

使用 AUC 對參賽隊伍提交的數(shù)據(jù)與真實的數(shù)據(jù)進行衡量評估：

相關(guān)研究

LinkPrediction 和專家發(fā)現(xiàn)是數(shù)據(jù)挖掘、社交網(wǎng)絡(luò)分析等領(lǐng)域的重要課題。2015 年，香港科技大學的 Wilfred Ng、浙江大學的何曉飛和南京大學的張利軍在 TKDE 上發(fā)表論文，他們抓取了國外著名問答網(wǎng)站 Quora 上 2012 年 9 月至 2013 年 8 月的 44 萬個問題、88 萬多個回答和近 9.6 萬個用戶的數(shù)據(jù)。在論文中，他們從缺失值估計的視角處理專家發(fā)現(xiàn)問題，并通過用戶的社交網(wǎng)絡(luò)和基于圖的正則化矩陣補全算法（graph-regularized matrix completion algorithm）推斷用戶模型。此外，論文作者還提出了兩個適合圖正則化的優(yōu)化算法 [1]。2016 年，浙江大學的莊越挺、何曉飛等人在 IJCAI 上也發(fā)表了一篇問答社區(qū)中專家發(fā)現(xiàn)的論文。他們把問題的語義表示和問答社區(qū)的網(wǎng)絡(luò)結(jié)構(gòu)整合成一個統(tǒng)一的框架，可以定量分析任意一個用戶對任意一個問題回答的質(zhì)量，然后又發(fā)明了一個基于隨機游走的學習方法，通過深度遞歸神經(jīng)網(wǎng)絡(luò)學習定量問題和用戶之間質(zhì)量關(guān)系的嵌入表示，最終找到最適合回答某個問題的用戶[2]。此外，還有一些其他的研究也探索了相關(guān)問題[3][4][5][6][7]。然而，除了找到問題最合適的用戶，也需要那位用戶對問題感興趣才行。但上文提到的研究沒有考慮專家的意愿 [8]。2016 年，中國人工智能學會、字節(jié)跳動和 biendata.com 聯(lián)合組織了一次評測，目標為預測專家對被推送問題的回答率。比賽吸引了超過一千名選手參加，在學術(shù)界和工業(yè)界都引發(fā)了廣泛的影響。在學術(shù)領(lǐng)域，產(chǎn)生了基于該數(shù)據(jù)集的研究論文[8]，教育界也使用該數(shù)據(jù)作為課程項目 [9][10]。該比賽增加了專家意愿數(shù)據(jù)，如回答歷史紀錄和回答內(nèi)容質(zhì)量，因此比賽獲獎模型提升了性能，冠軍團隊的 NDCG@5 * 0.5 + NDCG@10 * 0.5 分數(shù)為0.50812 [8]。

▲?圖：2016 Byte Cup國際機器學習競賽最終得分排名
與同類數(shù)據(jù)集相比，本次來知乎的數(shù)據(jù)集進一步提升了以下幾方面：
1）數(shù)據(jù)集規(guī)模。知乎目前是中國乃至世界最大的知識分享社區(qū)。數(shù)據(jù)集中的用戶數(shù)超過了類似數(shù)據(jù)集。其他方面的數(shù)據(jù)規(guī)模也比一般的同類數(shù)據(jù)大得多。
2）數(shù)據(jù)集維度。傳統(tǒng)的社區(qū)數(shù)據(jù)集往往缺少隱性反饋行為（implicit feedback），影響了模型最后的性能。這一點在之前對該數(shù)據(jù)進行研究的文獻中亦有提及 [1]。而本次知乎數(shù)據(jù)集包括了大量的隱性反饋行為信息，包括對不同話題、問題的關(guān)注，以及回答的文本等內(nèi)容。
3）很多數(shù)據(jù)集缺乏文本信息，或采用了獨特的文本加密方法，也沒有提供額外的語料協(xié)助參賽者訓練語言模型。而知乎數(shù)據(jù)集將提供大量文本數(shù)據(jù)供選手挖掘其中的語義。
[1]Zhou Zhao, Qifan Yang, Deng Cai, Xiaofei He, Yueting Zhuang., “Expert Finding for Community-Based Question Answering via RankingMetric Network Learning,” IJCAI 2016.[2] Z.Zhao, X. He, D. Cai, L. Zhang, W. Ng, and Y. Zhuang., “Graph RegularizedFeature Selection with Data Reconstruction,” IEEE Transactions on Knowledge andData Engineering (TKDE), 28(3): 689 - 700, 2016.?[3] F. Riahi, Z. Zolaktaf, M. Shafiei, and E. Milios,“Finding expert users in community question answering,” Topic Models ExpertRecommender, pp. 791–798, 2012.[4] Z. Zhao, Q. Yang, D. Cai, X. He, and Y. Zhuang,“Expert finding for community-based question answering via ranking metric network learning,” in International Joint Conference on ArtificialIntelligence, 2016, pp. 3000–3006.[3] F. Han, S. Tan, H. Sun, M. Srivatsa, D. Cai, andX. Yan, “Distributed representations of expertise,” in Siam InternationalConference on Data Mining, 2016, pp. 531–539.[5] K. Balog, Y. Fang, M. De Rijke, P. Serdyukov, andL. Si, “Expertise retrieval,” Foundations and Trends in Information Retrieval,vol. 6, no. 23, pp. 127–256, 2012.[6] X. Liu, M. Koll, and M. Koll, “Finding experts incommunity based question-answering services,” in ACM International Conferenceon Information and Knowledge Management, 2005, pp. 315–316[7] Yuan, S., Zhang, Y., Tang, J. et al. Artif IntellRev (2019). https://doi.org/10.1007/s10462-018-09680-6[8] Saeed, M., Hundekar, M., Kothari A. CSCI567 Project:Byte Cup 2016 (2016).https://pdfs.semanticscholar.org/8213/6507ed7e400bc8e41a22d47ae13984e4e062.pdf[9] Zhou, Q., Yang, L., Legassick, C. CS 567 ProjectReport (2016) http://qijiazhou.me/pdf/bytecup-2016.pdf
智源研究院后續(xù)更多競賽與活動，請關(guān)注研究院公眾號（baaibjkw，二維碼見下），以及大賽首頁（biendata.com/baai）。

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 報名參賽

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的智源-知乎联合发布大规模用户关系数据集，同步开启10万元竞赛的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：第四届AutoDL挑战赛——AutoSp
下一篇： SIGIR 2019 开源论文 | 基于

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

智源-知乎联合发布大规模用户关系数据集，同步开启10万元竞赛

總結(jié)