Paper Pal:一个中英文论文及其代码大数据搜索平台
點擊上方藍字關注我們
Paper Pal:一個中英文論文及其代碼大數據搜索平臺
余萬,?付聿煒,?熊贇,?朱揚勇
1 引言
在開展科研工作的過程中,科研人員需要從大量實時更新的論文中持續地跟蹤學術界前沿的發展情況,學習最新研究成果。近年來,人工智能(artificial intelligence, AI)、數據挖掘等領域受到的關注度不斷增加,相關會議的論文數量呈爆發式增長。圖1顯示了arXiv數據庫中2010—2019年AI領域的論文增長情況。但是,巨大的論文數量導致科研人員搜索論文的過程中耗費了大量的時間。
圖1???2010—2019年arXiv數據庫中AI領域的論文增長情況
目前,已經有很多論文搜索引擎,如Microsoft Academic、Arxiv Sanity Preserver、Papers With Code以及AMiner等。其中,Microsoft Academic根據研究領域對論文進行了分類,并提供了論文的全文鏈接、所發表的會議或期刊、引用的參考文獻等;Arxiv Sanity Preserver提供了arXiv上論文的瀏覽、搜索和排序功能,并根據用戶收藏的論文,使用TF-IDF和支持向量機(support vector machine,SVM)實現論文推薦。對于計算機領域的科研人員,論文中提出的算法、模型的代碼是相當重要的學習資源,能夠讓人更直觀、快速地理解和掌握一個新算法或新模型,但Microsoft Academic和Arxiv Sanity Preserver等未提供代碼信息。在眾多代碼平臺中, GitHub成為目前非常有代表性的代碼平臺。但是,在搜索論文和對應的代碼時,科研人員需要在不同的搜索平臺上來回切換以獲取論文和代碼,這無疑增加了科研工作的時間。
為了解決論文和論文代碼在空間上的差異問題,Atlas ML推出一個免費、開源的機器學習領域的論文和代碼分享平臺——Papers With Code,該平臺不提供計算機領域的中文論文。AMiner是目前功能較全的研究者、論文搜索平臺,其構建的主要目標是通過整合多源數據提供研究者搜索分析功能來構建研究者網絡和學術論文網絡。該平臺也提供中英文論文的搜索功能,并包含部分可人工編輯的論文相應的代碼鏈接。
不同于AMiner平臺的構建目標,本文聚焦中國計算機領域的科研人員在搜索論文中的實際需求,以“中國計算機學會(China Computer Federation,CCF)推薦分區論文+代碼+中文期刊+推薦”為定位,設計和實現了一個使用友好、免費、開源的計算機領域論文與代碼搜索系統——Paper Pal。
Paper Pal針對中國計算機領域的科研人員需求,按照CCF推薦論文分區對平臺中的論文進行分類,提供方便的選項卡和搜索支持,平臺功能更加聚焦。目前, Paper Pal共收錄英文文獻29 507篇、中文文獻2 130篇以及代碼6 147份,覆蓋人工智能、數據挖掘領域的CCF分區的35個A類和B類會議以及四大計算機領域中文期刊(《計算機學報》《軟件學報》《計算機研究與發展》《大數據》)。同時,平臺具有可擴展性,將持續收集整合新的會議和期刊的論文。
此外,用戶也可以采用關鍵詞、期刊名、會議名等方式進行論文搜索。Paper Pal還提供論文收藏功能,以便用戶記錄、整理以及追溯,同時將用戶收藏的論文作為用戶的行為數據來源,利用系統內置的論文推薦功能,推測用戶可能感興趣的論文,幫助用戶在更短的時間內找到所需要的資料,進一步提升用戶的使用體驗。表1對Paper Pal和上述其他論文搜索平臺進行了對比。
2 相關技術
Paper Pal平臺負責對論文及其代碼進行收集、存儲并提供搜索和推送功能。這里需要解決幾個問題:第一,數據是多來源的,如何合理地進行數據整合,以提升平臺數據質量是基礎;第二,論文數據是文本類型,如何有效地進行存儲和預處理是核心;第三,平臺中既有中文論文又有英文論文,如何提供精準搜索是關鍵。針對上述問題,本文采用了當前大數據領域中主流的數據獲取、數據存儲和數據檢索技術,并根據本系統的特點進行了改進,包括在MongoDB與Elasticsearch之間進行數據同步,從而實現在利用MongoDB數據存儲的優勢和Elasticsearch強大的中文搜索能力的同時,保證搜索結果與數據存儲更新的同步。此外,采用面向異質網絡的推薦模型對用戶的搜索行為進行分析,以實現論文推送。
2.1 數據獲取與存儲
實現Paper Pal的第一步是收集論文及其相關數據,目前本系統收集了CCF推薦分區A類、B類會議近3年發表的人工智能、數據挖掘領域的論文。數據來自DBLP上論文所在的期刊、會議的詳細信息。同時,從Microsoft Academic上獲取了論文被引用的次數。綜合上述信息,系統提供的論文相關信息包括論文的標題、作者、出版日期、論文PDF文檔鏈接和被引用的次數等。除英文論文外,Paper Pal還從計算機領域的中文期刊中獲取了中文論文數據。
獲取到論文信息后,進一步整合論文中介紹的模型和算法的相關代碼。系統將GitHub當作Paper Pal的代碼數據來源,通過GitHub提供的API來獲取代碼數據。雖然有些論文沒有論文原作者公布的代碼,但是會有其他研究人員在GitHub上分享實現的代碼。
收集完論文數據和對應的代碼之后,將其存儲到數據庫中。本系統使用MongoDB提供數據存儲和管理服務。每篇英文論文的記錄有11個屬性,分別為:論文的ID、標題、摘要、作者、發布日期、代碼鏈接、PDF鏈接、關鍵詞、被引用次數、發表會議或期刊、發表年份。
2.2 中英文論文搜索方法
Paper Pal收集的論文包括中文論文和英文論文。為實現更高效、準確、方便的中英文檢索功能,Paper Pal選取Elasticsearch作為搜索引擎。Elasticsearch是一個開源的、基于Lucene的分布式數據搜索引擎,能夠提供快速的檢索功能,具有易擴展、近實時的特點。Elasticsearch的倒排索引功能能夠有效地提高多條件查詢的檢索效率;Elasticsearch支持中文分詞插件IK Analyzer,能夠更好、更方便地滿足Paper Pal對中文文獻的檢索需求。除此之外,Elasticsearch還有與之配套的可視化工具Kibana和日志收集分析工具Logstash,能夠為Paper Pal提供日志收集、文本檢索和數據可視化分析整套流程的服務。
但Elasticsearch容易因為軟硬件崩潰而造成數據丟失且無法恢復,因此Elasticsearch通常與關系型數據庫或非關系型數據庫配合使用,其中數據庫作為持久化存儲組件提供約束限制和系統魯棒性保證,而Elasticsearch基于數據內容實現復雜的搜索查詢。Paper Pal的數據被存儲在MongoDB中,在本系統中,筆者把MongoDB的論文數據同步到Elasticsearch中,并實時監聽MongoDB中數據的更新情況。如圖2所示,Paper Pal使用Mongo-connector來跟蹤事先建立好的MongoDB Replica Set的oplog(operations log),利用Mongoconnector的文檔管理器Elastic2doc-manager將MongoDB的數據導入Elasticserach,并實時監聽oplog的變化,以保持Elasticsearch與MongoDB之間數據的同步。
圖2???將MongoDB的數據同步到Elasticsearch中
2.3 論文推薦方法
考慮到目前收集的用戶數據有限,目前Paper Pal使用與Arxiv Sanity Preserver相似的基于內容的推薦方法,即根據用戶收藏的論文的標題與摘要,使用TF-IDF和SVM將論文的詞頻等作為特征來計算其他論文和用戶收藏的論文在詞的語義上的相似度。同時,Paper Pal系統內置了筆者提出的基于異質網絡表示學習的基于元路徑增強的圖注意力編碼(metapath enhanced graph attention encoder, MEGAE)模型,模型框架如圖3所示。該模型將論文、用戶看成一個異質網絡,將用戶搜索以及收藏的論文作為用戶和論文之間的邊,當用戶注冊并登錄Paper Pal后,Paper Pal會將用戶收藏和瀏覽的論文信息記入數據庫,這些數據將被用來更新網絡,為推薦功能積累數據來源。例如,當用戶A看了論文B之后,Paper Pal會在異質網絡中為用戶A和論文B添加一條連邊。Paper Pal使用MEGAE模型學習異質網絡中每個不同節點的低維向量表示和異質網絡結構信息,捕捉用戶的興趣點,從而為用戶推薦論文。比起單純使用詞頻作為特征進行推薦,MEGAE模型不僅能捕捉到異質網絡的結構信息,同時還能學習到異質網絡中隱含的語義關系,實現更精準的個性化推薦。根據本系統的特點,即論文具有CCF分區信息,發表論文的會議或期刊所屬的CCF分區和論文領域可以作為論文的標簽加入論文節點的屬性中,即將MEGAE模型應用到考慮節點屬性的屬性網絡圖中。
圖3???MEGAE模型框架
3 平臺效果
Paper Pal平臺為中國計算機領域的科研工作者提供了“分區搜索”功能,即直接進入CCF推薦分區會議或中文期刊進行搜索(如圖4所示)。用戶可以選擇瀏覽CCF推薦分區會議或中文期刊的論文,系統根據用戶的選擇顯示相應的論文列表。論文列表包括論文的標題、作者、發表日期、摘要、PDF文檔鏈接、代碼鏈接以及被引次數等信息。考慮到存在具體某一期刊/會議論文數量多并且用戶只想搜索該期刊/會議下的論文的情況,Paper Pal為用戶提供兩種搜索范圍,一種是在所有期刊/會議下進行搜索,另一種是在某個特定的期刊/會議下進行搜索。“分區搜索”是區分于其他平臺的重要功能。因為用戶對高質量論文的關注度通常更高,所以本功能通過給出中國計算機學會的高質量會議推薦列表及其中的論文,為用戶提供直接的搜索服務。而在現有其他平臺上,用戶必須先去查閱哪些會議在中國計算機學會的推薦列表中,然后再到搜索平臺中用關鍵詞進行檢索。因此,本平臺將大幅減少用戶在搜索高質量論文(計算機學會推薦列表中的會議論文)時耗費的時間。此外,用戶耗費相當時間查閱到所需的會議名之后,在現有其他平臺上將會議名作為關鍵詞進行搜索時,搜索結果會出現偏差。例如international conference on machine learning(ICML)中有“machine learning”,若將“machine learning”作為關鍵詞進行搜索,將會把該詞作為標題或摘要等中的匹配詞返回,而不是搜索ICML。最后,如果在現有其他平臺上直接使用會議名的縮寫來搜索會議,對搜索質量將是更大的挑戰。因此,本平臺的搜索聚焦關鍵詞與論文主題等的匹配度,而不需要考慮以會議名為關鍵詞的匹配,所以,本平臺具有更高的精準度。
圖4???Paper Pal的“分區搜索”頁面
當用戶查閱到自己感興趣的論文時,可以進入論文的詳情頁面,將論文添加到收藏夾中。Paper Pal根據論文的標題和摘要使用TF-IDF和SVM生成該論文的相似論文目錄。用戶可在論文的詳情頁面(如圖5所示),進一步查看與當前論文相似的論文。Paper Pal基于MEGAE模型的論文推薦功能需用戶注冊、登錄,并且在平臺積累到一定數量的用戶收藏數據后才能使用。MEGAE模型使用圖注意力編碼器來捕捉網絡結構的信息,能夠增強模型的可解釋性,同時還能學習到由論文、作者、會議/期刊等構成的異質網絡中隱含的語義關系,實現更精準的個性化推薦。例如,可以根據論文是否具有合作者或論文是否發表在不同會議上等不同的條件,實現不同語義路徑下的推薦。其生成的推薦目錄可在“為您推薦”版塊中查閱。
圖5???論文的詳情頁面
Paper Pal也將持續收集和更新一系列公開的數據集,并根據不同的研究方向對數據集進行劃分(如圖6所示)。
圖6???公開數據集頁面
4 結束語
本文設計和實現了一個論文及其代碼大數據搜索系統——Paper Pal,旨在為中國計算機領域的科研人員提供一個功能更全面的中英文論文及其代碼大數據搜索工具。該平臺基于多源數據獲取、MongoDB數據庫存儲、非結構化文本抽取轉換和Elasticsearch中文數據檢索等方法和技術,整合了CCF推薦分區會議和部分國內計算機領域的中文期刊的論文及其已公開在GitHub上的代碼,并提供論文及其代碼大數據搜索功能;還采用面向異質網絡的推薦模型實現用戶搜索行為分析,為用戶推送感興趣的論文。Paper Pal平臺將大幅縮短科研人員查找文獻的時間,幫助科研人員在更短的時間內更有效地獲取更多、更全面的資料,并且該平臺中積累的計算機領域高質量中英文論文、代碼及其數據集形成了科研成果研究的大數據資源庫,為科研大數據研究提供了豐富的數據基礎,也為科研趨勢分析研究提供了數據支持,對持續開展科研領域的成果進展研究具有重要意義。
作者簡介
余萬(1997-),男,復旦大學計算機科學技術學院、上海市數據科學重點實驗室碩士生,主要研究方向為數據挖掘及其應用 。
付聿煒(1994-),男,復旦大學計算機科學技術學院、上海市數據科學重點實驗室碩士生,主要研究方向為異質網絡、推薦系統 。
熊贇(1980-),女,復旦大學計算機科學技術學院教授、博士生導師,上海市數據科學重點實驗室副主任。從2004年起從事數據領域方面的研究工作,作為項目負責人,主持多項國家自然科學基金項目、上海市科學技術委員會發展基金項目以及企業合作項目。在國際權威期刊和會議論文集上發表論文80余篇,出版著作3本。目前主要研究方向為數據科學和大數據 。
朱揚勇(1963-),男,復旦大學計算機科學技術學院教授、博士生導師,上海市數據科學重點實驗室主任。從1989年起從事數據領域的研究工作,1996年開始從事數據挖掘研究工作,2004年開始從事數據科學研究工作,是國內最早一批從事數據挖掘研究工作的學者和國際數據科學研究工作的主要倡導者之一。2009年發表了數據科學論文“Dataexplosion,datanatureanddataology”,并出版第一本數據科學專著《數據學》。主持國家自然科學基金項目、國家863計劃項目、上海市科學技術委員會重點項目等數十項研究課題,曾獲上海市科技進步獎一、二、三等獎。在國內外權威期刊或會議上發表論文150余篇,出版專著2本,教材3本。目前主要研究方向為數據科學和大數據 。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的Paper Pal:一个中英文论文及其代码大数据搜索平台的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者:赵永恒(1964-),男,博士,中
- 下一篇: 作者:徐优俊(1990-),男,北京大