来试试读论文的新神器!AMiner发布“论文背景文献”一键生成工具,帮你搞清一篇论文的“来龙去脉”...
來自 DBLP、ArXiv、STM 等多家學(xué)術(shù)出版機(jī)構(gòu)和平臺的數(shù)據(jù)表明,在過去 20 年間,計算機(jī)科學(xué)、物理學(xué)、統(tǒng)計學(xué)等研究領(lǐng)域的出版物總量都有大幅增加。像 CVPR、AAAI 等有關(guān)人工智能等新興領(lǐng)域的頂級會議,每年的論文接受量也已經(jīng)高達(dá)上千篇。面對雨后春筍一樣涌現(xiàn)的學(xué)術(shù)出版物和千上萬篇學(xué)術(shù)論文,任何一名研究者都不可能了解所有新領(lǐng)域,即使這一領(lǐng)域和自己的研究方向近似。
如果有一種工具,可以把一篇論文的源頭梳理清楚,就能極大地減少無效檢索的時間,快速了解一個新領(lǐng)域的發(fā)展脈絡(luò)。
在以往的研究中,計算機(jī)領(lǐng)域的相關(guān)學(xué)者提出了很多數(shù)據(jù)挖掘技術(shù),比如概念抽取、主題演變、算法圖譜等。但是,這些數(shù)據(jù)挖掘技術(shù)更多是著眼于提煉學(xué)術(shù)文獻(xiàn)中的關(guān)鍵術(shù)語信息,研究它們之間的關(guān)系與變化,卻很少關(guān)注學(xué)術(shù)出版物本身較深層次的內(nèi)容以及關(guān)聯(lián)關(guān)系。
近日,AMiner?團(tuán)隊(duì)的碩士生殷達(dá)等人提出一種新方法——論文溯源樹(https://mrt.aminer.cn/),通過刻畫學(xué)術(shù)文獻(xiàn)的發(fā)展演變脈絡(luò),來幫助科研人員了解前沿論文是如何演變而來的。相關(guān)研究論文“MRT: Tracingthe Evolution of Scientific Publications”已被 TKDE 2021 接收。
?“MRT 溯源樹”是一個通過構(gòu)建論文演變圖幫助學(xué)者研究論文發(fā)展的工具,目標(biāo)是研究論文中各種思路方法的演變過程。
以知名 NLP 研究論文“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding”為例,BERT 對于預(yù)訓(xùn)練模型、文本向量、序列編碼等方法的使用來源于語言模型這一方向上的 ELMo、Word2vec、LSTM 等工作中,而 MLM、Transformer 等內(nèi)容則可以追溯到機(jī)器翻譯領(lǐng)域中的 MaskGAN、Attention is all you need 等文章。
圖:BERT 論文溯源(部分)
為了生成關(guān)于 BERT 的“論文溯源樹”,研究團(tuán)隊(duì)采用了檢索,閱讀,構(gòu)圖,推理等若干步驟。
MRT 溯源樹技術(shù)原理
首先,算法將目標(biāo)論文放入諸如 SemanticScholar 或是 AMiner 這樣的開放數(shù)據(jù)源中進(jìn)行檢索,獲取其論文標(biāo)題、摘要及其引用信息,再根據(jù)引用信息擴(kuò)展出多層引用網(wǎng)絡(luò),并采用 PageRank 算法進(jìn)行排序,篩選與目標(biāo)論文較為相關(guān)的文獻(xiàn)。
然后,算法采用 TF-IDF、Sentence-BERT 以及 ProNE 等文本編碼以及圖特征編碼方法對檢索得到的論文網(wǎng)絡(luò)進(jìn)行編碼計算,為每一篇論文生成表示向量。其中,TF-IDF 可以提取論文中表層的關(guān)鍵詞信息;Sentence-BERT 則能夠捕獲到論文中較深層的語義信息;ProNE 則將文本信息放在論文引用網(wǎng)絡(luò)中,用譜傳播的方式將鄰居節(jié)點(diǎn)論文之間的關(guān)聯(lián)性融入論文表示向量中,從而最終得到兼顧文本信息和引用結(jié)構(gòu)信息的論文向量。
另外,在此基礎(chǔ)上,算法采用了 Kernel K-means 等方法,根據(jù)生成的論文向量進(jìn)行聚類排列,連接成帶有多條“溯源路徑”的樹狀結(jié)構(gòu);同時,針對每一類(每一條溯源路徑)中的論文,算法還采用了自動化標(biāo)注算法為其生成標(biāo)簽來概括描述這些論文的主題。Kernel K-means 算法中的核函數(shù)除了用來進(jìn)行聚類外,還被應(yīng)用于計算論文及溯源路徑對于目標(biāo)論文演變的重要性。
到這里,一棵論文溯源樹便就出生了。
圖|論文溯源樹(Demo 地址:https://mrt.aminer.cn/5dd3de98e07b013b38cf3399)
最后,在線上用戶交互過程中,為了方便用戶在閱讀溯源樹過程中可以快速定位當(dāng)前感興趣的相關(guān)論文,算法還應(yīng)用強(qiáng)化學(xué)習(xí)設(shè)計出在線推薦模塊,根據(jù)用戶的閱讀點(diǎn)擊事件動態(tài)推薦相關(guān)論文。
此外,研究團(tuán)隊(duì)還針對上述各個步驟設(shè)計了一系列相關(guān)實(shí)驗(yàn)進(jìn)行驗(yàn)證。考慮到由于缺少標(biāo)注數(shù)據(jù)而難以直接進(jìn)行評估的問題,研究團(tuán)隊(duì)還采用了若干種間接的衡量方法從多個角度對提出方法的有效性進(jìn)行驗(yàn)證評估,并與基線算法進(jìn)行比較,最終驗(yàn)證了算法的優(yōu)越性。
目前,該算法已集成在 AMiner 學(xué)術(shù)信息挖掘系統(tǒng)中(https://mrt.aminer.cn/)。
(來源:https://mrt.aminer.cn/)
在 AMiner 網(wǎng)站上,你可以通過點(diǎn)擊想要生成溯源樹的論文右側(cè)的按鈕來提交生成申請,在排隊(duì)過后系統(tǒng)會自動搜集相關(guān)引用論文并計算生成溯源樹。
快來點(diǎn)擊原文嘗試一下吧~
總結(jié)
以上是生活随笔為你收集整理的来试试读论文的新神器!AMiner发布“论文背景文献”一键生成工具,帮你搞清一篇论文的“来龙去脉”...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实时到账是什么意思
- 下一篇: 博士申请 | 美国布兰迪斯大学张初旭教授