再见,Microsoft Academic——你好,开放式研究基础设施?
【翻譯于 Aaron Tay、Alberto Martín-Martín 和 Sven E. Hug 的《Goodbye, Microsoft Academic – Hello, open research infrastructure?》】
今年晚些時候宣布關(guān)閉 Microsoft Academic 可能使研究界基本上不為所動,盡管它的消亡對使用該服務(wù)的大量數(shù)據(jù)庫的人具有重大影響。在這里,Aaron Tay、Alberto Martín-Martín和Sven E. Hug ? 討論了 Microsoft Academic 與競爭對手的不同之處,以及 Microsoft 退出學(xué)術(shù)元數(shù)據(jù)以開發(fā)開放式研究基礎(chǔ)設(shè)施的潛在后果。
近日,微軟宣布將關(guān)閉僅次于 Google Scholar 的第二大學(xué)術(shù)搜索引擎 Microsoft Academic。盡管全球科學(xué)界對這一宣布幾乎沒有注意到,但許多計算機科學(xué)家、元研究人員、圖書館員和初創(chuàng)企業(yè)都感到震驚,因為他們一直在圍繞數(shù)據(jù)庫構(gòu)建信息服務(wù)生態(tài)系統(tǒng)。
Microsoft Academic 并不是該公司首次嘗試構(gòu)建文獻搜索工具。作為較早的項目,Microsoft Academic Search 從 2009 年運作到 2012 年一直陷入年久失修,直到 2016 年正式重新啟動為 Microsoft Academic。這表明 Microsoft 從未打算進入學(xué)術(shù)元數(shù)據(jù)業(yè)務(wù)。相反,正如雷德蒙德研究人員最近的一篇文章所暗示的那樣,這家科技巨頭一直在使用學(xué)術(shù)交流數(shù)據(jù)作為大數(shù)據(jù)和人工智能 (AI) 技術(shù)的試驗場。有傳言稱,微軟可能會提供經(jīng)過測試的技術(shù)來從 Office 365 中的文檔中獲取知識。
一個復(fù)雜的搜索引擎
雖然 Web of Science 和 Scopus 等傳統(tǒng)引文索引主要基于選定的期刊,但 Microsoft Academic 的優(yōu)勢在于它抓取網(wǎng)絡(luò)的方式以及使用人工智能技術(shù)填充其數(shù)據(jù)庫。因此,Microsoft Academic 在索引新出版物方面的速度更快并且包含比 Web of Science Core Collection(7900 萬)和 Scopus(7500 萬)多得多的記錄(1.94 億,無專利)也就不足為奇了。Microsoft Academic 還涵蓋范圍更廣的出版物類型(預(yù)印本、工作論文、論文等),并在傳統(tǒng)引文數(shù)據(jù)庫通常無法很好涵蓋的研究領(lǐng)域大放異彩,例如計算機科學(xué)、社會科學(xué)和人文科學(xué)。
“Microsoft Academic 的優(yōu)勢在于它抓取網(wǎng)絡(luò)的方式以及使用 AI 技術(shù)填充其數(shù)據(jù)庫的方式。”
Microsoft Academic 相對于 Google Scholar 的一個主要優(yōu)勢是搜索界面,目前它仍然提供充足的過濾和排序選項,并提供各種排名(主題、期刊、機構(gòu)等)以及摘要統(tǒng)計的可視化。盡管該搜索引擎是免費的,并且為學(xué)者提供了一個集成的社交網(wǎng)絡(luò),但它從未受到研究人員的歡迎,從網(wǎng)絡(luò)流量統(tǒng)計中可以看出:
| scholar.google.com | 137.5 |
| semanticscholar.org | 8.9 |
| scopus.com | 5.2 |
| webofknowledge.com | 4.4 |
| academic.microsoft.com | 0.7 |
這種低使用率的主要原因可能是搜索界面本身。它從根本上不同于傳統(tǒng)的學(xué)術(shù)搜索系統(tǒng),因為它是由人工智能技術(shù)驅(qū)動的。具體來說,該界面提供了真正的語義搜索,而不是使用布爾運算符進行通常的關(guān)鍵字搜索。或者正如微軟曾經(jīng)解釋的那樣:'微軟學(xué)術(shù)理解單詞的含義,它不只是將關(guān)鍵字與內(nèi)容相匹配。例如,當(dāng)您鍵入“Microsoft”時,它就知道您指的是該機構(gòu),并向您顯示由 Microsoft 附屬研究人員撰寫的出版物。此外,搜索引擎基于超過 700,000 個“研究領(lǐng)域”(即主題或概念),這些領(lǐng)域由算法創(chuàng)建并不斷擴展,而其他搜索系統(tǒng)使用固定的、人工策劃的和不太復(fù)雜的分類。此外,搜索引擎采用兩個獨特的指標(biāo),顯著性和估計引用數(shù),這對于大多數(shù)用戶來說難以理解和解釋。總體而言,這些人工智能驅(qū)動的功能創(chuàng)造了一種與用戶習(xí)慣截然不同的搜索體驗。由此看來,所采用的人工智能技術(shù)對用戶來說要么過于前衛(wèi),要么不夠成熟。
大量免費數(shù)據(jù)
雖然搜索引擎尚未被科學(xué)界所接受,但其底層數(shù)據(jù) Microsoft Academic Graph 卻吸引了眾多用戶。有幾個原因。數(shù)據(jù)集龐大,結(jié)構(gòu)良好且詳細。它的使用是免費的,而且訪問很方便(API 或完整的數(shù)據(jù)轉(zhuǎn)儲)。相比之下,直接訪問谷歌學(xué)術(shù)數(shù)據(jù)是不可能的,只能在非常有限的范圍內(nèi)從谷歌學(xué)術(shù)中抓取數(shù)據(jù)。盡管微軟專門采用人工智能技術(shù)來收集和整理數(shù)據(jù),但數(shù)據(jù)質(zhì)量相當(dāng)準(zhǔn)確,適合對學(xué)術(shù)交流的某些方面進行大規(guī)模分析。
“Microsoft Academic 使研究人員和商業(yè)企業(yè)能夠以較低的成本使用全面的元數(shù)據(jù)”
通過這種方式,Microsoft Academic 使研究人員和商業(yè)企業(yè)能夠以較低的成本使用全面的元數(shù)據(jù)。在微軟提供其數(shù)據(jù)庫之前,只有少數(shù)研究所(富裕國家)的研究人員可以訪問大型數(shù)據(jù)集,而擁有此類數(shù)據(jù)的公司大多將其用于自己的產(chǎn)品。自 2015 年以來,介紹 Microsoft Academic Graph的論文已被引用超過 500 次,這表明該數(shù)據(jù)庫在研究中的有用性。該圖還用于許多商業(yè)和非商業(yè)工具和服務(wù)(例如,VOSviewer、Unsub、Litmaps、scite)。甚至還有一些書目數(shù)據(jù)庫和搜索引擎可以利用 Microsoft Academic 的豐富資源(例如Semantic Sc??holar、The Lens、Scinapse)。
盡管 Microsoft Academic 的關(guān)閉不會以同樣的方式影響這些工具和服務(wù)的性能,但很明顯,寶貴的資源將在今年年底丟失。它是否以及如何被取代還有待觀察。最便宜的解決方案是向 Microsoft 支付繼續(xù)使用數(shù)據(jù)庫的費用,這當(dāng)然需要 Microsoft 愿意讓它繼續(xù)運行。每年更新Microsoft Academic Graph 內(nèi)容的云計算成本大致相當(dāng)于一位經(jīng)驗豐富的數(shù)據(jù)科學(xué)家的薪水。數(shù)據(jù)庫的一位開發(fā)人員最近估計將 Microsoft Academic 維持在當(dāng)前的技術(shù)水平所花費的費用大約是中型大學(xué)為傳統(tǒng)引文索引中的數(shù)據(jù)支付的費用的三分之一。
走向開放的研究基礎(chǔ)設(shè)施?
Microsoft Academic 展示了由 AI 技術(shù)收集和整理的公開可用元數(shù)據(jù)的價值。它為研究人員和商業(yè)企業(yè)提供了沃土。當(dāng)然,還有其他開放的元數(shù)據(jù)源。例如,Crossref 包含超過 1.25 億條記錄,其中 4800 萬條具有開放引用,這要歸功于 I4OC 和合作出版商。但是,Crossref 較小,包含的詳細數(shù)據(jù)較少,整理的一致性較差,并且僅索引具有 DOI(數(shù)字對象標(biāo)識符)的出版物。
最后,微軟的項目證明,僅僅公開數(shù)據(jù)庫是不夠的——數(shù)據(jù)庫還必須是可持續(xù)的。如果我們想要開放和可持續(xù)的數(shù)據(jù)庫,那么投入更多時間和資源來構(gòu)建它們可能是一個好主意。首先,我們可以支持那些計劃構(gòu)建開源和免費使用Microsoft Academic 替代品的人。
注: 本文為作者觀點,不代表社會科學(xué)影響博客的立場,也不代表倫敦經(jīng)濟學(xué)院的立場。 如果您對在下面發(fā)表評論有任何疑慮,請查看我們的 評論政策。
總結(jié)
以上是生活随笔為你收集整理的再见,Microsoft Academic——你好,开放式研究基础设施?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PS知识总结
- 下一篇: 腾讯T2大牛亲自教你!5214页PDF的