當前位置：首頁 >

【论文相关】1.1 T 的 arXiv 数据集：170 万篇论文，可以看到下辈子

發布時間：2025/3/8 23 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文相关】1.1 T 的 arXiv 数据集：170 万篇论文，可以看到下辈子小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

By 超神經

內容提要：近日，arXiv 將 170 萬+ 篇的論文，打包成數據集，放在了 kaggle 平臺，以后訪問和下載論文，就更方便了。該數據集目前大小 1.1 TB 左右，而且之后還會隨著每周的更新持續增長。

關鍵詞：arXiv 數據集?

170 萬+ 篇學術論文，1.1 TB 大小，這是 arXix 最近在 kaggle 開放的一套數據集，網友問訊驚呼：太酷了！

網友評論區紛紛捧場：太棒了！

數據集整理團隊表示，希望能以此激發相關研究者，探索更豐富的機器學習技術，提出更多的發現和創新。

?開放數據集，讓論文搜索更簡單

近 30 年來，arXiv 為公眾和研究團隊提供學術文章的開放訪問渠道，這些學術論文涵蓋的領域極為廣泛，從物理學的龐大分支，到計算機科學的眾多分支，再到數學、統計學、電子工程、定量生物學和經濟學等所有學科。

這些 arXiv 上大量的研究論文，雖然很多人從中獲益，但也經常有人反映，它存在瀏覽、搜索和排序不方便等缺點。甚至有人還專門找到一些在 arXiv 上搜論文的技巧分享出來。

于是，為了讓 arXiv 更加易于訪問，康奈爾大學現在在 Kaggle 上提供了一個免費、開放的 arXiv 數據集。

康奈爾大學發表博文宣布這一消息

該數據集包含了 170 萬篇學術論文，還包含了論文相關的元素（features），例如文章標題、作者、類別、摘要以及全文 PDF 等。

arXiv 執行董事 Eleonora Presani 介紹說：「在 Kaggle 上擁有整個 arXiv 語料庫，極大地增加了 arXiv 論文的潛力。通過在 Kaggle 上提供數據集，我們不再只是讓大家通過閱讀這些文章學到知識，更重要的是，將 arXiv 背后的數據和信息，以機器可讀的格式提供給公眾。」

Eleonora Presani?是?arXiv 的第一任執行董事

Presani 還說：「arXiv 不僅僅是一個論文庫，它還是一個知識共享的平臺。這要求我們在展示和解釋可用知識的方式上，不斷創新。而 Kaggle 用戶可以幫助突破這一創新的極限，它成為了我們進行社區協作的新渠道?！?/p>

?圍觀：arXiv 數據集都包括些啥？

arXiv 數據集基本信息如下：

arXiv?Dataset

發布人員：?Paul Ginsparg，Moonshot Factory，Jack Hidary

包含數量：170 萬+?篇學術論文

數據格式：json

數據大小：1.1?TB

發布時間：2020 年 8?月

下載地址：https://www.kaggle.com/Cornell-University/arxiv

目前，arXiv 數據集提供了 json 格式的元數據文件，它包含每篇論文的相關條目，具體如下：

id：論文訪問地址，可用于訪問論文；
submitter：論文提交者；
authors：論文作者；
title：論文標題；
comments：論文頁數和圖表等其它信息；
journal-ref：論文發表的期刊信息；
doi：數字對象標識符；
abstract：論文摘要；
categories：論文在 arXiv 所屬類別或標簽；
versions：論文版本。

可以輕松地在這些浩如煙海的論文中進行遍歷、篩選、查閱。

數據集目前已更新了 5 個版本

此外，用戶還可以通過以下兩個鏈接直接在 arXiv 上訪問每篇論文：

https://arxiv.org/abs/{id}：論文頁面，包括摘要和其他鏈接；
https://arxiv.org/pdf/{id}：論文 PDF 下載頁面。

還可以批量訪問：用戶可以在谷歌云存儲上的 bucket gs://arxiv-dataset 上免費獲取完整的 PDF 文件，或通過谷歌API （json documentation 和 xml documentation）來獲取。

論文 PDF 文件被分組到 tarpdfs 文件夾的幾個 .tar.gz 文件中，整套數據集大約有 1.1TB 大小。具體如下所示（以下分別是?2010 年 1 月（1001）的 1、2、3 部分字段）：

tarpdfs/arXiv_pdf_1001_001.tar.gz??(gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_001.tar.gz) tarpdfs/arXiv_pdf_1001_002.tar.gz??(gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_002.tar.gz) tarpdfs/arXiv_pdf_1001_003.tar.gz? (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_003.tar.gz)

用戶還可以使用 gsutil 之類的工具，將數據下載到本地計算機。

數據集中的元數據示例

不過，這個數據集具體有哪些使用場景呢？很多網友已經有了想法，比如主題建模、用該數據訓練 GPT-3 等。

?arXiv：巨大的學術論文資源庫

科研學術圈的同學，對 arXiv 一定都不陌生。

它是一個收集物理學、數學、計算機科學與生物學論文預印本的網站，不僅為廣大科研人員提供了一個 idea「占坑」的平臺，也是大家搜索、閱讀論文的巨大資源庫。

截至 2008 年 10 月，arXiv.org 已收集超過 50 萬篇預印本；至 2014 年底，其藏量達到 100 萬篇；截至 2016 年 10 月，arXiv 提交量每月已經超過 10000 篇。

目前?arXiv 上的學術論文已經有約?174.46?萬篇

arXiv 最早是由物理學家保羅·金斯巴格，在 1991 年建立的網站，本意是收集物理學的論文預印本，隨后括及天文、數學等其它領域。

arXiv 原先掛在洛斯阿拉莫斯國家實驗室(LANL)，因此早期被稱為「LANL預印本數據庫」。目前 arXiv 落腳于康奈爾大學，并在全球各地設有鏡像站點。網站在 1999 年改名為 arXiv.org。

現在，用通俗的話來說，arXiv 就是一個用來「占坑」的網站，研究者們為了防止自己的 idea 在論文被收錄之前被別人剽竊，就會將預稿先發表在 arXiv 上，以證明自己的原創性。

參考資料：

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json

https://zh.wikipedia.org/wiki/ArXiv

—— 完 ——

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券，復制鏈接直接打開：https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群請掃碼進群（如果是博士或者準備讀博士請說明）：

總結

以上是生活随笔為你收集整理的【论文相关】1.1 T 的 arXiv 数据集：170 万篇论文，可以看到下辈子的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【NLP】基于机器学习的文本分类！
下一篇：高额奖金+实习机会+官方证书丨微众银行

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【论文相关】1.1 T 的 arXiv 数据集：170 万篇论文，可以看到下辈子

總結