當(dāng)前位置：首頁 >

影子图书馆“安娜的档案”宣布获得超星旗下读秀数据库 359TB 图书

發(fā)布時(shí)間：2024/9/18 50 生活家

生活随笔收集整理的這篇文章主要介紹了影子图书馆“安娜的档案”宣布获得超星旗下读秀数据库 359TB 图书小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

感謝網(wǎng)友 Alejandro86、軟媒用戶1520111 的線索投遞！

11 月 5 日消息，影子圖書館“安娜的檔案”官方博客當(dāng)?shù)貢r(shí)間 10 月 4 日宣布，該網(wǎng)站現(xiàn)已經(jīng)收購一批“獨(dú)特的”750 余萬份、共計(jì) 359TB 的電子圖書，并表示愿意為一系列大語言模型公司提供獨(dú)家早期訪問權(quán)限，以獲得高質(zhì)量的圖書 OCR（注：Optical Character Recognition，光學(xué)字符識(shí)別）和文本提取。

“安娜的檔案”在博客中介紹，讀秀是由超星數(shù)字圖書館創(chuàng)建的大量掃描圖書的數(shù)據(jù)庫，大多數(shù)是學(xué)術(shù)圖書，通過掃描可以使它們以數(shù)字化的形式提供給大學(xué)和圖書館。“安娜的檔案”表示曾希望批量獲取它，并為此分配了多個(gè)月的全職工作。

最終，一位“不可思議、了不起、才華橫溢”的志愿者宣布已經(jīng)完成上述所有工作，并為之“付出巨大代價(jià)”，并無償分享了所有藏品。

圖源 Pixabay

從總數(shù)來看，這個(gè)收藏品共有 7543702 個(gè)文件，多過另一家“影子圖書館”Library Genesis 的 530 萬本非虛構(gòu)圖書。

不過，圖書的原作者通常不會(huì)喜歡利用“影子圖書館”來訓(xùn)練 AI 大模型的行為。據(jù)此前報(bào)道，上個(gè)月美國就有多名作家向紐約聯(lián)邦法院提起訴訟，指控 Meta、微軟等科技巨頭未經(jīng)許可使用他們的作品來訓(xùn)練 AI 模型。

這一作家團(tuán)體此前已經(jīng)提交了擬議集體版權(quán)訴訟，文件稱 Meta 和微軟采用了具有爭(zhēng)議的“Books3”數(shù)據(jù)集來訓(xùn)練他們的大模型，告訴大模型如何回應(yīng)人類的提示和指令。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，所有文章均包含本聲明。

總結(jié)

以上是生活随笔為你收集整理的影子图书馆“安娜的档案”宣布获得超星旗下读秀数据库 359TB 图书的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： es搜索热度属性_是不是场吊打局？奥迪A
下一篇：广州张先生买了台新电脑，回来发现是二手的

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

影子图书馆“安娜的档案”宣布获得超星旗下读秀数据库 359TB 图书

總結(jié)