日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】好资源!近 20 万本 txt 书籍的语料库,可用于 GPT 模型训练和语义分析...

發布時間:2025/3/12 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP】好资源!近 20 万本 txt 书籍的语料库,可用于 GPT 模型训练和语义分析... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

由于缺少規范化的數據集,訓練一個像OpenAI一樣的GPT模型通常很難。現在有了,它就是BookCorpus的"books3"數據集,一個包含196,640本書的txt數據集。

下載鏈接:https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

但在下載這個37Gb的大文件前,我們先了解了解這個數據集。

BookCorpus

https://github.com/soskek/bookcorpus


BookCorpus是一個流行的大型文本語料庫,適合在無人監督下學習句子的編碼/解碼器。但是,BookCorpus 目前已不再更新。

此存儲庫的數據來源包括smashwords的數據,是 BookCorpus 的原始來源。后續收集添加的句子可能有部分不同,但數量會更大更豐富。

最簡單的調用方式是:

from?datasets?import?load_dataset dataset = load_dataset("bookcorpus")

雖然bookcorpus已不再更新,但后續仍有人為該數據集豐富內容,更新信息。其中最突出的就是Shawn在今年9月貢獻的book3語料庫,每本書都以文本文件的形式單獨存儲。

Book3數據集

數據集的質量非常高,作者為了構建數據集,花了一周時間修繕了epub2txt腳本。

新腳本保證了:

  • 正確保留結構,與目錄非常匹配;

  • 正確呈現數據表(默認情況下 html2txt 主要為表生成垃圾查找結果),

  • 正確保留代碼結構,使源代碼和類似內容在視覺上保持一致,

  • 將編號列表從"1\"轉換為"1"。

  • 通過"ftfy.fix_text()運用在全文上 (這是 OpenAI 對 GPT 的用途)運行全文,將Unicode的撇號替換為ascii編碼的撇號;

  • 將 Unicode 橢圓擴展到"..."(三個單獨的 ascii 字符)。

  • book3數據集:
    • 包含196,640本書籍

    • 全部txt格式

    • 鏈接更穩定,可直接下載。鏈接:https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

    如果想要下載其他數據集,可以訪問:

    https://the-eye.eu/public/AI/pile_preliminary_components/?

    最后

    附上一個書籍的網頁版樣例:《Do It Yourself》

    https://battle.shawwn.com/sdb/books1/books1/epubtxt/do-it-yourself-lifetime-financial-planning.epub.txt

    參考:

    [1]https://www.reddit.com/r/MachineLearning/comments/ji7y06/p_dataset_of_196640_books_in_plain_text_for/?utm_medium=android_app&utm_source=share

    [2]https://github.com/soskek/bookcorpus/issues/27

    [3]https://twitter.com/theshawwn/status/1320282149329784833

    [4]https://github.com/soskek/bookcorpus

    [5]https://huggingface.co/datasets/bookcorpus

    - EOF -

    往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:

    總結

    以上是生活随笔為你收集整理的【NLP】好资源!近 20 万本 txt 书籍的语料库,可用于 GPT 模型训练和语义分析...的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。