日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】好资源!近 20 万本 txt 书籍的语料库,可用于 GPT 模型训练和语义分析...

發布時間:2025/3/12 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP】好资源!近 20 万本 txt 书籍的语料库,可用于 GPT 模型训练和语义分析... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

由于缺少規范化的數據集,訓練一個像OpenAI一樣的GPT模型通常很難。現在有了,它就是BookCorpus的"books3"數據集,一個包含196,640本書的txt數據集。

下載鏈接:https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

但在下載這個37Gb的大文件前,我們先了解了解這個數據集。

BookCorpus

https://github.com/soskek/bookcorpus


BookCorpus是一個流行的大型文本語料庫,適合在無人監督下學習句子的編碼/解碼器。但是,BookCorpus 目前已不再更新。

此存儲庫的數據來源包括smashwords的數據,是 BookCorpus 的原始來源。后續收集添加的句子可能有部分不同,但數量會更大更豐富。

最簡單的調用方式是:

from?datasets?import?load_dataset dataset = load_dataset("bookcorpus")

雖然bookcorpus已不再更新,但后續仍有人為該數據集豐富內容,更新信息。其中最突出的就是Shawn在今年9月貢獻的book3語料庫,每本書都以文本文件的形式單獨存儲。

Book3數據集

數據集的質量非常高,作者為了構建數據集,花了一周時間修繕了epub2txt腳本。

新腳本保證了:

  • 正確保留結構,與目錄非常匹配;

  • 正確呈現數據表(默認情況下 html2txt 主要為表生成垃圾查找結果),

  • 正確保留代碼結構,使源代碼和類似內容在視覺上保持一致,

  • 將編號列表從"1\"轉換為"1"。

  • 通過"ftfy.fix_text()運用在全文上 (這是 OpenAI 對 GPT 的用途)運行全文,將Unicode的撇號替換為ascii編碼的撇號;

  • 將 Unicode 橢圓擴展到"..."(三個單獨的 ascii 字符)。

  • book3數據集:
    • 包含196,640本書籍

    • 全部txt格式

    • 鏈接更穩定,可直接下載。鏈接:https://the-eye.eu/public/AI/pile_preliminary_components/books3.tar.gz

    如果想要下載其他數據集,可以訪問:

    https://the-eye.eu/public/AI/pile_preliminary_components/?

    最后

    附上一個書籍的網頁版樣例:《Do It Yourself》

    https://battle.shawwn.com/sdb/books1/books1/epubtxt/do-it-yourself-lifetime-financial-planning.epub.txt

    參考:

    [1]https://www.reddit.com/r/MachineLearning/comments/ji7y06/p_dataset_of_196640_books_in_plain_text_for/?utm_medium=android_app&utm_source=share

    [2]https://github.com/soskek/bookcorpus/issues/27

    [3]https://twitter.com/theshawwn/status/1320282149329784833

    [4]https://github.com/soskek/bookcorpus

    [5]https://huggingface.co/datasets/bookcorpus

    - EOF -

    往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯溫州大學《機器學習課程》視頻 本站qq群851320808,加入微信群請掃碼:

    總結

    以上是生活随笔為你收集整理的【NLP】好资源!近 20 万本 txt 书籍的语料库,可用于 GPT 模型训练和语义分析...的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 国产高清无遮挡 | 99热网址| 午夜草逼| 韩国精品一区二区三区 | 一区二区免费播放 | 在线综合色 | 91在线日韩 | 狠狠五月婷婷 | 精品一区二区三区在线视频 | 亚洲天堂中文字幕在线观看 | 欧美一区二区久久久 | 91在线视频免费看 | 亚洲电影一区二区 | 日韩特黄 | 欧美午夜精品一区 | 91精品国产色综合久久不卡粉嫩 | av在线播放器 | 狠狠躁日日躁夜夜躁 | 国产喷白浆一区二区三区 | 两女双腿交缠激烈磨豆腐 | 性欧美一区二区三区 | 黄a网站 | 欧美色精品 | 91精品国产高清一区二区三区蜜臀 | 人妻aⅴ无码一区二区三区 阿v免费视频 | 久热精品视频在线 | 中文国产视频 | 亚洲一二区在线 | 精品乱子伦一区二区三区 | 国产麻豆精品一区 | 欧美爱爱网站 | 免费啪视频在线观看 | 老司机一区二区三区 | 欧美综合第一页 | 丝袜av在线播放 | 岛国av中文字幕 | 免费成年人视频 | 国产亚洲精品精品国产亚洲综合 | 无码免费一区二区三区 | 亚洲日本中文字幕 | 女人性做爰24姿势视频 | 日韩在线观看视频网站 | 一级二级毛片 | 少妇一级淫片免费放2 | 色偷av| 欧美福利视频 | www黄在线观看 | 操色网 | 国内精品第一页 | 日本大尺度吃奶做爰久久久绯色 | 亚洲精品免费网站 | 国产原创精品 | 午夜欧美精品久久久久久久 | 极品销魂美女一区二区 | 国产成人av网 | www.奇米| 免费看a| 久热精品视频在线 | 国产激情一区二区三区在线观看 | 中文字幕在线资源 | 麻豆毛片| 久草精品在线观看 | 亚洲va在线观看 | 国产视频久久久久久 | 男人的天堂一区 | www.中文字幕在线观看 | 免费的一级黄色片 | 国产精品suv一区二区三区 | 亚洲AV成人无码电影在线观看 | 欧美区一区| 黄色网址在线免费观看 | 免费黄色av| 午夜影院男女 | 国产成人精品无码免费看夜聊软件 | 91蝌蚪少妇偷拍 | 国产精品白嫩极品美女视频 | 欧美人交a欧美精品 | www.在线观看网站 | 国产在线伊人 | 亚洲国产精品国自产拍久久 | 乱lun合集小可的奶水 | 欧美激情自拍偷拍 | 玉足女爽爽91 | 欧美一级不卡 | 成人性生活视频 | 激情视频一区二区 | 色多多污污| 国产不卡在线观看视频 | 国产欧美另类 | 日韩国产欧美一区二区三区 | 国产清纯在线 | www.色就是色| 亚洲天堂av影院 | 国产精品久久久久久久无码 | 亚洲天堂一| 亚洲国产精品一区二区尤物区 | 91精品国产91久久久久久 | 中国女人黄色大片 | 国内精品视频一区 |