日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP语料、数据集

發布時間:2025/3/21 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP语料、数据集 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

醫療NLP領域

https://github.com/lrs1353281004/Chinese_medical_NLP

為中文自然語言處理領域發展貢獻語料

來自 <https://github.com/brightmart/nlp_chinese_corpus>

1.維基百科(wiki2019zh)100萬個結構良好的中文詞條

2.新聞語料(news2016zh)250萬篇新聞,含關鍵詞、描述

3.百科問答(baike2018qa)150萬個帶問題類型的問答

4.社區問答json(webtext2019zh)410萬個高質量社區問答,適合訓練超大模型

5.翻譯語料(translation2019zh)520萬個中英文句子對

Chinese-poetry: 最全中華古詩詞數據庫

來自 <【Github】Chinese-poetry: 最全中華古詩詞數據庫>

THUCTC: 一個高效的中文文本分類工具包

來自 <THUCTC: 一個高效的中文文本分類工具>

?實體識別

https://github.com/CLUEbenchmark/CLUENER2020

清華大學開源的文本分類:CLUE

中文NLP.數據集搜索:https://www.cluebenchmarks.com/dataSet_search.html

綜合

CLUEDatasetSearch:中英文NLP數據集

幾乎最全的中文NLP資源庫

對話語料

chinese_chatbot_corpushttps://github.com/codemayq/chinese_chatbot_corpus

任務型對話:Task-Oriented-Dialogue-Research-Progress-Surveyhttps://github.com/AtmaHou/Task-Oriented-Dialogue-Research-Progress-Survey?用于對話系統的中英文語料https://github.com/candlewill/Dialog_Corpushttps://github.com/candlewill/Dialog_Corpus

總結

以上是生活随笔為你收集整理的NLP语料、数据集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。