文本分类数据集_181个NLP教程,481个文本数据集,Colab一键直达,无需环境配置...
學習NLP不用愁了。
算力、環境配置谷歌提供,Colab套件對NLP全場景支持。
有了算力,還差教程,現在NLP學習合集大全套來了。
△超強NLP合集
網站名直譯過來就是——超強NLP合集!
181個超全資源合集,各個類型全都有,總有一款適合你。
△資源概覽
資源怎么使用?
光說不練假把式,既然是資源,就是讓人用的,滿滿干貨,無套路。
使用資源只需要三步:
1、打開網站,選擇、搜索自己感興趣的內容,比如搜索NLP領域最火的BERT。
△網站地址見文末
2、可以按描述內容選擇自己感興趣的模型,打開最后一列的Colab鏈接。
得益于谷歌的慷慨,無需擔心環境配置,直接進去學習即可。
這里以第一個BERT搜索結果為例?。
△Transfer Learning with BERT
3、在進入Colab之后,和本地notebook文件使用方法是一樣的,檢查好配置之后,就可以按照目錄進行學習,實時交互反饋結果。
這也是這份合集的意義,不再是干巴巴的說教,而是圖文并茂可運行的實例,練起來!
總有一款模型適合你
當然,BERT只是其中一種類型,如果還沒看夠,下面是我們梳理的一些分類,可供選用。
1、按所用模型分類,可分為ANN、AxCell、BERT、CNN、GPT-2、LSTM等;
2、按任務類型分類,可分為分類、對話系統、詞嵌入、語言模型、機器翻譯、問答系統、情感分析等;
3、按所用框架分類,可分為PyTorch、TensorFlow、Keras等。
基本上涵蓋了現在NLP發展的全景,不論是框架還是模型、任務,你都能在這里找到適合自己學習的對象。
此外,你也可以為抗擊疫情出份力。
△COVID-19相關內容
可以BERT來了解疫情期間人們的情緒變化,內容豐富,目錄清晰,上手即可操作。
比如說OpenAI剛更新的GPT模型,當然,受限于時間,現在只有GPT-2模型,但了解一下GPT本身也是好的。
△GPT-2模型
其中有一位國人作者,15 億參數 GPT2 中文預訓練模型,可以對GPT2本身有直觀了解。
并且和谷歌drive一起使用,數據集存放也非常方便,全部流程只需點擊兩次。
模型本身已經被訓練完畢,只需要加載訓練使用即可,就這么簡單,適合想直接使用的研究。
神奇的小網站
在作者發布之后,Reddit一片感謝貼,畢竟這么簡單無套路的資源合集,可以說很良心了。
△討論區圖
而且這個搜集資源的小網站也是個好去處,481個數據集,從幾M到上G,從CSV格式到JSON格式,應有盡有,可以馬克一下作為資源站收藏。
△數據集
還有,他們還開發了一款名為RABBIT的文本分類器,可以實時對媒體報道進行分類,幫助我們更好分辨媒體報道的傾向性。
△文本分類器RABBIT
媽媽再也不用擔心我被“FAKE NEWS”騙了。
??使用教程和下載數據集都要大路暢通喲~
僅僅教程收藏是沒用的,一定要自己上手試試喲~
參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/gvsh51/p_181_nlp_colab_notebooks_found_here/
https://notebooks.quantumstat.com
往期推薦 鐘南山團隊攜手騰訊研發新冠重癥AI預測模型,登上Nature子刊本周優秀開源項目分享,人員檢測和跟蹤、OCR工具庫、漢字字符特征提取工具 等8大開源項目干貨 |分享17個機器學習的常用算法!機器學習必讀TOP 100論文清單:高引用、分類全、覆蓋面廣丨GitHub 21.4k星 與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的文本分类数据集_181个NLP教程,481个文本数据集,Colab一键直达,无需环境配置...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网络操作系统_全球首个大网级网络操作系统
- 下一篇: snmp 获取 虚拟机硬盘_服务器出故障