日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

bert模型使用记录

發(fā)布時(shí)間:2023/12/10 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 bert模型使用记录 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

使用記錄1

代碼采用如下鏈接的,并做了微改

Bert-Chinese-Text-Classification-Pytorchhttps://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch

數(shù)據(jù)集使用的是情感分析數(shù)據(jù)集,有測試集、驗(yàn)證集和訓(xùn)練集,忘了哪下的了,找到鏈接會發(fā)出來。

首先說一下遇到的問題,上面的代碼沒問題,主要的問題出在數(shù)據(jù)集的讀取上,因?yàn)檫@個(gè)是.data文件,用了numpy和pandas庫讀取均出現(xiàn)錯(cuò)誤,而且數(shù)據(jù)集的打開方式如果直接用txt方式打開會是亂碼,谷歌了一下,最后采用的方法很直接,直接在.data后面加.txt,能成功打開并且格式不亂,很神奇,修改model里面的數(shù)據(jù)集路徑,直接用bert模型跑,下面是參數(shù)不同時(shí),loss和acc的變化表。

環(huán)境為 3060 6G python=3.7

torch ? ? ? ? ? ? ? ? ? 1.10.1+cu113
torchtext ? ? ? ? ? ? ? 0.11.2
torchvision ? ? ? ? ? ? 0.11.2+cu113

self.require_improvement = 1000 # 若超過1000batch效果還沒提升,則提前結(jié)束訓(xùn)練self.num_classes = len(self.class_list) # 類別數(shù)self.num_epochs = 10 # epoch數(shù)self.batch_size = 64#128 # mini-batch大小self.pad_size = 32 # 每句話處理成的長度(短填長切)self.learning_rate = 5e-5 # 學(xué)習(xí)率self.bert_path = './bert_pretrain'self.tokenizer = BertTokenizer.from_pretrained(self.bert_path)self.hidden_size = 768

預(yù)訓(xùn)練模型從這里下,我采用的是chinese_wwm_pytorch模型,鏈接找到就放抱抱臉https://huggingface.co/models

首先先進(jìn)行小規(guī)模測試,epoch=2,batchsize=64,其他不變,Test Loss: ?0.69, ?Test Acc: 54.43%

然后增加參數(shù),epoch=10,batchsize=64,Test Loss: ?0.24, ?Test Acc: 91.71%

如果降低padsize會降低acc

采用bert-base-uncasedhttps://huggingface.co/bert-base-uncased

Test Loss: ?0.54, ?Test Acc: 74.56%?

總結(jié)

以上是生活随笔為你收集整理的bert模型使用记录的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。