日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

huggingface tokenizer错误

發布時間:2023/12/15 综合教程 40 生活家
生活随笔 收集整理的這篇文章主要介紹了 huggingface tokenizer错误 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

如果繼承了Tokenizer例如mTokenizer(GPT2Tokenizer),在__init__中加入了一些新tokens,這樣在save之后from_pretrained時不能用mTokenizer.from_pretrained,會報錯。

AssertionError: Non-consecutive added token '<|b_img|>' found. Should have index 50317 but has index 50257 in saved vocabulary.

這是因為from_pretrained調用時是先初始化實例,再從本地文件中加載詞表,因此mTokenizer初始化時會加入新tokens,而從本地詞表中又會再加一次,導致了重復。最好的做法是把加新tokens的過程移出__init__。

總結

以上是生活随笔為你收集整理的huggingface tokenizer错误的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。