當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

huggingface tokenizer错误

發布時間：2023/12/15 综合教程 40 生活家

生活随笔收集整理的這篇文章主要介紹了 huggingface tokenizer错误小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

如果繼承了Tokenizer例如mTokenizer(GPT2Tokenizer)，在__init__中加入了一些新tokens，這樣在save之后from_pretrained時不能用mTokenizer.from_pretrained，會報錯。

AssertionError: Non-consecutive added token '<|b_img|>' found. Should have index 50317 but has index 50257 in saved vocabulary.

這是因為from_pretrained調用時是先初始化實例，再從本地文件中加載詞表，因此mTokenizer初始化時會加入新tokens，而從本地詞表中又會再加一次，導致了重復。最好的做法是把加新tokens的過程移出__init__。

以上是生活随笔為你收集整理的huggingface tokenizer错误的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。