當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用tf的VocabularyProcessor创建词汇表vocab

發布時間：2025/3/15 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了用tf的VocabularyProcessor创建词汇表vocab 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習tf的時候用到的一個詞匯創建工具，比較方便，記錄其使用方法。

1. 導入

from tensorflow.contrib import learnvp = learn.preprocessing.VocabularyProcessor(100, 0, tokenizer_fn=chinese_tokenizer)

其中VocabularyProcessor（max_document_length,min_frequency=0,vocabulary=None, tokenizer_fn=None)的構造函數中有4個參數

max_document_length是文檔的最大長度。如果文本的長度大于最大長度，那么它會被剪切，反之則用0填充

min_frequency詞頻的最小值，出現次數>最小詞頻的詞才會被收錄到詞表中

vocabulary CategoricalVocabulary 對象，不太清楚使用方法
tokenizer_fn tokenizer function，講句子或給定文本格式 token化得函數，可以理解為分詞函數

2.token化

vp = learn.preprocessing.VocabularyProcessor(10, tokenizer_fn=list) x = list(vp.fit_transform(["abc", "bbd"])) print(x)

創建一個長為10的詞表，然后將字符串token化得到結果為

也可以結合中文來做，當然tokenizer_fn要與文本相適應，可以實現自己的tokenizer function，如

from jieba import cut from tensorflow.contrib import learn import numpy as npDOCUMENTS = ['這是一條測試1','這是一條測試2','這是一條測試3','這是其他測試', ]def chinese_tokenizer(docs):for doc in docs:yield list(cut(doc))vocab = learn.preprocessing.VocabularyProcessor(10, 0, tokenizer_fn=chinese_tokenizer) x = list(vocab.fit_transform(DOCUMENTS)) print(np.array(x))

這里中文引入了jieba分詞，實現了自己的tokenizer函數，輸出結果如下：

CategoricalVocabulary 對象可以先構建一個詞典，再做token化，還是不太熟，但是有一個小demo可以示范：

vocab = learn.preprocessing.CategoricalVocabulary() vocab.get("A") vocab.get("B") vocab.freeze() vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length=4,vocabulary=vocab,tokenizer_fn=list) tokens = vocab_processor.fit_transform(["ABC", "CBABAF"]) print(np.array(list(tokens)))

這里預先創建了一個詞典，添加了"A","B" 進去，并且設置最大文本長度為4，結果如下

我們可以還可以觀察得到的詞典，以dict的形式輸出這是一個詞--->詞表id的映射

vocab_dict = vocab.vocabulary_._mapping print(vocab_dict)

分別輸出以上的中文詞表，和通過CategoricalVocabulary構建的詞表如下

反向的索引即詞表id--->詞的映射這是一個列表

print(vocab_dict) print(vocab.vocabulary_._reverse_mapping)

可以通過id索引到詞

vocab.vocabulary_.reverse(3)

輸出在詞表中id為3的詞

3.存儲和加載

vocab.save('vocab.pickle') vocab = VocabularyProcessor.restore('vocab.pickle')

作者：NLP幼兒園
鏈接：https://www.jianshu.com/p/db400a569730
來源：簡書
簡書著作權歸作者所有，任何形式的轉載都請聯系作者獲得授權并注明出處。

總結

以上是生活随笔為你收集整理的用tf的VocabularyProcessor创建词汇表vocab的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mysql如何管理空间_管理空间的mys
下一篇： java throws catch_ja