當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

用tf的VocabularyProcessor使用细节

發(fā)布時(shí)間：2025/3/19 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了用tf的VocabularyProcessor使用细节小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、如何創(chuàng)建保存使用

1. 導(dǎo)入

from tensorflow.contrib import learnvp = learn.preprocessing.VocabularyProcessor(100, 0, tokenizer_fn=chinese_tokenizer)

其中VocabularyProcessor（max_document_length,min_frequency=0,vocabulary=None, tokenizer_fn=None)的構(gòu)造函數(shù)中有4個(gè)參數(shù)

max_document_length是文檔的最大長(zhǎng)度。如果文本的長(zhǎng)度大于最大長(zhǎng)度，那么它會(huì)被剪切，反之則用0填充

min_frequency詞頻的最小值，出現(xiàn)次數(shù)>最小詞頻的詞才會(huì)被收錄到詞表中

vocabulary CategoricalVocabulary 對(duì)象，不太清楚使用方法
tokenizer_fn tokenizer function，講句子或給定文本格式 token化得函數(shù)，可以理解為分詞函數(shù)

2.token化

vp = learn.preprocessing.VocabularyProcessor(10, tokenizer_fn=list) x = list(vp.fit_transform(["abc", "bbd"])) print(x)

創(chuàng)建一個(gè)長(zhǎng)為10的詞表，然后將字符串token化得到結(jié)果為

也可以結(jié)合中文來(lái)做，當(dāng)然tokenizer_fn要與文本相適應(yīng)，可以實(shí)現(xiàn)自己的tokenizer function，如

from jieba import cut from tensorflow.contrib import learn import numpy as npDOCUMENTS = ['這是一條測(cè)試1','這是一條測(cè)試2','這是一條測(cè)試3','這是其他測(cè)試', ]def chinese_tokenizer(docs):for doc in docs:yield list(cut(doc))vocab = learn.preprocessing.VocabularyProcessor(10, 0, tokenizer_fn=chinese_tokenizer) x = list(vocab.fit_transform(DOCUMENTS)) print(np.array(x))

這里中文引入了jieba分詞，實(shí)現(xiàn)了自己的tokenizer函數(shù)，輸出結(jié)果如下：

CategoricalVocabulary 對(duì)象可以先構(gòu)建一個(gè)詞典，再做token化，還是不太熟，但是有一個(gè)小demo可以示范：

vocab = learn.preprocessing.CategoricalVocabulary() vocab.get("A") vocab.get("B") vocab.freeze() vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length=4,vocabulary=vocab,tokenizer_fn=list) tokens = vocab_processor.fit_transform(["ABC", "CBABAF"]) print(np.array(list(tokens)))

這里預(yù)先創(chuàng)建了一個(gè)詞典，添加了"A","B" 進(jìn)去，并且設(shè)置最大文本長(zhǎng)度為4，結(jié)果如下

我們可以還可以觀察得到的詞典，以dict的形式輸出這是一個(gè) 詞--->詞表id的映射

vocab_dict = vocab.vocabulary_._mapping print(vocab_dict)

分別輸出以上的中文詞表，和通過(guò)CategoricalVocabulary構(gòu)建的詞表如下

反向的索引即詞表id--->詞的映射這是一個(gè)列表

print(vocab_dict) print(vocab.vocabulary_._reverse_mapping)

可以通過(guò)id索引到詞

vocab.vocabulary_.reverse(3)

輸出在詞表中id為3的詞

3.存儲(chǔ)和加載

vocab.save('vocab.pickle') vocab = VocabularyProcessor.restore('vocab.pickle')

作者：NLP幼兒園
鏈接：https://www.jianshu.com/p/db400a569730
來(lái)源：簡(jiǎn)書(shū)
簡(jiǎn)書(shū)著作權(quán)歸作者所有，任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。

二、查看詞匯表的長(zhǎng)度以及詞匯不在詞典中的情況

from jieba import cut from tensorflow.contrib import learn import numpy as npDOCUMENTS = ['這是一條測(cè)試1','這是一條測(cè)試2','這是一條測(cè)試3','這是其他測(cè)試', ]def chinese_tokenizer(docs):for doc in docs:print(list(cut(doc)))yield list(cut(doc))vocab = learn.preprocessing.VocabularyProcessor(10, 0, tokenizer_fn=chinese_tokenizer) clf = vocab.fit(DOCUMENTS) vocab_dict = vocab.vocabulary_._mapping print(len(vocab_dict)) print(vocab_dict) print(np.array(list(clf.transform(DOCUMENTS+["你是牛逼的人"]))))

輸出：

['這是', '一條', '測(cè)試', '1']
['這是', '一條', '測(cè)試', '2']
['這是', '一條', '測(cè)試', '3']
['這是', '其他', '測(cè)試']
8
{'<UNK>': 0, '這是': 1, '一條': 2, '測(cè)試': 3, '1': 4, '2': 5, '3': 6, '其他': 7}
['這是', '一條', '測(cè)試', '1']
['這是', '一條', '測(cè)試', '2']
['這是', '一條', '測(cè)試', '3']
['這是', '其他', '測(cè)試']
['你', '是', '牛', '逼', '的', '人']
[[1 2 3 4 0 0 0 0 0 0]
?[1 2 3 5 0 0 0 0 0 0]
?[1 2 3 6 0 0 0 0 0 0]
?[1 7 3 0 0 0 0 0 0 0]
?[0 0 0 0 0 0 0 0 0 0]]

總結(jié)

以上是生活随笔為你收集整理的用tf的VocabularyProcessor使用细节的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python自建包的根目录可以直接imp
下一篇： xgboost与coo_matrix