當前位置：首頁 > 编程语言 > python >内容正文

python

python停用词_python利用jieba分词进行分词，去停止词（停用词）。

發布時間：2023/12/10 python 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 python停用词_python利用jieba分词进行分词，去停止词（停用词）。小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上一篇文章介紹了利用python進行SEO詞庫去重，去重后需要對現有的詞庫進行去停止詞操作，這里我們主要利用到了jieba分詞的搜索引擎模式cut_for_search() .

去停止詞主要利用了停止詞詞庫進行去重set(jiebas)-set(stopkey)

Python |copy code |?

01#coding:utf-8

02import jieba,csv

03fenci=open(r'fenci_ddc.csv','w') #數據寫入到fenci_key里

04stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]

05#讀取停止詞文件并保存到列表stopkey

06key=csv.reader(file('key_ddc.csv','rb')) #讀取需要處理的詞庫：key_ddc.csv

07list1=[]

08i=0

10for keys in key:

12if i==0:

13i=1

14jiebas=jieba.cut_for_search(keys[0]) #jieba.cut_for_search() 結巴分詞搜索引擎模式

15fenci_key="/".join(list(set(jiebas)-set(stopkey))) #使用join鏈接字符串輸出

16list1.append(fenci_key.strip()) #將數據添加到list1列表

17print u'程序處理中，請等待...'

18else:

19jiebas=jieba.cut_for_search(keys[0])

20fenci_key="/".join(list(set(jiebas)-set(stopkey)))

21list1.append(fenci_key.strip())

23zidian={}.fromkeys(list1).keys() #字典去重的方法

25for zd in zidian:

26try:

27print zd

28except:

29pass

30fenci.writelines(zd.encode('utf-8')) #需要轉換成utf-8格式輸出

31fenci.writelines('\n')

33fenci.close()

以上是生活随笔為你收集整理的python停用词_python利用jieba分词进行分词，去停止词（停用词）。的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。