日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python停用词_python利用jieba分词进行分词,去停止词(停用词)。

發布時間:2023/12/10 python 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python停用词_python利用jieba分词进行分词,去停止词(停用词)。 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上一篇文章介紹了利用python進行SEO詞庫去重,去重后需要對現有的詞庫進行去停止詞操作,這里我們主要利用到了jieba分詞的搜索引擎模式cut_for_search() .

去停止詞主要利用了停止詞詞庫進行去重set(jiebas)-set(stopkey)

Python |copy code |?

01#coding:utf-8

02import jieba,csv

03fenci=open(r'fenci_ddc.csv','w') #數據寫入到fenci_key里

04stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]

05#讀取停止詞文件并保存到列表stopkey

06key=csv.reader(file('key_ddc.csv','rb')) #讀取需要處理的詞庫:key_ddc.csv

07list1=[]

08i=0

09

10for keys in key:

11

12if i==0:

13i=1

14jiebas=jieba.cut_for_search(keys[0]) #jieba.cut_for_search() 結巴分詞搜索引擎模式

15fenci_key="/".join(list(set(jiebas)-set(stopkey))) #使用join鏈接字符串輸出

16list1.append(fenci_key.strip()) #將數據添加到list1列表

17print u'程序處理中,請等待...'

18else:

19jiebas=jieba.cut_for_search(keys[0])

20fenci_key="/".join(list(set(jiebas)-set(stopkey)))

21list1.append(fenci_key.strip())

22

23zidian={}.fromkeys(list1).keys() #字典去重的方法

24

25for zd in zidian:

26try:

27print zd

28except:

29pass

30fenci.writelines(zd.encode('utf-8')) #需要轉換成utf-8格式輸出

31fenci.writelines('\n')

32

33fenci.close()

34

35

36

37

38

39

總結

以上是生活随笔為你收集整理的python停用词_python利用jieba分词进行分词,去停止词(停用词)。的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。