日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python去掉停用词_Python - 删除停用词

發布時間:2023/12/10 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python去掉停用词_Python - 删除停用词 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

停用詞是英語單詞,對句子沒有多大意義。在不犧牲句子含義的情況下,可以安全地忽略它們。例如,像,他,等等的單詞已經在名為語料庫的語料庫中捕獲了這些單詞。我們首先將它下載到我們的python環境中。

import nltk

nltk.download('stopwords')

它將下載帶有英語停用詞的文件。

驗證停用詞

from nltk.corpus import stopwords

stopwords.words('english')

print stopwords.words() [620:680]

當我們運行上面的程序時,我們得到以下輸出 -

[u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she',

u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them',

u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this',

u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be',

u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing',

u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until',

u'while', u'of', u'at']

除了英語之外,具有這些停用詞的各種語言如下。

from nltk.corpus import stopwords

print stopwords.fileids()

當我們運行上面的程序時,我們得到以下輸出 -

[u'arabic', u'azerbaijani', u'danish', u'dutch', u'english', u'finnish',

u'french', u'german', u'greek', u'hungarian', u'indonesian', u'italian',

u'kazakh', u'nepali', u'norwegian', u'portuguese', u'romanian', u'russian',

u'spanish', u'swedish', u'turkish']

我們使用下面的示例來說明如何從單詞列表中刪除停用詞。

from nltk.corpus import stopwords

en_stops = set(stopwords.words('english'))

all_words = ['There', 'is', 'a', 'tree','near','the','river']

for word in all_words:

if word not in en_stops:

print(word)

當我們運行上面的程序時,我們得到以下輸出 -

There

tree

near

river

總結

以上是生活随笔為你收集整理的python去掉停用词_Python - 删除停用词的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。