日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python去除中文停用词_删除停止词Python

發布時間:2024/10/14 python 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python去除中文停用词_删除停止词Python 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

你不需要在用戶定義的函數中構造所有的代碼,我不確定這背后是否有原因,但問題非常簡單,在閱讀完你的datafrme之后,可以用實際上2行代碼簡潔地解決。在import pandas as pd

from nltk.corpus import stopwords

創建停止語列表

^{pr2}$

輸出['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

我將演示如何使用約翰·濟慈的一首詩的前幾行,這是一個.txt文件,我把它讀入數據幀。在df = pd.read_table('keats.txt', error_bad_lines = False, header = -1 , names = ['poem'], na_filter= True)

df

{a1}

將新列添加到df call itcleaned,其中每一行都是小寫并按空格拆分

這實際上是您處理的第一步

您可以使用

1)lambda運算符df['cleaned'] = list(map(lambda x: x.lower().split(), df.poem))

或2)listcompdf['cleaned'] = [x.lower().split() for x in df.poem]

第二步也是最后一步是過濾停止詞,最簡單的方法是使用map和filter相結合。

將此列作為df的第三列:df['filtered'] = list(map(lambda line: list(filter(lambda word: word not in stop_words, line)), df.cleaned))

df

因此,正如我前面提到的,您只需要兩行代碼就可以處理數據幀。

.

.

.

在最后一步中還有一點需要解包,讓我們看一下列中的第一行df.清潔在df.cleaned[0]

輸出['deep', 'in', 'the', 'shady', 'sadness', 'of', 'a', 'vale']

map(filter(lambda x: according to condition, data_source))的作用是過濾不在停止詞中的單詞list(filter(lambda word: word not in stop_words, df.cleaned[0]))

輸出['deep', 'shady', 'sadness', 'vale']

此篩選器語句充當一個函數,可以將其傳遞到map(function, column)

其中filter是函數參數,列是列df.cleaned

因此,過濾(系統)將被迭代地應用于每一行,結果將被發布到新的列中。

如果仔細觀察,可以看到map/filter語句的框架如下所示:

映射(lambda:行,過濾器(lambda word:字不在停止字中,行),源代碼_u行)

請注意,行是如何從數據幀中的每一行中提取的,然后傳遞到篩選表達式中,在該表達式中篩選該行中的單詞。在

希望我澄清這件事做得很好。

.

.

. 在

既然您是python新手,請允許我分享一些想法

python是一種優雅的語言,其目的是簡潔易讀。我們能做的最困難的事情就是寫顯式for循環,除非必要的for循環幾乎總是可以用listcomps或生成器表達式替換。用戶定義函數也是如此。在

2-有很多it代碼是從2.7繼承的,比如words[:]例如,你不再需要[:]位了。在

3-試著理解容器的屬性,python中的容器是像list,tuple,set,dict。當你試圖對集合進行切片時,通常會返回集合上面的錯誤,我的意思是subset,take-part。如果你有一個集合,調用是set_1,你做set_1[:10],你得到{}。這是因為在python中,集合是非序列容器,這意味著集合的元素沒有分配索引,因此不能像處理列表那樣對集合進行排序或子集化,也不能調用第一、第二或第n個元素。可以使用dir(object)顯示對象的實例方法和屬性

4-永遠不要停止修改代碼

總結

以上是生活随笔為你收集整理的python去除中文停用词_删除停止词Python的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。